De Excel a Parquet: la madurez del dato

Toda organización tiene una historia de datos que empieza igual: una hoja de cálculo.

No hay nada malo con eso. Excel es brillante para lo que fue diseñado — análisis ad hoc, reportes rápidos, exploración. El problema no es Excel. El problema es cuando Excel se convierte en tu base de datos de producción.

El síntoma

Lo reconoces cuando ves esto:

→ Archivos llamados ventas_final_v3_ESTE.xlsx
→ Macros que "nadie toca porque si no se rompe todo"
→ Un analista que tarda 3 horas cada lunes en consolidar archivos de distintas áreas
→ Datos que cambian entre una versión y otra sin trazabilidad

El dato existe, pero no es confiable. Y un dato que no es confiable es peor que no tener dato.

¿Qué es Parquet y por qué importa?

Parquet es un formato de almacenamiento columnar, open source, diseñado para datos a escala. Nació en el ecosistema Hadoop pero hoy es el estándar de facto en pipelines modernos — lo usan Spark, Databricks, DuckDB, BigQuery, y casi cualquier herramienta de datos seria.

Comparado con Excel o CSV, las diferencias son importantes: Parquet almacena los datos por columna (no por fila), lo que permite leer solo las columnas que necesitás. Tiene compresión nativa alta con algoritmos como Snappy o Zstd. El schema es explícito y tipado — no implícito como en un CSV. Y escala sin problemas desde miles hasta billones de filas.

Un archivo CSV de 1 GB puede ser 150 MB en Parquet con mejor performance de lectura. No es magia — es diseño.

La madurez no es el formato

Migrar a Parquet no te hace una empresa de datos. Lo que importa es lo que el cambio representa:

1. Tenés pipelines, no personas que mueven archivos a mano. 2. Tenés schema: los tipos de datos son explícitos y validados. 3. Tenés versionado: sabés qué cambió, cuándo y quién. 4. Tenés separación entre quien produce el dato y quien lo consume.

Eso es madurez. Parquet es solo la evidencia de que llegaste ahí.

¿Por dónde empezar?

Si hoy estás en Excel y querés dar el primer paso sin romper todo:

import pandas as pd

df = pd.read_excel("ventas.xlsx")
df.to_parquet("ventas.parquet", index=False)

Así de simple. Desde ahí podés leerlo con DuckDB, Polars, Spark, o lo que necesites. El siguiente paso es automatizar ese proceso. Y el siguiente, agregarle schema validation. Y el siguiente, orquestarlo.

Cada paso es una señal de que tus datos se están volviendo un activo real, no un archivo en el escritorio de alguien.

Conclusión

No se trata de demonizar Excel — se trata de reconocer cuándo una herramienta ya no es suficiente para el problema que tenés. El camino de Excel a Parquet es corto técnicamente, pero largo organizacionalmente. Y eso es lo que lo hace interesante.