Proceso completo de exploración, limpieza, transformación y análisis de datos con el objetivo de encontrar patrones, obtener insights y respaldar la toma de decisiones estratégicas. Incluye técnicas estadísticas, programación, visualización y uso de herramientas de BI.
Herramienta fundamental en análisis de datos. Permite manipular información mediante tablas, funciones, gráficos, tablas dinámicas y automatizaciones con VBA. Excel es ideal para análisis rápidos, reportes operativos y preparación de datos previa a otros sistemas.
Lenguaje estándar para consultar y manipular datos en bases relacionales. Con SQL podés filtrar información, unir tablas, hacer cálculos, crear vistas, automatizar procesos y trabajar con grandes volúmenes de datos estructurados. Es una habilidad esencial para cualquier analista.
Plataforma de análisis y visualización que permite crear dashboards interactivos y compartir reportes de forma segura. Integra datos desde múltiples fuentes, aplica modelos DAX y facilita el análisis ágil para equipos y empresas.
Conjunto de técnicas y procesos que aseguran que los datos sean precisos, completos, consistentes, actualizados y libres de errores. Incluye perfiles de datos, estandarización, validaciones, limpieza, reglas de negocio y monitoreo continuo para garantizar información confiable.
Procesos para mover y transformar datos desde múltiples fuentes hacia un repositorio central como un Data Warehouse. ETL significa Extraer–Transformar–Cargar; ELT cambia el orden y transforma los datos dentro del motor destino, optimizando rendimiento en entornos modernos.
Indicadores clave de rendimiento que permiten evaluar el desempeño de un proceso, área o negocio. Son métricas estratégicas alineadas a objetivos, que permiten medir progreso, oportunidades y resultados concretos.
Panel visual interactivo que muestra información relevante mediante gráficos, tablas y métricas. Su objetivo es comunicar insights de forma clara, rápida y accionable para facilitar decisiones.
Proceso de estructurar datos en modelos analíticos eficientes, como esquemas estrella o copo de nieve. Define tablas de hechos, dimensiones, relaciones y reglas para optimizar consultas, reportes y análisis.
Un pipeline es una secuencia automatizada de pasos que procesan datos o ejecutan tareas de forma ordenada. Cada etapa toma una entrada, realiza una operación y envía el resultado a la siguiente etapa. Se usan para estandarizar y agilizar procesos como la recolección, transformación, análisis, entrenamiento de modelos o despliegue de software. Los pipelines permiten que los flujos de trabajo sean repetibles, consistentes y fáciles de mantener, reduciendo errores manuales y asegurando que cada paso ocurra de la misma manera cada vez.
Los outliers son valores atípicos dentro de un conjunto de datos: puntos que se alejan significativamente del comportamiento general del resto. Pueden aparecer por errores de carga, mediciones incorrectas o porque realmente representan casos excepcionales. Identificarlos es clave porque pueden distorsionar análisis estadísticos, sesgar modelos y generar conclusiones incorrectas. Dependiendo del contexto, los outliers pueden corregirse, eliminarse o analizarse por separado.
Una query es una consulta escrita en SQL que sirve para obtener, insertar, actualizar o eliminar datos dentro de una base de datos.
Estructura donde se almacenan los datos en filas y columnas. Cada tabla representa una entidad, como “clientes” o “ventas”.
Cada fila dentro de una tabla. Representa una instancia concreta de la entidad, como un cliente específico.
Atributo o característica de la entidad. Define qué tipo de información guarda cada registro.
Columna (o conjunto de columnas) que identifica de forma única cada registro en una tabla. No puede repetirse ni ser nula.
Columna que crea una relación con la primary key de otra tabla. Sirve para vincular datos entre tablas.
Operación que combina datos de dos o más tablas basándose en columnas relacionadas. Incluye INNER JOIN, LEFT JOIN, RIGHT JOIN y FULL JOIN.
Estructura que acelera las búsquedas dentro de una tabla, permitiendo encontrar datos más rápido mediante un ordenamiento optimizado.
Tabla virtual basada en una consulta SQL. No almacena datos físicamente; muestra resultados generados al momento.
Bloque de código SQL almacenado en el servidor que se ejecuta cuando se necesita. Útil para automatizar procesos repetitivos.
Es un bloque de código que SQL ejecuta automáticamente cuando ocurre una acción sobre una tabla, como un INSERT, UPDATE o DELETE. Sirve para automatizar reglas, auditorías o controles sin necesidad de que el desarrollador lo programe manualmente cada vez.
Reglas que garantizan la integridad de los datos, como NOT NULL, UNIQUE, CHECK o PRIMARY KEY.
Proceso que organiza los datos para evitar duplicados y inconsistencias, mejorando la integridad y eficiencia de la base de datos.
Técnicas para mejorar el rendimiento de las consultas, reduciendo tiempos de ejecución y uso de recursos.
Grupo de operaciones que se ejecutan como una unidad indivisible. Si una parte falla, todo se revierte para mantener la integridad de los datos.
Conjunto de comandos SQL utilizados para manipular datos dentro de las tablas. Incluye operaciones como INSERT, UPDATE, DELETE y SELECT.
Lenguaje SQL encargado de definir y modificar la estructura de la base de datos. Incluye comandos como CREATE, ALTER, DROP y TRUNCATE.
Comandos usados para controlar permisos y accesos a la base de datos. Incluye GRANT y REVOKE.
Conjunto de comandos que gestionan transacciones dentro de la base de datos. Incluye COMMIT, ROLLBACK y SAVEPOINT.
Acrónimo de Create, Read, Update y Delete. Representa las cuatro operaciones básicas que se pueden realizar sobre los datos en una aplicación o base de datos.
Estructura lógica que organiza y agrupa objetos de la base de datos como tablas, vistas y funciones. Funciona como un contenedor que facilita la administración.
Proceso de estructurar una base de datos para minimizar la redundancia y mejorar la integridad de los datos. Divide una tabla en otras más pequeñas basándose en reglas y dependencias entre atributos.
Una tabla está en 1NF si todos sus valores son atómicos (sin listas, ni valores repetidos) y no existen filas duplicadas.
Una tabla está en 2NF si cumple 1NF y todos los atributos no clave dependen completamente de la clave primaria, evitando dependencias parciales.
Se alcanza 3NF cuando se está en 2NF y no existen dependencias transitivas; es decir, ningún atributo no clave depende de otro atributo no clave.
Variación más estricta de 3NF. Una tabla está en BCNF si, para cada dependencia funcional, la parte izquierda es una clave candidata. Elimina anomalías avanzadas.
Se alcanza 4NF eliminando dependencias multivaluadas. Garantiza que una tabla no combine múltiples relaciones independientes entre conjuntos de atributos.
Evita redundancias causadas por descomposiciones complejas. Toda relación debe poder recomponerse sin pérdidas a partir de sus partes más pequeñas basadas en dependencias de unión.
Relación entre atributos donde uno determina el valor de otro. Es la base teórica principal de la normalización.
Ocurre cuando un atributo depende solo de una parte de una clave compuesta y no de la clave completa. Se elimina al pasar a 2NF.
Se da cuando un atributo no clave depende de otro atributo no clave, en lugar de depender directamente de la clave primaria. Se elimina en 3NF.
Conjunto mínimo de atributos que pueden identificar de forma única un registro. Una tabla puede tener varias claves candidatas, pero solo una se elige como clave primaria.
Tipo de dependencia donde un atributo puede tener múltiples valores independientes para la misma clave. Se aborda en 4NF.
Proceso intencional de reducir el nivel de normalización para mejorar el rendimiento. Puede incluir duplicación de datos para acelerar consultas.
Problemas que ocurren cuando la estructura de la base no está normalizada: anomalías de inserción, actualización y eliminación. La normalización las evita.
Promedio aritmético de un conjunto de valores. Es una medida de tendencia central utilizada para representar el valor típico de un conjunto de datos.
Valor que se encuentra en el centro del conjunto cuando los datos están ordenados. Es menos sensible a outliers que la media.
Valor que aparece con mayor frecuencia en un conjunto de datos. Útil para analizar distribuciones con patrones repetidos.
Medida que indica cuánto se dispersan los datos respecto a la media. Una varianza alta implica datos muy dispersos.
Raíz cuadrada de la varianza. Expresa la dispersión en las mismas unidades de los datos originales.
Distribución probabilística con forma de campana donde la mayoría de los valores se agrupan alrededor de la media. Muchas técnicas estadísticas asumen normalidad.
Desviación sistemática que hace que un estimador o modelo esté consistentemente alejado del valor real. Puede distorsionar análisis y predicciones.
Medida que indica el grado de relación entre dos variables. Va de -1 a 1 y no implica causalidad.
Indica la fuerza y dirección de la relación lineal entre dos variables numéricas.
Mide cómo varían conjuntamente dos variables. Positiva si aumentan juntas y negativa si se mueven en sentido opuesto.
Técnica estadística que modela la relación entre una variable dependiente y una o más independientes mediante una línea recta.
Rango de valores dentro del cual probablemente se encuentra el parámetro poblacional. Indica incertidumbre en las estimaciones.
Probabilidad de obtener un resultado tan extremo como el observado si la hipótesis nula fuera verdadera. Se usa para evaluar significancia estadística.
Suposición inicial que afirma que no hay efecto o diferencia entre grupos. Se contrasta con los datos.
Proposición que plantea que existe una diferencia o efecto real. Es lo que se intenta demostrar con los datos.
Valor que indica cuántas desviaciones estándar está un dato por encima o por debajo de la media. Útil para detectar outliers.
Valores que dividen los datos en cien partes. Se usan para analizar distribuciones y posiciones relativas.
Dividen el conjunto de datos en cuatro segmentos iguales. Útiles para identificar dispersión y detectar outliers.
Mide si la distribución está inclinada hacia la derecha o izquierda. Indica si los datos no son simétricos.
Indica qué tan pesadas son las colas de una distribución comparada con la normal. Relacionada con frecuencia de outliers.