Glosario MY

Data Analytics

Proceso completo de exploración, limpieza, transformación y análisis de datos con el objetivo de encontrar patrones, obtener insights y respaldar la toma de decisiones estratégicas. Incluye técnicas estadísticas, programación, visualización y uso de herramientas de BI.

Excel

Herramienta fundamental en análisis de datos. Permite manipular información mediante tablas, funciones, gráficos, tablas dinámicas y automatizaciones con VBA. Excel es ideal para análisis rápidos, reportes operativos y preparación de datos previa a otros sistemas.

SQL

Lenguaje estándar para consultar y manipular datos en bases relacionales. Con SQL podés filtrar información, unir tablas, hacer cálculos, crear vistas, automatizar procesos y trabajar con grandes volúmenes de datos estructurados. Es una habilidad esencial para cualquier analista.

Power BI

Plataforma de análisis y visualización que permite crear dashboards interactivos y compartir reportes de forma segura. Integra datos desde múltiples fuentes, aplica modelos DAX y facilita el análisis ágil para equipos y empresas.

Data Quality

Conjunto de técnicas y procesos que aseguran que los datos sean precisos, completos, consistentes, actualizados y libres de errores. Incluye perfiles de datos, estandarización, validaciones, limpieza, reglas de negocio y monitoreo continuo para garantizar información confiable.

ETL / ELT

Procesos para mover y transformar datos desde múltiples fuentes hacia un repositorio central como un Data Warehouse. ETL significa Extraer–Transformar–Cargar; ELT cambia el orden y transforma los datos dentro del motor destino, optimizando rendimiento en entornos modernos.

KPIs

Indicadores clave de rendimiento que permiten evaluar el desempeño de un proceso, área o negocio. Son métricas estratégicas alineadas a objetivos, que permiten medir progreso, oportunidades y resultados concretos.

Dashboard

Panel visual interactivo que muestra información relevante mediante gráficos, tablas y métricas. Su objetivo es comunicar insights de forma clara, rápida y accionable para facilitar decisiones.

Modelado de Datos

Proceso de estructurar datos en modelos analíticos eficientes, como esquemas estrella o copo de nieve. Define tablas de hechos, dimensiones, relaciones y reglas para optimizar consultas, reportes y análisis.

Pipelines

Un pipeline es una secuencia automatizada de pasos que procesan datos o ejecutan tareas de forma ordenada. Cada etapa toma una entrada, realiza una operación y envía el resultado a la siguiente etapa. Se usan para estandarizar y agilizar procesos como la recolección, transformación, análisis, entrenamiento de modelos o despliegue de software. Los pipelines permiten que los flujos de trabajo sean repetibles, consistentes y fáciles de mantener, reduciendo errores manuales y asegurando que cada paso ocurra de la misma manera cada vez.

Outliers

Los outliers son valores atípicos dentro de un conjunto de datos: puntos que se alejan significativamente del comportamiento general del resto. Pueden aparecer por errores de carga, mediciones incorrectas o porque realmente representan casos excepcionales. Identificarlos es clave porque pueden distorsionar análisis estadísticos, sesgar modelos y generar conclusiones incorrectas. Dependiendo del contexto, los outliers pueden corregirse, eliminarse o analizarse por separado.

Query

Una query es una consulta escrita en SQL que sirve para obtener, insertar, actualizar o eliminar datos dentro de una base de datos.

Tabla (Table)

Estructura donde se almacenan los datos en filas y columnas. Cada tabla representa una entidad, como “clientes” o “ventas”.

Registro

Cada fila dentro de una tabla. Representa una instancia concreta de la entidad, como un cliente específico.

Columna (Column)

Atributo o característica de la entidad. Define qué tipo de información guarda cada registro.

Primary Key

Columna (o conjunto de columnas) que identifica de forma única cada registro en una tabla. No puede repetirse ni ser nula.

Foreign Key

Columna que crea una relación con la primary key de otra tabla. Sirve para vincular datos entre tablas.

Join

Operación que combina datos de dos o más tablas basándose en columnas relacionadas. Incluye INNER JOIN, LEFT JOIN, RIGHT JOIN y FULL JOIN.

Index

Estructura que acelera las búsquedas dentro de una tabla, permitiendo encontrar datos más rápido mediante un ordenamiento optimizado.

View (Vista)

Tabla virtual basada en una consulta SQL. No almacena datos físicamente; muestra resultados generados al momento.

Stored Procedure

Bloque de código SQL almacenado en el servidor que se ejecuta cuando se necesita. Útil para automatizar procesos repetitivos.

Trigger

Es un bloque de código que SQL ejecuta automáticamente cuando ocurre una acción sobre una tabla, como un INSERT, UPDATE o DELETE. Sirve para automatizar reglas, auditorías o controles sin necesidad de que el desarrollador lo programe manualmente cada vez.

Constraint

Reglas que garantizan la integridad de los datos, como NOT NULL, UNIQUE, CHECK o PRIMARY KEY.

Normalización

Proceso que organiza los datos para evitar duplicados y inconsistencias, mejorando la integridad y eficiencia de la base de datos.

Query Optimization

Técnicas para mejorar el rendimiento de las consultas, reduciendo tiempos de ejecución y uso de recursos.

Transaction

Grupo de operaciones que se ejecutan como una unidad indivisible. Si una parte falla, todo se revierte para mantener la integridad de los datos.

DML (Data Manipulation Language)

Conjunto de comandos SQL utilizados para manipular datos dentro de las tablas. Incluye operaciones como INSERT, UPDATE, DELETE y SELECT.

DDL (Data Definition Language)

Lenguaje SQL encargado de definir y modificar la estructura de la base de datos. Incluye comandos como CREATE, ALTER, DROP y TRUNCATE.

DCL (Data Control Language)

Comandos usados para controlar permisos y accesos a la base de datos. Incluye GRANT y REVOKE.

TCL (Transaction Control Language)

Conjunto de comandos que gestionan transacciones dentro de la base de datos. Incluye COMMIT, ROLLBACK y SAVEPOINT.

CRUD

Acrónimo de Create, Read, Update y Delete. Representa las cuatro operaciones básicas que se pueden realizar sobre los datos en una aplicación o base de datos.

Schema

Estructura lógica que organiza y agrupa objetos de la base de datos como tablas, vistas y funciones. Funciona como un contenedor que facilita la administración.

Normalización

Proceso de estructurar una base de datos para minimizar la redundancia y mejorar la integridad de los datos. Divide una tabla en otras más pequeñas basándose en reglas y dependencias entre atributos.

1NF (Primera Forma Normal)

Una tabla está en 1NF si todos sus valores son atómicos (sin listas, ni valores repetidos) y no existen filas duplicadas.

2NF (Segunda Forma Normal)

Una tabla está en 2NF si cumple 1NF y todos los atributos no clave dependen completamente de la clave primaria, evitando dependencias parciales.

3NF (Tercera Forma Normal)

Se alcanza 3NF cuando se está en 2NF y no existen dependencias transitivas; es decir, ningún atributo no clave depende de otro atributo no clave.

BCNF (Forma Normal de Boyce-Codd)

Variación más estricta de 3NF. Una tabla está en BCNF si, para cada dependencia funcional, la parte izquierda es una clave candidata. Elimina anomalías avanzadas.

4NF (Cuarta Forma Normal)

Se alcanza 4NF eliminando dependencias multivaluadas. Garantiza que una tabla no combine múltiples relaciones independientes entre conjuntos de atributos.

5NF (Quinta Forma Normal)

Evita redundancias causadas por descomposiciones complejas. Toda relación debe poder recomponerse sin pérdidas a partir de sus partes más pequeñas basadas en dependencias de unión.

Dependencia Funcional

Relación entre atributos donde uno determina el valor de otro. Es la base teórica principal de la normalización.

Dependencia Parcial

Ocurre cuando un atributo depende solo de una parte de una clave compuesta y no de la clave completa. Se elimina al pasar a 2NF.

Dependencia Transitiva

Se da cuando un atributo no clave depende de otro atributo no clave, en lugar de depender directamente de la clave primaria. Se elimina en 3NF.

Clave Candidata

Conjunto mínimo de atributos que pueden identificar de forma única un registro. Una tabla puede tener varias claves candidatas, pero solo una se elige como clave primaria.

Dependencia Multivaluada

Tipo de dependencia donde un atributo puede tener múltiples valores independientes para la misma clave. Se aborda en 4NF.

Desnormalización

Proceso intencional de reducir el nivel de normalización para mejorar el rendimiento. Puede incluir duplicación de datos para acelerar consultas.

Anomalías de Actualización

Problemas que ocurren cuando la estructura de la base no está normalizada: anomalías de inserción, actualización y eliminación. La normalización las evita.

Media

Promedio aritmético de un conjunto de valores. Es una medida de tendencia central utilizada para representar el valor típico de un conjunto de datos.

Mediana

Valor que se encuentra en el centro del conjunto cuando los datos están ordenados. Es menos sensible a outliers que la media.

Moda

Valor que aparece con mayor frecuencia en un conjunto de datos. Útil para analizar distribuciones con patrones repetidos.

Varianza

Medida que indica cuánto se dispersan los datos respecto a la media. Una varianza alta implica datos muy dispersos.

Desviación Estándar

Raíz cuadrada de la varianza. Expresa la dispersión en las mismas unidades de los datos originales.

Distribución Normal

Distribución probabilística con forma de campana donde la mayoría de los valores se agrupan alrededor de la media. Muchas técnicas estadísticas asumen normalidad.

Sesgo

Desviación sistemática que hace que un estimador o modelo esté consistentemente alejado del valor real. Puede distorsionar análisis y predicciones.

Correlación

Medida que indica el grado de relación entre dos variables. Va de -1 a 1 y no implica causalidad.

Coeficiente de Correlación (Pearson)

Indica la fuerza y dirección de la relación lineal entre dos variables numéricas.

Covarianza

Mide cómo varían conjuntamente dos variables. Positiva si aumentan juntas y negativa si se mueven en sentido opuesto.

Regresión Lineal

Técnica estadística que modela la relación entre una variable dependiente y una o más independientes mediante una línea recta.

Intervalo de Confianza

Rango de valores dentro del cual probablemente se encuentra el parámetro poblacional. Indica incertidumbre en las estimaciones.

Valor p (p-value)

Probabilidad de obtener un resultado tan extremo como el observado si la hipótesis nula fuera verdadera. Se usa para evaluar significancia estadística.

Hipótesis Nula

Suposición inicial que afirma que no hay efecto o diferencia entre grupos. Se contrasta con los datos.

Hipótesis Alternativa

Proposición que plantea que existe una diferencia o efecto real. Es lo que se intenta demostrar con los datos.

Z-Score

Valor que indica cuántas desviaciones estándar está un dato por encima o por debajo de la media. Útil para detectar outliers.

Percentiles

Valores que dividen los datos en cien partes. Se usan para analizar distribuciones y posiciones relativas.

Cuartiles

Dividen el conjunto de datos en cuatro segmentos iguales. Útiles para identificar dispersión y detectar outliers.

Asimetría (Skewness)

Mide si la distribución está inclinada hacia la derecha o izquierda. Indica si los datos no son simétricos.

Curtosis (Kurtosis)

Indica qué tan pesadas son las colas de una distribución comparada con la normal. Relacionada con frecuencia de outliers.

Glosario de Data Analytics, SQL y Business Intelligence