Data y machine learning
47 minutos de lectura
- Datos y ML- Fundamentos matemáticos y computacionales - Álgebra lineal para datos y modelos- Vectores, matrices y tensores
- Operaciones lineales y productos matriciales
- Dependencia lineal y rango
- Espacios vectoriales y subespacios columna/fila
- Descomposición en valores y vectores propios
- Descomposición SVD y reducción de dimensionalidad
- Proyecciones ortogonales y mínimos cuadrados
- Sistemas sobredeterminados y pseudoinversa
- Estabilidad numérica en álgebra lineal
- Representación dispersa y cómputo eficiente
 
- Cálculo diferencial e introducción a optimización continua- Derivadas parciales y gradiente
- Regla de la cadena en espacios de alta dimensión
- Hessiano y curvatura local
- Óptimos locales y estacionariedad
- Convexidad básica y condiciones de mínimo global
- Funciones de pérdida diferenciables
- Descenso por gradiente básico
- Paso de aprendizaje y estabilidad
- Problemas mal condicionados
- Regularización como término en la función objetivo
 
- Optimización convexa y dualidad (Lagrange, KKT)- Funciones convexas y conjuntos convexos
- Programas cuadráticos y lineales
- Multiplicadores de Lagrange
- Condiciones KKT
- Dualidad primal-dual
- Interpretación económica de las variables duales
- Soft constraints vs hard constraints
- Regularización L1/L2 como restricciones
- Sparsity inducida por L1
- Convergencia garantizada en problemas convexos
 
- Métodos de optimización numérica (gradiente, Newton, quasi-Newton, Adam)- Gradiente descendente estocástico (SGD)
- Momentum y aceleración
- Métodos de segundo orden y Newton
- Métodos quasi-Newton (BFGS, L-BFGS)
- Adam y variantes adaptativas
- Decaimiento del learning rate
- Batch vs mini-batch vs online
- Early stopping como control de sobreajuste
- Paisajes no convexos y mínimos locales planos
- Estabilidad numérica en entrenamiento profundo
 
- Probabilidad básica y variables aleatorias- Espacios de probabilidad y eventos
- Variables aleatorias discretas y continuas
- Funciones de densidad y de distribución
- Esperanza, varianza y covarianza
- Ley de los grandes números
- Teorema central del límite
- Distribuciones comunes (Bernoulli, Normal, Poisson, Exponencial)
- Independencia y correlación
- Probabilidad condicional y Bayes
- Muestreo Monte Carlo básico
 
- Inferencia estadística elemental (muestreo, estimación, sesgo/varianza)- Muestra vs población
- Estimadores puntuales y por intervalo
- Propiedades de un buen estimador
- Sesgo vs varianza
- Reamostrado bootstrap
- Intervalos de confianza
- Test de hipótesis como decisión binaria
- p-value y error tipo I/II
- Corrección por comparaciones múltiples
- Incertidumbre y comunicación de error
 
- Teoría de la información (entropía, divergencia)- Entropía de Shannon
- Información mutua
- Divergencia KL
- Cross-entropy como función de pérdida
- Codificación óptima y compresión
- Redundancia y correlación de atributos
- Selección de variables por información mutua
- Regularización basada en información
- Máxima entropía
- Relación entre entropía y incertidumbre en modelos
 
 
- Álgebra lineal para datos y modelos
- Fundamentos de datos y análisis cuantitativo - Tipos y formatos de datos (estructurados, semiestructurados, no estructurados)- Tabular relacional
- JSON, logs y eventos
- Texto libre
- Imágenes y señales
- Datos de series temporales
- Sensores y telemetría
- Datos geoespaciales
- Datos etiquetados vs no etiquetados
- Datos sintéticos
- Datos sensibles y regulados
 
- Manipulación y transformación de datos- Joins y merges
- Filtrado y selección de columnas
- Agregaciones y group-by
- Pivot y reshaping
- Normalización de unidades y escalas
- Detección de duplicados
- Enriquecimiento con fuentes externas
- Procesamiento batch vs streaming
- Construcción de features derivadas
- Documentación de transformaciones
 
- Limpieza, imputación, normalización y validación- Detección de valores faltantes
- Imputación numérica y categórica
- Outliers y recortes (winsorizing)
- Estandarización y escalamiento
- Codificación categórica
- Validación de rangos y formatos
- Detección de drift en el esquema
- Calidad de etiquetas
- Auditoría de calidad de datos
- Trazabilidad de cambios en datos críticos
 
- Versionado de datos, linaje y reproducibilidad de datasets- Linaje de columnas (origen-transformación-destino)
- Versionado de tablas y snapshots
- Versionado de esquemas y contratos
- Control de acceso a datasets históricos
- Metadatos y catálogo de datos
- Datasets “golden” y certificación
- Reproducibilidad de informes
- Retención y expiración de datos
- Ciclo de vida de datasets críticos
- Auditoría y cumplimiento
 
- Series temporales básicas: agregaciones, ventanas de tiempo, estacionalidad- Ventanas móviles y acumuladas
- Downsampling y resampling
- Estacionalidad diaria / semanal / anual
- Tendencia y nivel
- Suavizamiento exponencial
- Retención de usuarios con ventanas móviles
- Detección de picos y anomalías
- Lag features y lead features
- Forecasting corto plazo vs largo plazo
- Métricas de error en pronóstico
 
- Métricas de negocio y definición de KPI- Métricas de adquisición, activación y retención
- Métricas de conversión y funnel
- Lifetime value (LTV)
- Churn y retención de clientes
- SLA / SLO operacionales
- Métricas de riesgo y fraude
- Métricas de satisfacción / NPS
- Métricas de eficiencia operativa y costo
- Métricas regulatorias
- Alineación métrica-equipo-dirección
 
- Segmentación, cohortes y comportamiento de usuarios- Cohortes por fecha de alta / adquisición
- Segmentación por uso de funcionalidades
- Valor económico por segmento
- Ciclo de vida del usuario
- RFM (recencia, frecuencia, monto)
- Funnels multietapa
- Abandono y puntos de fuga
- Segmentación geográfica
- Segmentación contextual / estacional
- Segmentación dinámica en tiempo real
 
- Analítica de producto y telemetría de uso- Instrumentación de eventos
- Definición de eventos de producto
- Propiedades de evento (metadata)
- Embudos de uso de funcionalidad
- Detección de fricción en la experiencia
- Impacto de nuevas features
- Alertas sobre caídas de uso
- Experimentos con cambios UI/UX
- Métricas de engagement
- Métricas de activación temprana
 
- Análisis geoespacial y datos con localización- Coordenadas y proyecciones
- Map matching y geofencing
- Densidad espacial y heatmaps
- Rutas, trayectorias y movilidad
- Clustering espacial
- Demanda geolocalizada
- Riesgo geográfico y cobertura
- Optimización logística
- Datos satelitales y sensores remotos
- Privacidad en datos de localización
 
- Análisis de riesgo, fraude y anomalías- Patrones transaccionales inusuales
- Umbrales dinámicos vs estáticos
- Reglas heurísticas vs modelos estadísticos
- Modelos de anomalía no supervisados
- Señales agregadas por usuario / dispositivo
- Escalonamiento de alertas
- Validación humana de fraudes
- Costo esperado del falso positivo
- Evasión adversaria
- Reportabilidad / cumplimiento interno
 
- Análisis exploratorio de datos (EDA)- Distribuciones y percentiles
- Relaciones bivariadas
- Correlaciones y multicolinealidad preliminar
- Outliers y colas gruesas
- Separación por subpoblaciones
- Drift temporal de las variables
- Calidad de etiquetado
- Variables candidatas a ser features
- Supuestos del modelo detectables a ojo
- Hallazgos accionables tempranos
 
- Visualización, storytelling con datos y comunicación ejecutiva- Elección de la visualización adecuada
- Minimalismo y señal vs ruido
- Gráficos para tendencias vs instantáneas
- Métricas únicas vs panel comparativo
- Narrativa causal vs narrativa descriptiva
- Comunicación a audiencias no técnicas
- Alertas visuales y semáforos ejecutivos
- Anotaciones y contexto histórico
- Métricas que importan al negocio
- Toma de decisión basada en evidencia
 
 
- Tipos y formatos de datos (estructurados, semiestructurados, no estructurados)
- Estadística, inferencia y causalidad - Estimadores, sesgo y varianza- Consistencia del estimador
- Insesgadez vs baja varianza
- Error cuadrático medio
- Trade-off sesgo/varianza
- Regularización como aumento de sesgo controlado
- Intervalos de error para métricas de negocio
- Estimación empírica vs paramétrica
- Regímenes de pocos datos
- Varianza en modelos complejos
- Incertidumbre comunicable al stakeholder
 
- Intervalos de confianza y tests de hipótesis- Hipótesis nula y alternativa
- Estadístico de prueba
- Distribución nula
- p-value y su interpretación
- Error tipo I y tipo II
- Intervalos de confianza vs tests
- Corrección por múltiples pruebas
- Equivalencia y tests de no-inferioridad
- Test unilateral vs bilateral
- Robustez frente a supuestos no cumplidos
 
- Comparación de grupos (t-test, χ², ANOVA)- Comparación de medias
- Comparación de proporciones
- Varianzas entre grupos
- Tabla de contingencia y χ²
- ANOVA de una vía
- ANOVA multifactorial
- Interacciones entre factores
- Efecto práctico vs efecto estadístico
- Corrección post-hoc
- Selección de la métrica de comparación
 
- Significancia estadística, potencia estadística y tamaño de muestra- Potencia estadística (power)
- Cálculo de tamaño mínimo de muestra
- Detección de efectos pequeños
- Curva ROC estadística de un experimento
- Balance costo/beneficio de experimentar
- Duración mínima de experimentos A/B
- Peeking y riesgo de look-ahead
- Sequential testing
- Stopping rules
- Validez científica vs velocidad de negocio
 
- Regresión lineal y múltiple (interpretación de coeficientes)- Modelo lineal clásico
- Supuestos del modelo lineal
- Coeficientes como efectos marginales
- Intervalos de confianza de coeficientes
- Interacciones y términos cruzados
- Variables categóricas y dummies
- Multicolinealidad en la práctica
- Heterocedasticidad
- Errores correlacionados en el tiempo
- Interpretabilidad ante audiencias ejecutivas
 
- Multicolinealidad y selección de variables- Matriz de correlación
- VIF (Variance Inflation Factor)
- Eliminación hacia atrás / hacia adelante
- Penalizaciones L1 y sparsity
- Selección basada en información mutua
- Selección basada en performance validada
- Variables redundantes
- Variables proxy de sesgos
- Coste de obtener cada variable
- Estabilidad de la selección en el tiempo
 
- Regularización estadística (ridge, lasso)- Ridge y contracción de coeficientes
- Lasso y sparsity
- Elastic Net
- Interpretación geométrica de L1 vs L2
- Evitar sobreajuste en alta dimensión
- Selección automática de variables con L1
- Penalización como control de complejidad
- Validación cruzada para λ óptimo
- Relación con Bayes (priors gaussianos / laplacianos)
- Impacto en interpretabilidad
 
- Inferencia bayesiana aplicada- Priors y posteiores
- Verosimilitud
- Actualización bayesiana con nueva evidencia
- Credible intervals vs confidence intervals
- Map vs MCMC
- Inferencia aproximada y variacional
- Bayes en experimentación online
- Priors informativos vs no informativos
- Mezcla de expertos bayesiana
- Comunicación probabilística a negocio
 
- Análisis causal (confusores, variables instrumentales, correlación vs causalidad)- Causa vs correlación
- Confusores y sesgo de omisión
- Diagramas causales (DAGs)
- Variables instrumentales
- Propensity score matching
- Inverse propensity weighting
- Diferencias en diferencias
- Modelos estructurales causales
- Identificación vs estimación
- Limitaciones prácticas de la inferencia causal
 
- Evaluación de impacto y uplift- Métricas de uplift individual
- Segmentación de tratamiento
- Heterogeneidad del efecto
- Lift de conversión
- ROI incremental
- Selección de población objetivo
- Riesgo regulatorio en targeting diferencial
- Equidad en la asignación de tratamiento
- Priorización operativa de campañas
- Medición post-lanzamiento (observacional vs experimental)
 
 
- Estimadores, sesgo y varianza
- Teoría del aprendizaje automático - Formulación de aprendizaje supervisado, no supervisado y semisupervisado- Objetivos de predicción vs descubrimiento de estructura
- Etiquetas fuertes vs etiquetas débiles
- Dependencia de la señal de entrenamiento
- Supuestos sobre la distribución de datos
- Aprendizaje transductivo vs inductivo
- Riesgo empírico vs riesgo verdadero
- Funciones objetivo típicas por tipo de tarea
- Escenarios con datos limitados o costosos
- Relación con aprendizaje activo
- Transferencia entre paradigmas (pseudo-etiquetado)
 
- Funciones de pérdida y significado estadístico- Pérdida cuadrática y supuestos gaussianos
- Entropía cruzada y clasificación probabilística
- Hinge loss y márgenes
- Pérdidas robustas a outliers (Huber)
- Pérdidas asimétricas y coste-dependientes
- Pérdida ranking / AUC-oriented
- Pérdidas multiclase vs multietiqueta
- Regularización como término en la pérdida
- Pérdidas personalizadas para negocio
- Interpretación probabilística de la pérdida
 
- Generalización: sesgo-varianza, capacidad del modelo y sobreajuste- Curvas de aprendizaje (train vs valid)
- Underfitting vs overfitting
- Capacidad del modelo vs tamaño del dataset
- Complejidad efectiva del modelo
- Regularización para reducir varianza
- Data augmentation para mejorar generalización
- Early stopping como control de sobreajuste
- Cross-validation como estimador de error fuera de muestra
- Detección de fuga de información
- Generalización fuera de distribución
 
- Dimensión VC, márgenes y control de complejidad- Dimensión VC como medida de capacidad
- Separabilidad lineal y margen máximo
- Regularización L2 como control del margen
- Trade-off margen vs error empírico
- Cotas de generalización dependientes del margen
- Complejidad del clasificador no lineal
- Funciones kernel y espacio de alta dimensión
- Capacidad efectiva de modelos profundos
- Sobrecapacidad y memorization
- Interpretación geométrica del sobreajuste
 
- PAC learning (visión conceptual)- Probablemente Aproximadamente Correcto
- Error empírico vs error verdadero
- Tolerancia ε (precisión) y δ (confianza)
- Tamaño de muestra necesario para aprender
- Familias de hipótesis y complejidad
- Consistencia PAC
- Relación con dimensión VC
- Aprendibilidad en el sentido PAC
- Limitaciones prácticas del marco PAC
- Conexiones con bounds modernos en deep learning
 
- Regularización vista como restricción de complejidad- Penalización L2 (weight decay)
- Penalización L1 (sparsity y selección de features)
- Elastic Net como compromiso
- Dropout como ruido estructurado
- Data augmentation como regularización implícita
- Normalización de batch y estabilidad del entrenamiento
- Early stopping como límite de capacidad
- Weight sharing en redes convolucionales
- Cuantización/poda como reducción efectiva de complejidad
- Interpretación bayesiana de la regularización
 
- Paisajes de optimización no convexa en redes profundas- Mínimos locales vs puntos silla
- Mínimos planos vs mínimos afilados
- Robustez de mínimos planos a ruido
- Efecto del tamaño del batch
- Sensibilidad a la inicialización
- Rugosidad del paisaje de pérdida
- Simetrías de parámetros (permutación de neuronas)
- Degradación / explosión de gradientes
- Trayectorias de descenso en alta dimensión
- Convergencia práctica con optimizadores heurísticos
 
- Estabilidad de entrenamiento y ruido- Ruido estocástico en SGD
- Ruido como exploración del paisaje de pérdida
- Robustez frente a datos ruidosos
- Etiquetas incorrectas y su efecto
- Suavizado de etiquetas (label smoothing)
- Normalización y control de escala
- Mezcla de ejemplos (mixup, cutmix)
- Sensibilidad a perturbaciones adversarias
- Estabilidad entre semillas aleatorias
- Estabilidad vs reproducibilidad en entornos reales
 
 
- Formulación de aprendizaje supervisado, no supervisado y semisupervisado
- Machine Learning clásico (ML tradicional) - Regresión lineal y logística- Formulación cerrada vs entrenamiento iterativo
- Interpretación de coeficientes
- Probabilidades calibradas en clasificación
- Regularización ridge / lasso
- Multicolinealidad y condicionamiento numérico
- Interacciones y términos polinomiales
- Detección de outliers en residuales
- Regresión penalizada para alta dimensión
- Regresión logística multinomial
- Limitaciones para fronteras no lineales
 
- k-NN y métodos basados en distancia- Definición de vecindad
- Elección de k
- Métricas de distancia (euclidiana, coseno)
- Efecto de la dimensionalidad alta
- Búsqueda aproximada de vecinos más cercanos
- Clasificación basada en voto ponderado
- Regresión basada en promedio local
- Sensibilidad a ruido y outliers
- Escalamiento / normalización previa
- Uso en recomendación basada en similitud
 
- Máquinas de soporte vectorial (SVM)- Máximo margen
- Soft margin y parámetro C
- Funciones kernel (lineal, RBF, polinomial)
- Clasificación binaria y multiclase
- SVM para regresión (SVR)
- Interpretación geométrica de los support vectors
- Escalamiento de features
- Costo computacional en datasets grandes
- Selección de hiperparámetros (C, gamma)
- Robustez en alta dimensión con pocos datos
 
- Árboles de decisión- Criterios de partición (gini, entropía, mse)
- Profundidad máxima y sobreajuste
- Interpretabilidad visual
- Manejo de variables categóricas
- Manejo de valores faltantes
- Árboles de regresión vs clasificación
- Podado (pruning)
- Inestabilidad frente a pequeñas variaciones
- Leakage por splits mal construidos
- Árboles como bloques base de ensembles
 
- Bosques aleatorios- Bootstrap aggregating (bagging)
- Selección aleatoria de features por split
- Reducción de varianza
- Importancia de variables (feature importance)
- Robustez al ruido
- Estimación de error fuera de bolsa (OOB)
- Control de profundidad y cantidad de árboles
- Detección de overfitting residual
- Manejo de alta dimensionalidad
- Limitaciones en extrapolación continua
 
- Ensembles y Gradient Boosting (XGBoost, LightGBM)- Boosting vs bagging
- Árboles débiles como aprendices base
- Tasa de aprendizaje (learning rate)
- Profundidad de árbol en boosting
- Regularización en boosting
- Importancias de características por ganancia
- Manejo de clases desbalanceadas
- Interpretabilidad parcial (partial dependence)
- Overfitting en boosting agresivo
- Uso industrial en tabular prediction
 
- Selección de variables y feature engineering- Creación de variables agregadas
- Variables cruzadas (feature crosses)
- Transformaciones log, box-cox, binning
- Encoding categórico (one-hot, target encoding)
- Selección basada en importancia del modelo
- Selección basada en estabilidad temporal
- Eliminación de leakage
- Ingeniería de variables temporales (lags, rolling stats)
- Normalización / estandarización
- Documentación y gobierno de features
 
- Balanceo de clases y manejo de desbalance extremo- Reponderación de clases (class weights)
- Submuestreo de la clase mayoritaria
- Sobremuestreo de la clase minoritaria
- SMOTE y variantes
- Métricas robustas al desbalance (PR AUC)
- Ajuste de umbral de decisión
- Cost-sensitive learning
- Riesgo regulatorio en falsos negativos/positivos
- Evaluación por subpoblaciones
- Monitoreo del desbalance en el tiempo
 
- Clustering (k-means, jerárquico, DBSCAN)- k-means y su objetivo
- Elección de k (inercia, silhouette)
- Inicialización (k-means++)
- Clustering jerárquico y dendrogramas
- Distancias y enlaces (linkage)
- DBSCAN y densidad
- Ruido y puntos frontera
- Clusters de forma arbitraria
- Escalamiento a datasets grandes
- Uso en segmentación de clientes
 
- Modelos de mezcla y clustering probabilístico- Modelos de mezcla gaussiana
- Expectation-Maximization (EM)
- Soft clustering vs hard clustering
- Estimación de densidad
- Selección del número de componentes (BIC/AIC)
- Interpretación probabilística de pertenencia
- Mezclas no gaussianas
- Mezclas para datos categóricos
- Mezclas en series temporales
- Limitaciones en alta dimensión
 
- Reducción de dimensionalidad (PCA, t-SNE, UMAP)- PCA lineal y varianza explicada
- Componentes principales interpretables
- Efecto de escalamiento previo
- t-SNE para visualización
- UMAP y preservación de estructura local
- Ruido vs señal en alta dimensión
- Compresión de features
- Preprocesamiento para clustering
- Reducción para visualización ejecutiva
- Pérdida de interpretabilidad
 
- Detección de anomalías y outliers- Modelos estadísticos univariados
- Distancia en espacio de features
- Isolation Forest
- Local Outlier Factor
- Modelos de densidad
- Anomalías en series temporales
- Uso en fraude y seguridad
- Trade-off sensibilidad vs falsas alarmas
- Validación humana de alertas
- Adaptación a nuevos patrones de ataque
 
- Series temporales con ML tradicional (ARIMA, SARIMA, Holt-Winters, VAR)- Estacionariedad y diferenciación
- Estacionalidad y SARIMA
- Holt-Winters (tendencia y estacionalidad suave)
- VAR para multivariado
- Selección de retardos (lags)
- Métricas de forecasting (MAPE, sMAPE, MASE)
- Roll-forward vs entrenamiento global
- Drift de comportamiento en el tiempo
- Forecast con intervención externa
- Interpretación operativa del pronóstico
 
- Forecasting de demanda y predicción multihorizonte- Predicción a corto vs largo plazo
- Horizonte rodante
- Forecast por segmento / categoría
- Efectos calendario (festivos, campañas)
- Incertidumbre en la predicción
- Predicción probabilística (quantile forecasting)
- Coste de sobrestock vs quiebre de stock
- Agregación jerárquica de pronósticos
- Evaluación financiera del error
- Integración con planeación operativa
 
- AutoML y búsqueda de hiperparámetros / arquitecturas- Búsqueda aleatoria vs grid search
- Optimización bayesiana de hiperparámetros
- Selección automática de modelos candidatos
- Selección automática de features
- Ensamblado automático de pipelines
- Neural Architecture Search (NAS)
- Meta-aprendizaje
- Benchmarks internos de calidad
- Coste computacional y límites prácticos
- Riesgos de caja negra y reproducibilidad
 
- Aprendizaje semisupervisado y débilmente supervisado- Pseudo-etiquetado
- Consistency regularization
- Self-training iterativo
- Weak supervision con reglas heurísticas
- Datasets ruidosos pero masivos
- Reducción de costo de etiquetado humano
- Transferencia entre dominios
- Detección de etiquetas contradictorias
- Evaluación sin gold standard perfecto
- Uso industrial en fraude y moderación
 
 
- Regresión lineal y logística
- Evaluación de modelos y diseño experimental - Partición train/valid/test y validación cruzada- Hold-out simple
- K-fold cross-validation
- Stratified sampling
- Time series split
- Validación anidada (nested CV)
- Fugas temporales en series
- Leakage por usuario
- Conjuntos de test bloqueados
- Reutilización indebida del test set
- Reproducibilidad de splits
 
- Métricas de regresión, clasificación y ranking (ROC, PR, F1, calibración)- RMSE / MAE para regresión
- Accuracy y sus límites
- Precision, recall y F1
- Curva ROC y AUC
- Curva PR y utilidad en clases raras
- Calibración de probabilidades
- Métricas top-K y ranking
- Métricas orientadas a negocio (costo esperado)
- Métricas por subgrupo (fairness)
- Métricas en tiempo real vs batch
 
- Umbrales de decisión y coste esperado- Trade-off falso positivo / falso negativo
- Optimización de umbral por métrica de negocio
- Curva precision-recall como guía de umbral
- Expected value of a prediction
- Cost-sensitive classification
- Umbrales dinámicos según contexto
- Riesgo regulatorio en cierto tipo de error
- Calibración dependiente del segmento
- Aprobación humana en casos borde
- Explicabilidad del umbral ante negocio
 
- Interpretabilidad local y global (importancia de características, SHAP/LIME)- Importancia global de variables
- Dependencia parcial (PDP)
- SHAP para atribución local
- LIME para explicaciones locales aproximadas
- Explicaciones contrafactuales
- Interacciones entre variables
- Transparencia vs performance
- Explicaciones para auditores / regulador
- Explicabilidad en tiempo real al usuario final
- Riesgo de revelar información sensible
 
- Data leakage y fugas de información- Variables que usan información del futuro
- Variables derivadas de la etiqueta
- Variables casi duplicadas de la etiqueta
- Mezcla de usuarios entre train y test
- Mezcla de períodos históricos
- Variables altamente agregadas sin control temporal
- Fugas en feature stores compartidos
- Fugas entre entornos de entrenamiento y producción
- Cómo detectarlo con auditoría de features
- Impacto en métricas infladas artificialmente
 
- Robustez frente a ruido, datos faltantes y cambios de distribución- Evaluación bajo perturbaciones controladas
- Robustez a outliers
- Robustez a imputación agresiva
- Evaluación en subpoblaciones raras
- Shift de dominio (domain shift)
- Shift de concepto (concept drift)
- Adversarial noise básico
- Estabilidad entre réplicas del modelo
- Estimación de incertidumbre en predicción
- Plan de mitigación si el modelo se degrada
 
- A/B testing y experimentación controlada- Grupo control vs treatment
- Aleatorización y estratificación
- Duración mínima del experimento
- Peeking y sesgo temporal
- Métrica primaria y métricas secundarias
- Spillover entre tratamientos
- Pruebas multivariantes (A/B/n)
- Efectos en subsegmentos
- Coste de oportunidad de una variante mala
- Decisión de rollout basada en evidencia
 
- Modelos descriptivos / diagnósticos / predictivos / prescriptivos- Qué pasó (descriptivo)
- Por qué pasó (diagnóstico)
- Qué va a pasar (predictivo)
- Qué deberíamos hacer (prescriptivo)
- Sistemas de alerta temprana
- Priorización de leads / casos
- Sugerencia de acción próxima
- Optimización bajo restricción de recursos
- Medición del impacto real de la acción
- Integración con la operación diaria
 
- Análisis causal aplicado y uplift modeling en producto- Modelos de uplift individual
- Asignación diferencial de tratamiento
- Heterogeneidad del efecto de tratamiento
- Segmentos de alto impacto incremental
- Evitar targeting de usuarios que igual iban a convertir
- Riesgo ético en targeting selectivo
- Evaluación retrospectiva (post-hoc)
- Validación con experimentos A/B
- Comunicación de impacto incremental al negocio
- Uso en marketing, retención y pricing
 
- Detección temprana de degradación (drift de datos y drift de concepto)- Monitoreo de distribución de entrada
- Monitoreo de distribución de salida
- Detección de drift de etiquetas
- Alarmas de performance bajo umbral
- Degradación localizada en un segmento
- Alertas operativas automáticas
- Re-entrenamiento gatillado por drift
- Validación previa al redeploy
- Rollback seguro
- Documentación del incidente de modelo
 
- Aprendizaje en línea y adaptación continua- Entrenamiento incremental
- Actualización de pesos sin reentrenar desde cero
- Feature stores en streaming
- Manejo de concepto cambiante
- Modelos que evolucionan con el usuario
- Riesgo de deriva hacia sesgos
- Métricas en near-real-time
- Seguridad ante inyección maliciosa de datos
- Retención de conocimiento útil antiguo
- Validación continua en producción
 
- Aprendizaje activo (el modelo pide etiquetas donde tiene más incertidumbre)- Estrategias de muestreo por incertidumbre
- Estrategias de muestreo por desacuerdo entre modelos
- Priorización de ejemplos “difíciles”
- Reducción de costo de etiquetado humano
- Bucle humano-en-el-loop
- Mejora dirigida en métricas críticas
- Foco en clases raras / fraude
- Curación progresiva del dataset
- Evaluación del beneficio marginal de cada etiqueta nueva
- Riesgo de sesgar el dataset con feedback iterativo
 
 
- Partición train/valid/test y validación cruzada
- Deep Learning: fundamentos - Neuronas artificiales y perceptrón multicapa- Neurona lineal y función de activación
- Perceptrón simple y límite de separación lineal
- Perceptrón multicapa (MLP)
- Capas ocultas y capacidad de aproximación universal
- Tamaño de capa vs capacidad del modelo
- Arquitecturas totalmente conectadas
- Normalización de entrada
- Saturación de activaciones clásicas (sigmoid/tanh)
- Vanishing gradient en redes profundas
- Relación con regresión logística y softmax
 
- Redes densas feed-forward- Capas lineales encadenadas
- Bloque lineal + no lineal como unidad básica
- Profundidad vs ancho
- Funciones de activación modernas (ReLU y variantes)
- Batch-wise training
- Regularización con dropout en capas densas
- Normalización entre capas
- Inicialización adecuada para redes profundas
- Capacidad de memorizar vs generalizar
- Límites en datos estructurados/tabulares
 
- Funciones de activación y normalización- Sigmoid y saturación
- tanh y centrado en cero
- ReLU y variantes (LeakyReLU, GELU)
- Softmax para clasificación multiclase
- Batch Normalization
- Layer Normalization
- Normalización como estabilizador de gradientes
- Efecto en velocidad de convergencia
- Normalización como regularización implícita
- Normalización vs residual connections
 
- Retropropagación del gradiente- Derivadas en capas encadenadas
- Regla de la cadena en alta dimensión
- Forward pass vs backward pass
- Cálculo eficiente con grafos computacionales
- Vanishing / exploding gradients
- Clipping de gradiente
- Retropropagación en redes recurrentes
- Retropropagación en arquitecturas con saltos residuales
- Autograd y frameworks modernos
- Coste computacional y memoria
 
- Inicialización de pesos y estabilidad numérica- Inicialización aleatoria uniforme vs normal
- Xavier/Glorot initialization
- He initialization para ReLU
- Simetría rota entre neuronas
- Escalamiento adecuado por capa
- Profundidad y degradación del gradiente
- Efecto de la inicialización en la velocidad de convergencia
- Semillas aleatorias y reproducibilidad
- Precisión numérica (float32, float16, bfloat16)
- Estabilidad en hardware acelerado (GPU/TPU)
 
- Regularización en redes neuronales (dropout, weight decay)- Dropout como ruido estructurado
- Weight decay como penalización L2
- Early stopping
- Data augmentation
- Label smoothing
- Mixup y variantes
- Normalización como regularización implícita
- Sparsity inducida
- Control de sobreajuste en datasets pequeños
- Impacto en interpretabilidad
 
- Ajuste de hiperparámetros en redes profundas- Learning rate y schedulers
- Tamaño de batch
- Elección de optimizador (SGD, Adam, AdamW)
- Profundidad y ancho de la red
- Dropout rate y regularización
- Número de épocas
- Warmup de learning rate
- Grid search vs búsqueda bayesiana
- Tuning específico por tarea (visión, NLP)
- Tuning bajo restricción de cómputo
 
- Funciones de pérdida para clasificación y regresión- Cross-entropy (clasificación multiclase)
- Binary cross-entropy (clasificación binaria)
- Softmax + NLLLoss
- MSE / MAE (regresión)
- Huber / Smooth L1
- Triplet loss y contrastive loss
- Focal loss para clases desbalanceadas
- Pérdidas orientadas a ranking
- Pérdidas multitarea
- Pérdidas personalizadas por negocio
 
 
- Neuronas artificiales y perceptrón multicapa
- Arquitecturas profundas avanzadas - Redes convolucionales (CNN) para visión- Convolución como extracción local de patrones
- Filtros / kernels y canales
- Receptive field y profundidad
- Invariancia traslacional
- Arquitecturas clásicas (LeNet, AlexNet)
- Arquitecturas modernas (ResNet, EfficientNet)
- BatchNorm en visión
- Data augmentation en visión
- Entrenamiento con datasets grandes vs pequeños
- Transfer learning en visión
 
- Pooling, padding y bloques tipo ResNet- Max pooling vs average pooling
- Stride y downsampling espacial
- Padding y preservación de tamaño
- Problema del gradiente en redes muy profundas
- Saltos residuales (skip connections)
- Bloques básicos y bottleneck blocks
- Normalización dentro del bloque residual
- Profundidad extrema (50+ capas)
- Eficiencia computacional y memoria
- Estabilidad de entrenamiento con residuals
 
- Redes recurrentes (RNN, LSTM, GRU)- Modelado secuencial explícito
- Exploding/vanishing gradients en RNN clásicas
- Celdas LSTM y compuertas
- GRU como versión simplificada
- Estado oculto como memoria
- Procesamiento paso a paso vs batching
- Modelos many-to-one / many-to-many
- Limitaciones en secuencias largas
- Regularización en RNNs (dropout recurrente)
- Aplicaciones en series temporales y texto
 
- Temporal Convolutional Networks- Convoluciones causales
- Campos receptivos dilatados
- Paralelismo frente a RNN secuenciales
- Estabilidad del gradiente en secuencias largas
- Predicción multihorizonte
- Uso en forecasting temporal
- Aplicación en señales industriales
- Comparación con LSTM
- Limitaciones con dependencias muy largas
- Híbridos TCN + atención
 
- Mecanismos de atención y self-attention- Atención como ponderación contextual
- Query, Key, Value
- Atención escalada por producto punto
- Multi-Head Attention
- Atender largas secuencias
- Atención causal vs bidireccional
- Atención cruzada (cross-attention)
- Coste cuadrático y variantes eficientes
- Interpretabilidad de mapas de atención
- Atención en visión y audio
 
- Transformers y arquitecturas encoder-decoder- Encoder puro (BERT-like)
- Decoder puro (GPT-like)
- Encoder-decoder (T5, seq2seq moderna)
- Positional encoding
- Normalización por capa
- Máscaras de atención y control de contexto
- Tareas de completado y traducción
- Scaling law y tamaño de modelo
- Fine-tuning vs prompting
- Limitaciones de contexto
 
- Modelos generativos (autoencoders, GANs, modelos de difusión)- Autoencoder clásico (reconstrucción)
- Autoencoder variacional (VAE)
- Latent space continuo
- GANs: generador vs discriminador
- Inestabilidad de entrenamiento en GANs
- Difusión directa e inversa (denoising diffusion)
- Control de estilo y condicionamiento
- Generación de imagen y audio
- Deepfakes y ética de generación
- Métricas de calidad generativa (FID, IS)
 
- Modelos multimodales (imagen-texto, audio-texto, fusión sensorial)- Alineamiento entre modalidades (CLIP-style)
- Representaciones compartidas entre texto e imagen
- Audio-texto y ASR neuronal
- Video + texto + contexto temporal
- Fusión sensorial (imagen + LiDAR)
- Aprendizaje contrastivo multimodal
- grounding en el mundo físico
- Captura de contexto situacional
- Limitaciones de sesgo modal
- Aplicaciones en robótica y percepción autónoma
 
 
- Redes convolucionales (CNN) para visión
- Transfer learning, auto-supervisión y modelos fundacionales - Transfer learning clásico (pre-entrenar y ajustar)- Fine-tuning completo vs capas congeladas
- Reutilización de features visuales
- Adaptación de modelos de texto a dominios específicos
- Reaprovechamiento en datasets pequeños
- Catastrophic forgetting al ajustar demasiado
- Selección de capa de corte
- Adaptación de salida (head) a nueva tarea
- Curva de datos requeridos vs tamaño del modelo
- Riesgos de overfitting en dominios niche
- Métricas para validar transferencia exitosa
 
- Aprendizaje auto-supervisado (contrastive, enmascarado, predicción de la siguiente parte)- Pretexto sin etiquetas humanas
- Masked language modeling
- Contrastive learning (SimCLR, InfoNCE)
- Predict-the-next-token
- Bootstrap sin negativos explícitos
- Pre-entrenamiento en visión sin etiquetas
- Representaciones invariantes a augmentations
- Reducción del costo de etiquetado
- Generalización a múltiples tareas downstream
- Limitaciones por sesgos del corpus
 
- Modelos fundacionales y LLMs como base generalista- Escalamiento de parámetros y datos
- Capacidades emergentes
- In-context learning
- Razonamiento encadenado (chain-of-thought, a alto nivel)
- Uso como motor semántico general
- Adaptación a múltiples tareas sin reentrenar
- Riesgos de alucinación
- Riesgos de filtrado de datos sensibles
- Dependencia de infraestructura grande
- Impacto en ciclos de desarrollo de productos
 
- Fine-tuning eficiente (LoRA, adapters, distillation)- LoRA y baja-rango en matrices de atención
- Adapters como capas insertables
- Pocas actualizaciones de pesos (PEFT)
- Distillation professor-student
- Compresión de modelos grandes a modelos ligeros
- Coste de inferencia reducido
- Ajuste rápido por cliente / vertical
- Reentrenamiento frecuente con poco cómputo
- Preservación del conocimiento base
- Riesgos de degradación de calidad
 
- Continual learning y olvido catastrófico- Catastrophic forgetting en ajuste secuencial
- Regularización para retener conocimiento previo
- Rehearsal y memoria episódica
- Métodos basados en importancia de parámetros
- Adaptación incremental de dominio
- Lifelong learning
- Aprendizaje personalizable por usuario
- Control de deriva semántica
- Riesgos de sesgo temporal
- Métricas para medir retención vs adaptación
 
 
- Transfer learning clásico (pre-entrenar y ajustar)
- Lenguaje natural, recuperación aumentada y agentes - Representaciones de texto (TF-IDF, embeddings)- Bolsa de palabras y conteo de términos
- TF-IDF como ponderación de relevancia
- Word embeddings densos (word2vec, GloVe)
- Subword embeddings
- Contextual embeddings (transformers)
- Espacios semánticos y similitud coseno
- Reducción de dimensionalidad en texto
- Detección de sinónimos / relaciones semánticas
- Limitaciones en polisemia
- Sesgos lingüísticos en embeddings
 
- Modelos de lenguaje (n-gramas, RNNs, Transformers)- Modelos de n-gramas y probabilidad condicional
- Suavizado (smoothing) en n-gramas
- Modelos recurrentes para texto
- Atención en secuencias largas
- Transformers autoregresivos
- Modelos enmascarados tipo BERT
- Perplejidad como métrica de calidad
- Modelos generativos vs clasificadores
- Control de estilo / tono
- Costos de entrenamiento de LM
 
- Modelos de lenguaje grandes (LLMs) y alineación básica- Instrucción y ajuste con feedback humano
- RLHF (refuerzo con feedback humano) a alto nivel
- Seguridad y filtrado de output
- Mitigación de toxicidad y bias
- Control de tono institucional / compliance
- Control de alucinaciones
- Uso como asistente interno especializado
- Riesgos de fuga de información confidencial
- Evaluación cualitativa vs cuantitativa
- Evaluación por panel humano
 
- Adaptación de dominio y fine-tuning instruccional- Especialización a un vertical (legal, salud, finanzas)
- Ajuste de vocabulario técnico
- Ajuste de estilo y formato de salida
- Incorporación de políticas internas
- Inyección de documentación propietaria
- Control de tono hacia cliente final
- Personalización por segmento de usuario
- Mitigación de contradicciones internas
- Evaluación con datos de dominio
- Riesgos legales de datos sensibles
 
- Resumen automático, QA, NER y extracción de información- Resumen extractivo vs abstractivo
- Pregunta-respuesta factual
- QA abierta vs QA cerrada a un corpus
- Reconocimiento de entidades (NER)
- Relación entre entidades (RE)
- Extracción de eventos
- Clasificación de intención
- Detección de sentimiento / toxicidad
- Evaluación de precisión factual
- Uso en automatización operativa
 
- Recuperación aumentada de contexto (búsqueda semántica, RAG)- Indexación vectorial
- Similaridad semántica
- Recuperación de contexto relevante
- Inyección de contexto en el prompt
- Grounding en datos internos
- Actualización sin reentrenar el modelo base
- Control de alucinación vía evidencia recuperada
- Privacidad y control de acceso al corpus
- Latencia de recuperación vs latencia de respuesta
- Trazabilidad y citabilidad de la respuesta
 
- Orquestación de agentes que usan herramientas externas (tool-use)- LLM como planificador de alto nivel
- Llamadas a APIs externas
- Razonamiento paso a paso condicionado por feedback
- Recuperación iterativa de información
- Acciones autónomas con confirmación humana
- Enrutamiento de consultas a la herramienta correcta
- Memoria a corto plazo del agente
- Memoria a largo plazo del agente
- Rastreabilidad de decisiones del agente
- Riesgos de acción no autorizada
 
- Seguridad y alucinación- Alucinación factual
- Respuesta inventada con tono seguro
- Inyección de prompt maliciosa
- Jailbreaks y extracción de instrucciones internas
- Filtrado de respuestas sensibles
- Controles de compliance en entornos regulados
- Limitación de alcance (scoping) del agente
- Reducción de fuga de datos internos
- Métricas de seguridad de output
- Auditoría humana continua
 
 
- Representaciones de texto (TF-IDF, embeddings)
- Visión computacional y aprendizaje en grafos - Aumentación y preprocesamiento de imágenes- Normalización y estandarización de píxeles
- Aumentación geométrica (rotar, escalar, recortar)
- Aumentación fotométrica (brillo, contraste, ruido)
- Aumentación específica de dominio (defectos industriales, clima)
- Balanceo de clases mediante aumentación
- Redimensionamiento y recorte consistente
- Limpieza de datos corruptos / etiquetado dudoso
- Preprocesamiento para inferencia en tiempo real
- Data augmentation agresiva vs estabilidad del modelo
- Estandarización de pipelines de preprocesamiento
 
- Clasificación, detección y segmentación de objetos- Clasificación de imagen completa
- Localización con bounding boxes
- Detección de objetos (one-stage vs two-stage)
- Segmentación semántica
- Segmentación instancia y panóptica
- Métricas tipo IoU / mAP
- Manejo de clases raras y objetos pequeños
- Inferencia en tiempo real (cámaras, móviles)
- Uso en visión industrial / inspección
- Tracking de objetos persistentes
 
- Visión 3D, nubes de puntos y seguimiento en video- Nubes de puntos (LiDAR, depth cameras)
- Reconstrucción 3D aproximada
- Estimación de pose 3D
- Estimación de flujo óptico y movimiento
- Seguimiento multi-objeto en video
- Percepción para conducción autónoma / robótica
- Representaciones voxel vs point-based
- Limpieza de ruido en sensores físicos
- Sincronización de frames y sensores
- Métricas de estabilidad temporal
 
- Fusión sensorial (imagen + LiDAR)- Calibración entre sensores
- Sincronización temporal multi-sensor
- Proyección de nube de puntos al espacio imagen
- Late fusion vs early fusion
- Representaciones multimodales compartidas
- Manejo de sensores faltantes / degradados
- Detección robusta en condiciones adversas (noche, lluvia)
- Redundancia para seguridad
- Uso en robótica móvil y vehículos autónomos
- Coste computacional en el borde (edge)
 
- Representación de grafos (nodos, aristas, atributos)- Grafos homogéneos y heterogéneos
- Grafos dirigidos vs no dirigidos
- Atributos en nodos y aristas
- Subgrafos y vecindarios k-hop
- Caminos, ciclos y conectividad
- Embeddings iniciales de nodos
- Grafos dinámicos / temporales
- Desbalance de grado y hubs
- Normalización estructural
- Coste de muestrear vecindarios grandes
 
- Redes neuronales en grafos (message passing, GCN, GAT)- Message passing neural networks
- GCN (Graph Convolutional Networks)
- GAT (Graph Attention Networks)
- Pooling en grafos
- Graph readout global
- Grafos inducidos por similitud
- Grafos espaciotemporales
- Escalabilidad a grafos gigantes
- Over-smoothing en capas profundas
- Regularización estructural
 
- Aplicaciones en química, fraude, redes sociales y recomendación- Predicción de propiedades moleculares
- Descubrimiento de fármacos
- Detección de fraude transaccional
- Detección de comunidades y colusión
- Recomendación basada en grafo usuario-item
- Análisis de influencia social
- Moderación y seguridad en plataformas
- Detección de bots y actividad coordinada
- Análisis de conectividad crítica (infraestructura)
- Ranking contextualizado por red social
 
 
- Aumentación y preprocesamiento de imágenes
- Series de tiempo avanzadas y señales - Estacionalidad, tendencia y descomposición- Descomposición aditiva vs multiplicativa
- Tendencia a largo plazo
- Efectos estacionales fijos y móviles
- Efectos calendario (fines de semana, festivos)
- Cambios estructurales y rupturas
- Señales de saturación / madurez
- Ajuste estacional previo al modelado
- Reversión de tendencia (ciclos)
- Interpretación de estacionalidad ante negocio
- Comparación entre segmentos o regiones
 
- Forecasting probabilístico y multihorizonte- Predicción puntual vs distribución completa
- Intervalos de predicción y cuantiles
- Predicción a distintos horizontes (1h, 24h, 7d)
- Forecast jerárquico (categoría → producto)
- Forecast agregable por región / canal
- Penalización por sobreestimación vs subestimación
- Métricas (MAPE, sMAPE, MASE)
- Ensembles de modelos de forecasting
- Validación temporal rolling-origin
- Evaluación financiera del error de forecast
 
- Detección de anomalías en tiempo real- Umbrales dinámicos dependientes del contexto
- Modelos de predicción + error residual
- Señales multivariantes correlacionadas
- Alertas tempranas vs ruido operativo
- Confirmación humana en loop
- Priorización según impacto
- Reducción de falsas alarmas
- Persistencia de anomalía vs pico aislado
- Anomalías estacionales esperables
- Auditoría y etiquetado continuo de eventos raros
 
- Transformers temporales y predicción secuencial multivariante- Atención en series largas
- Manejo de múltiples variables simultáneas
- Encoding temporal / posicional para tiempo continuo
- Predicción multihorizonte con un solo modelo
- Captura de dependencias no lineales complejas
- Manejo de datos faltantes en streams
- Regularización en tareas con poco histórico
- Transferencia entre series similares
- Coste de inferencia en tiempo real
- Interpretabilidad de atención temporal
 
- Monitoreo operacional en streaming (alertas, SLA de detección)- Ingesta de datos en vivo
- Extracción de features en línea
- Inferencia en baja latencia
- Alarmas automáticas y escalamiento
- SLAs de detección y respuesta
- Trazabilidad de incidentes
- Versionado de reglas / modelos en producción
- Re-entrenamiento continuo con datos recientes
- Métricas near-real-time para negocio
- Integración con dashboards y on-call
 
 
- Estacionalidad, tendencia y descomposición
- Aprendizaje por refuerzo y control - Formulación MDP (estados, acciones, recompensas)- Estado, observación y estado parcial
- Política como función de decisión
- Retorno descontado
- Recompensas escasas vs denso-recompensadas
- Horizonte finito vs infinito
- Exploración vs explotación
- Determinístico vs estocástico
- Entornos simulados vs reales
- Modelos off-policy vs on-policy
- Ingeniería de la recompensa
 
- Métodos tabulares (Q-Learning, SARSA)- Tabla Q como aproximación de valor acción-estado
- Actualización incremental de Q
- ε-greedy como política exploratoria
- SARSA vs Q-Learning
- Convergencia en espacios pequeños
- Limitaciones en espacios grandes / continuos
- Trade-off velocidad / exploración
- Variantes con decaimiento de ε
- Ruido en la estimación de valor
- Problemas clásicos tipo gridworld
 
- Deep Q-Networks (DQN)- Aproximación con red neuronal del valor Q
- Replay buffer
- Target network
- Estabilidad de entrenamiento
- Generalización entre estados parecidos
- Acción discreta vs continua
- DQN extendido (Double DQN, Dueling DQN)
- Sample efficiency
- Escalado a entornos complejos (juegos, control)
- Riesgos de sobreajuste al simulador
 
- Policy Gradient y actor-critic (PPO)- Optimizar la política directamente
- Gradiente de la expectativa de retorno
- Variancia alta del estimador
- Baselines y reducción de varianza
- Actor-critic (actor actualiza política, critic evalúa)
- PPO (Proximal Policy Optimization)
- Restricción de actualización para estabilidad
- Continuous control y acciones continuas
- Sample efficiency en tareas físicas
- Robustez frente a pequeñas perturbaciones
 
- Control continuo y robótica- Espacios de acción continuos
- Control motor fino
- Políticas reactivas vs planeamiento
- Imitation learning / behavioral cloning
- Sim2Real (transferencia simulador → mundo real)
- Seguridad física y límites de fuerza
- Retroalimentación sensorial ruidosa
- Latencia y control en tiempo real
- Fallos catastróficos y fallback seguro
- Optimización energética y eficiencia mecánica
 
- Multiagente y coordinación- Juegos de suma cero vs cooperación
- Políticas independientes vs coordinadas
- Comunicación explícita entre agentes
- Equilibrios y estrategias estables
- Transferencia de políticas entre agentes
- Escalamiento con número de agentes
- Incentivos mal diseñados (colusión, abuso)
- Credit assignment multiagente
- Emergencia de roles especializados
- Aplicaciones en logística y sistemas distribuidos
 
- Seguridad, exploración controlada y alineación en RL- Exploración segura en entornos físicos
- Restricciones duras (safety constraints)
- Penalización de acciones peligrosas
- Protección frente a recompensas mal definidas
- Catastrophic actions y apagado seguro
- Interpretabilidad de la política aprendida
- Supervisión humana en el loop
- Especificación de objetivos alineados
- Fallos éticos en entornos sociales simulados
- Transferencia a entornos reales regulados
 
 
- Formulación MDP (estados, acciones, recompensas)
- Sistemas de recomendación y personalización - Segmentación de usuarios y clustering aplicado- Segmentación demográfica
- Segmentación por comportamiento de uso
- Segmentación por valor económico
- Segmentación por riesgo / churn
- Clustering clásico (k-means) aplicado a usuarios
- Cohortes temporales
- Microsegmentación dinámica
- Actualización periódica vs en línea
- Privacidad e identificación indirecta
- Uso para campañas y targeting
 
- Filtrado colaborativo y factorización matricial- Matriz usuario–ítem
- Relleno de entradas faltantes
- Descomposición en factores latentes
- SVD y variantes implícitas
- Cold start de usuarios nuevos
- Cold start de ítems nuevos
- Sesgos de popularidad
- Regularización de factores
- Evaluación tipo top-N recomendados
- Escalamiento a catálogos grandes
 
- Modelos basados en contenido y señales de contexto- Perfilado del ítem (tags, texto, metadata)
- Perfilado del usuario (historial, preferencias)
- Contexto temporal (hora del día, estacionalidad)
- Contexto espacial / geográfico
- Contexto del dispositivo / canal
- Recomendación contextualizada
- Explicabilidad basada en atributos
- Sesgo de exposición (lo que muestras condiciona lo que clickean)
- Personalización sensible a la situación
- Riesgos de filtrado burbuja
 
- Ranking, CTR prediction y métricas top-K- Modelos de predicción de probabilidad de clic (CTR)
- Score de relevancia
- Ordenar resultados como problema de ranking
- Métricas top-K (recall@K, precision@K)
- Diversidad vs precisión pura
- Serendipia y novedad
- Calibración de la probabilidad de clic
- Positional bias y corrección
- Aprendizaje a partir de feedback implícito
- Evaluación online vs offline en recomendación
 
- Recomendadores secuenciales y en tiempo real- Modelado de la secuencia de interacción
- RNN / Transformers para sesiones de usuario
- Predicción del próximo ítem
- Recomendación contextual en vivo
- Latencia extrema (ms-level)
- Actualización continua de embeddings de usuario
- Multi-armed bandits para exploración
- Protección contra loops de auto-refuerzo
- Detección de comportamiento fraudulento
- Escalamiento en catálogos masivos y rotación rápida
 
- Personalización dinámica en producto- Contenido dinámico por usuario
- Reordenamiento de UI / feed personalizado
- Ofertas / precios personalizados
- Priorización de alertas / notificaciones
- Experiencias adaptativas (onboarding inteligente)
- Recomendación contextual en distintas superficies (web, móvil, correo)
- Controles de usuario (opt-out, afinamiento manual)
- Riesgos regulatorios en personalización
- Impacto en métricas de retención y conversión
- Auditoría de sesgo y trato diferencial
 
- Interpretabilidad y explicabilidad para equipos de negocio- “Te recomendamos esto porque…”
- Destacar atributos relevantes del ítem
- Transparencia regulatoria (por qué recibí esta oferta)
- Explicar ranking a stakeholders no técnicos
- Métricas de salud del sistema de recomendación
- Fairness entre segmentos de usuarios
- Auditoría de auto-refuerzo de contenido
- Riesgo reputacional de malas sugerencias
- Controles humanos sobre recomendaciones críticas
- Documentación y accountability del motor de recomendación
 
 
- Segmentación de usuarios y clustering aplicado
- Ingeniería de datos y plataformas de datos - Modelado analítico orientado a negocio- Identificación de métricas clave del negocio
- Modelos de datos centrados en preguntas reales
- Definición única de verdad (single source of truth)
- KPI operativos vs KPI estratégicos
- Métricas derivadas vs métricas fundamentales
- Trazabilidad desde métrica hasta tabla origen
- Diseño pensando en stakeholders no técnicos
- Versionado semántico de métricas
- Alineación entre analítica y reporting financiero
- Gobierno de definiciones métricas
 
- Modelado dimensional (hechos y dimensiones)- Tablas de hechos (transacciones, eventos)
- Tablas de dimensiones (quién, qué, dónde)
- Dimensiones lentamente cambiantes (SCD)
- Granularidad de los hechos
- Métricas aditivas, semiaditivas y no aditivas
- Conformidad de dimensiones entre dominios
- Join patterns estándar
- Minimizar duplicación en data marts
- Documentación de llaves de negocio
- Impacto del modelado dimensional en performance BI
 
- Data warehouse, data lakes y lakehouses- Almacén estructurado vs repositorio crudo
- ETL hacia warehouse vs ELT en lake
- Lakehouse como capa unificada
- Tablas gobernadas vs zonas “raw”
- Gestión de esquemas en zonas crudas
- Costos de almacenamiento vs costos de consulta
- Seguridad y acceso por capa
- Uso analítico vs uso ML
- Catálogo centralizado de datasets productivos
- Evolución histórica de warehouse → lake → lakehouse
 
- Formatos columnares y almacenamiento orientado a análisis- Columnar vs row-oriented
- Formatos tipo Parquet / ORC
- Compresión y particionamiento
- Pruning de columnas para queries analíticas
- Z-Ordering / clustering físico
- Almacenamiento frío vs caliente
- Trade-off costo/latencia acceso
- Indexación secundaria
- Time-partitioned tables
- Impacto en costos de exploración ad-hoc
 
- Catálogo de datos, linaje y descubribilidad- Metadatos técnicos y de negocio
- Quién usa qué tabla
- Linaje columna a columna
- Búsqueda semántica de datasets
- Clasificación de sensibilidad
- Owners y stewards de datos
- Calidad declarada vs medida
- Deprecación y archivado controlado
- Auditoría de accesos
- Discovery self-service para analistas
 
- Gobernanza de acceso y control de permisos- Control de acceso basado en roles
- Enmascaramiento de columnas sensibles
- Segmentación por dominio/área de negocio
- Separación entre ambientes (dev / prod)
- Auditoría de consultas sensibles
- Acceso temporal / Just-In-Time
- Revocación automatizada
- Registros de cumplimiento normativo
- Data sharing interno controlado
- Data sharing externo (partners, clientes)
 
- Retención, archivado y ciclo de vida de los datos- Políticas de retención legal
- Borrado seguro / derecho al olvido
- Datos fríos / históricos vs datos activos
- Archivado en capas de bajo costo
- Snapshots históricos para auditoría
- Versiones congeladas para reproducibilidad
- Limpieza de datos obsoletos
- Riesgos regulatorios por sobre-retención
- Impacto en costos de almacenamiento largo plazo
- Estrategias de restore ante incidentes
 
- Integración con herramientas de BI y tableros ejecutivos- Dashboards operativos vs ejecutivos
- Métrica única y consistente entre tableros
- Control de acceso a dashboards sensibles
- Alertas automáticas y umbrales
- Versionado de dashboards
- Catálogo de reportes oficiales
- Autoservicio para analistas
- Storytelling visual para directores
- Paneles regulatorios / auditoría
- Métricas en “tiempo casi real” para negocio
 
- Exposición de datos como servicio (APIs analíticas)- APIs para consumo analítico interno
- Limitar filtrado pesado en cliente
- Agregaciones precomputadas
- Controles de acceso por token / rol
- Cuotas y rate limiting
- Versionado de endpoints
- Estabilidad contractual de la respuesta
- Auditoría de uso de APIs
- Latencia objetivo de las respuestas
- Exposición de features a sistemas ML online
 
- ETL / ELT y pipelines reproducibles y declarativos- Extracción desde fuentes heterogéneas
- Transformaciones determinísticas
- Declaratividad vs scripting imperativo
- Infra como código para pipelines
- Control de versiones del pipeline
- Idempotencia de tareas
- Gestión de dependencias entre pasos
- Rollback de pipelines defectuosos
- Auditoría de ejecuciones
- Testing automatizado de transformaciones
 
- Procesamiento batch a gran escala- Ingesta nocturna / periódica
- Ventanas de corte (close of business)
- Reprocesamiento histórico
- Control de costos en batch jobs pesados
- Fallos intermedios y reintentos
- Paralelización horizontal
- Orden de dependencia entre jobs
- SLA de disponibilidad de datos batch
- Validación de integridad al final del job
- Publicación de resultados listos para consumo
 
- Procesamiento streaming y datos en flujo continuo- Ingesta en tiempo real (event buses)
- Transformación en streaming
- Computo ventana fija / sliding window
- Estado en streaming (stateful operators)
- Deduplicación en tiempo real
- Aseguramiento “exactly-once” vs “at-least-once”
- Latencia extremo a extremo
- Alertas inmediatas y detección temprana
- Enriquecimiento con datos de referencia
- Publicación a dashboards en vivo
 
- Orquestación de tareas y scheduling de flujos- DAGs de dependencias
- Schedulers declarativos
- Retries y backoff exponencial
- Prioridades de ejecución
- Alertas en falla
- Auditoría de ejecuciones históricas
- Deploy controlado de nuevas versiones de flujo
- Separación de entornos (dev / staging / prod)
- Gobernanza de quién puede editar qué
- Escalamiento horizontal de workers
 
- Optimización y perfilado de pipelines- Perfilado de pasos costosos
- Cuellos de botella de I/O
- Optimización de joins caros
- Reducción de shuffle / movimiento de datos
- Pruning de columnas no usadas
- Indexación / particionamiento adecuado
- Reuso de resultados intermedios cacheados
- Costeo por pipeline / job
- Alertas por degradación de performance
- Budgeting de cómputo por equipo
 
- Pruebas de calidad, contratos de datos y SLAs de datos- Tests de esquema (tipos, nullability)
- Tests de rangos / dominio válido
- Tests de unicidad y llaves
- Tests de completitud mínima
- Alertas por caída de calidad
- Contratos de datos entre equipos (data contracts)
- SLAs de frescura y disponibilidad
- Versiones incompatibles de columnas
- Gestión de breaking changes
- Reportes semanales de salud de datos
 
- Observabilidad de datos (frescura, completitud, anomalías)- Monitoreo de latencia de ingesta
- Monitoreo de tasa de llegada de eventos
- Detección de huecos en datos
- Detección de outliers estadísticos en métricas clave
- Alarmas de ruptura de tendencia
- Panel de salud de tablas críticas
- Auditoría de acceso no esperado
- Alertas de PII fuera de lugar
- Gestión de incidentes de datos
- Postmortems y acciones correctivas
 
- Data mesh y dominios de datos- Dominio de datos como “producto” interno
- Propiedad distribuida por equipo de negocio
- Estándares comunes de calidad y acceso
- SLA de datos por dominio
- Descubribilidad federada
- Interoperabilidad entre dominios
- Gobernanza federada vs centralizada
- Reducción de cuellos de botella del “equipo de datos central”
- Escalamiento organizacional y autonomía
- Riesgos de inconsistencia métrica entre dominios
 
 
- Modelado analítico orientado a negocio
- Big Data y computación distribuida - Concepto de big data (volumen, velocidad, variedad, veracidad, valor)- Volumen: datasets masivos
- Velocidad: ingestión en tiempo casi real
- Variedad: fuentes heterogéneas
- Veracidad: ruido y calidad dudosa
- Valor: utilidad económica real
- Datos estructurados vs logs crudos
- Limitaciones de herramientas tradicionales
- Trade-off latencia vs costo
- Casos que realmente requieren big data
- Antipatrones de “big data por moda”
 
- Arquitecturas distribuidas de datos- Clusters escalables horizontalmente
- Procesamiento paralelo tipo map/shuffle/reduce
- Separación cómputo/almacenamiento
- Elasticidad bajo demanda
- Fault tolerance y replicación
- Balanceo de carga
- Alta disponibilidad
- Consistencia eventual vs fuerte
- Escalamiento multi-región
- Costeo de infraestructura compartida
 
- Sistemas de archivos distribuidos- Almacenamiento en bloques replicados
- Metadatos centralizados vs distribuidos
- Acceso concurrente masivo
- Tolerancia a fallos de nodo
- Localidad de datos y afinidad de tareas
- Jerarquías de almacenamiento (SSD/HDD/objeto)
- Integración con motores de cómputo
- Evolución de HDFS a almacenamiento de objetos
- Control de permisos en almacenamiento distribuido
- Borrado seguro y cumplimiento normativo
 
- Motores de consulta distribuida y SQL distribuido- Procesamiento paralelo de queries
- Pushdown de filtros/proyecciones
- Optimización de planes de ejecución
- Joins distribuidos y shuffle
- Caching intermedio
- Cost-based optimization
- Federated query sobre múltiples fuentes
- Latencia vs throughput
- Aislamiento entre workloads analíticos
- Multitenancy y fairness de recursos
 
- Buses de eventos y colas de mensajería- Publicación/suscripción (pub/sub)
- Particionamiento por clave
- Orden relativo por partición
- Retención por ventana temporal
- Reproceso de historial de eventos
- Backpressure y control de flujo
- Garantías de entrega (at-most-once, at-least-once, exactly-once)
- Monitorización de lag del consumidor
- Aislamiento de productores “ruidosos”
- Integración con pipelines streaming
 
- Procesamiento en tiempo real para decisiones operativas- Enriquecimiento de eventos entrantes con contexto
- Scoring en vivo con modelos ML
- Alertas operativas automáticas
- Detección temprana de fraude / intrusión
- Reacción automática (bloqueo, throttling)
- Monitorización de SLAs operativos
- Dashboards en vivo para turno operativo
- Registro auditable de decisiones en línea
- Sistemas de baja latencia (<100 ms)
- Trade-off precisión vs inmediatez
 
- Integración de telemetría de producto y métricas de negocio a escala- Instrumentación de eventos de uso masivo
- Envío confiable desde clientes distribuidos
- Alineación de datos de producto con datos financieros
- Enriquecimiento con atributos de usuario / cuenta
- Métricas de salud del producto en vivo
- Correlación entre performance técnica y métricas de negocio
- Detección de regresiones tras deploys
- Alertas de caída de engagement
- Visibilidad unificada para producto / datos / operaciones
- Priorización de incidentes según impacto económico
 
 
- Concepto de big data (volumen, velocidad, variedad, veracidad, valor)
- Puesta en producción de modelos (MLOps / LLMOps) - Ciclo de vida del modelo: entrenamiento, validación, despliegue, rollback- Entrenamiento reproducible
- Validación previa al deploy
- Publicación a un entorno de inferencia
- Canary release / lanzamiento gradual
- Rollback seguro y rápido
- Versionado del modelo desplegado
- Gestión de entornos (dev/staging/prod)
- Control de dependencias y librerías
- Documentación del cambio de modelo
- Trazabilidad completa de qué modelo tomó qué decisión
 
- Tracking de experimentos y versionado de artefactos- Registro de hiperparámetros y métricas
- Comparación entre runs
- Registro de datasets usados
- Versionado del código de entrenamiento
- Checkpoints de modelos
- Artefactos de preprocesamiento
- Retención de modelos obsoletos
- Auditoría científica / reproducibilidad
- Firma y certificación de modelos aprobados
- Control de acceso a modelos sensibles
 
- Gestión de características (feature stores)- Definición única y reutilizable de features
- Cálculo batch vs cálculo en línea
- Consistencia train/serve (offline vs online)
- Versionado de features
- Catálogo de features aprobadas
- Control de acceso a features sensibles
- Documentación semántica de cada feature
- Monitoreo de drift por feature
- Latencia de lectura en producción
- Reutilización entre equipos / modelos
 
- Servir modelos en batch y en tiempo real- Scoring batch programado
- Scoring bajo demanda (online inference)
- Endpoints de predicción
- Latencia objetivo por caso de uso
- Escalamiento horizontal / autoscaling
- Tolerancia a fallos del servicio
- Versionado y enrutamiento de modelos
- Logging de requests y respuestas
- Seguridad y control de acceso a inferencia
- Costeo por predicción / por request
 
- Inferencia de baja latencia y costo por predicción- Cuantización de modelos
- Compilación / optimización para hardware específico
- Batch interno para throughput
- Cacheo de resultados frecuentes
- Despliegue en edge / on-device
- Balance entre precisión y latencia
- Trade-off costo cloud vs on-prem
- Timeouts y degradación controlada
- Elasticidad ante picos de tráfico
- Políticas de priorización de requests críticos
 
- Monitorización de deriva y degradación de modelos- Drift de datos de entrada
- Drift de la distribución de predicciones
- Drift de la relación input→output (concept drift)
- Métricas de performance en vivo
- Alarmas de performance bajo umbral
- Evaluación por subpoblación
- Métricas de fairness en producción
- Alertas on-call para incidentes de modelo
- Registro de incidentes y RCA (root cause analysis)
- Plan de respuesta y contención
 
- Retraining continuo y loops de realimentación- Recolección automática de nuevos datos etiquetados
- Curación de ejemplos difíciles
- Retraining programado vs bajo demanda
- Validación automática post-retraining
- Aprobación humana previa al redeploy
- Gestión de versiones consecutivas
- Evitar drift hacia sesgos no deseados
- Limpieza de datos tóxicos / adversarios
- Documentación de cambios de comportamiento
- Evaluación de impacto tras el redeploy
 
- Testing de modelos antes del rollout y validación de seguridad- Tests unitarios de preprocesamiento
- Tests de consistencia de features
- Tests de estabilidad numérica
- Tests de rendimiento en carga
- Tests de fairness / sesgo
- Tests de “no romper métricas clave”
- Evaluación en datos sintéticos adversarios
- Red teaming de prompts / modelos de lenguaje
- Validación legal / compliance
- Firma de aprobación antes de producción
 
- A/B testing en producción y medición de impacto- Traffic splitting entre modelos
- Métrica primaria de éxito
- Monitoreo en vivo del experimento
- Detección de efectos secundarios negativos
- Spillover entre variantes
- Duración mínima confiable
- Decisión de adopción / rollback
- Documentación de resultados
- Comunicación del impacto a negocio
- Reutilización de aprendizajes para próximos lanzamientos
 
- Observabilidad operativa (latencia, throughput, errores)- Métricas de infraestructura (CPU, memoria, GPU)
- Latencia p50 / p95 / p99
- Throughput sostenido vs pico
- Tasa de error / timeouts
- Saturación de colas
- Caídas de dependencia externa
- Alertas en tiempo real
- Dashboards para on-call
- Registro histórico para auditoría
- Priorización de incidentes críticos
 
- SLOs y SLAs para servicios de inferencia- Definición de SLO técnico (latencia, uptime)
- Definición de SLA contractual
- Alertas al romper SLO
- Penalidades por incumplimiento de SLA
- SLOs distintos para clientes internos vs externos
- Aislamiento de workloads críticos
- Planes de contingencia
- Backoff / degradación graciosa
- Escalamiento operativo formal
- Reportes ejecutivos de cumplimiento
 
- Documentación y tarjetas de modelo (model cards)- Descripción de propósito del modelo
- Dataset(s) de entrenamiento y sus sesgos
- Poblaciones donde funciona bien / mal
- Métricas de rendimiento declaradas
- Riesgos conocidos y limitaciones
- Consideraciones éticas y legales
- Requisitos de monitoreo post-despliegue
- Controles humanos requeridos
- Historial de versiones del modelo
- Contacto responsable / ownership claro
 
 
- Ciclo de vida del modelo: entrenamiento, validación, despliegue, rollback
- Escalamiento, eficiencia y despliegue en el borde - Entrenamiento distribuido (data parallelism, model parallelism, sharding)- Paralelismo de datos vs paralelismo de modelo
- Sharding de parámetros y activaciones
- All-reduce y sincronización de gradientes
- Desacople comunicación / cómputo
- Entrenamiento en múltiples GPUs / nodos
- Balance de carga entre workers
- Checkpointing distribuido tolerante a fallos
- Elastic training (recursos que entran/salen)
- Estrategias de escalamiento de lotes (batch size scaling)
- Costos de red como cuello de botella
 
- Mezcla de expertos y arquitecturas escalables- Mezcla de expertos (MoE) dispersa
- Ruteo condicional de tokens / entradas
- Escalar parámetros sin escalar cómputo por token
- Balance de carga entre expertos
- Sparsity estructurada
- Especialización de expertos por dominio
- Colapso de expertos y mitigaciones
- Mezcla de expertos en visión, texto y multmodal
- Inferencia distribuida con MoE
- Impacto en coste de servir LLMs gigantes
 
- Cuantización, poda y compresión de modelos- Cuantización a menor precisión (fp16, int8, int4)
- Poda estructurada y no estructurada
- Pruning de canales / neuronas menos útiles
- Factorización de matrices de pesos (low-rank)
- Distillation (teacher-student)
- Minimizar memoria en inferencia
- Minimizar latencia en dispositivos edge
- Trade-off compresión vs pérdida de calidad
- Técnicas post-training vs durante el entrenamiento
- Re-entrenamiento fino tras compresión
 
- Compiladores y runtimes optimizados (GPU / TPU / ASIC)- Graph compilers y optimización de grafos computacionales
- Fusión de operadores (op fusion)
- Reordenamiento de operaciones para locality de memoria
- Kernel tuning específico de hardware
- Aceleradores especializados (TPU / NPU / ASIC)
- Scheduling heterogéneo CPU+GPU
- Compilación ahead-of-time vs just-in-time
- Auto-tuning basado en profiling
- Cuellos de botella de memoria, no de FLOPs
- Portabilidad entre proveedores de hardware
 
- Inferencia en el borde (edge AI, TinyML, microcontroladores)- Modelos ultra ligeros
- Memoria extremadamente limitada (KB/MB)
- Latencia dura (tiempo real físico)
- Ejecución offline sin red
- Consumo energético mínimo (batería / IoT)
- Seguridad y privacidad on-device
- Inferencia en sensores industriales / robots
- Actualización remota de modelos en campo
- Detección local de eventos críticos
- Validación y certificación en entornos regulados
 
- Limitaciones de memoria, energía y latencia dura- Presupuestos de energía por inferencia
- Latencia máxima tolerable por la aplicación
- Tamaño máximo del modelo permitido
- Gestión térmica en hardware embebido
- Balance precisión vs consumo energético
- Inferencia determinista y tiempo garantizado
- Degradación controlada bajo sobrecarga
- Priorización de tareas críticas en edge
- Caching local de resultados frecuentes
- Trade-offs entre enviar al servidor o decidir local
 
- Costos energéticos y sostenibilidad del cómputo en IA- Huella energética del entrenamiento de modelos grandes
- Costos de refrigeración y data center
- Uso de hardware eficiente vs hardware genérico
- Reutilización de modelos vs entrenamiento desde cero
- Compresión para reducir consumo en inferencia masiva
- Balance entre batch offline y online scoring
- Métricas de eficiencia energética por predicción
- Regulaciones y reporting ambiental
- Incentivos económicos para modelos más pequeños
- Diseño responsable de workloads intensivos
 
 
- Entrenamiento distribuido (data parallelism, model parallelism, sharding)
- Ética, seguridad, privacidad y gobernanza - Privacidad de datos personales y minimización de uso- Minimización de retención de PII
- Principio de “necesidad de conocer”
- Anonimización y seudonimización
- Riesgo de reidentificación
- Separación de datos personales y operacionales
- Propósito declarado vs uso real
- Transparencia frente al usuario
- Derecho al olvido y borrado selectivo
- Restricciones de uso secundario de datos
- Auditorías de acceso
 
- Privacidad diferencial y aprendizaje federado- Ruido calibrado a nivel estadístico
- Garantías formales de privacidad
- Ataques de reconstrucción de datos
- Membership inference attacks
- Entrenamiento en el dispositivo del usuario
- Agregación segura de gradientes
- No compartir datos crudos entre nodos
- Riesgos de fuga mediante el modelo
- Trade-off privacidad / performance
- Uso en salud y finanzas
 
- Gobernanza, trazabilidad y auditoría de datos y modelos- Linaje de datos crítico (origen → transformación → decisión)
- Quién entrenó el modelo y con qué datos
- Historial de versiones del modelo en producción
- Registro de cambios de features
- Auditoría externa regulatoria
- Auditoría interna de cumplimiento
- Evidencia para peritaje legal
- Firma / certificación de modelos aprobados
- Control de acceso basado en rol
- Responsables claros (“owner” del modelo)
 
- Cumplimiento normativo y marcos legales- Regulaciones sectoriales (finanzas, salud, etc.)
- Restricciones de uso de datos sensibles
- Reportabilidad obligatoria de decisiones automáticas
- Explicabilidad legalmente exigible
- Limitaciones al profiling individual
- Retención mínima / máxima legal
- Transferencia internacional de datos
- Consentimiento informado vs interés legítimo
- Sanciones por incumplimiento
- Actualización continua por cambios regulatorios
 
- Control de acceso, clasificación de datos y dominios de seguridad- Clasificación por sensibilidad
- Segmentación de entornos (prod vs analítica)
- Enmascaramiento dinámico de campos sensibles
- Accesos temporales / justificados
- Registro de accesos privilegiados
- Hardening de entornos de inferencia
- Gestión de llaves y secretos
- Aislamiento de workloads regulados
- Cumplimiento de políticas internas
- Detección de abuso interno
 
- Sesgos algorítmicos, equidad y no discriminación- Bias en datos históricos
- Variables proxy de atributos sensibles
- Métricas de fairness por subgrupos
- Disparidad de falsos positivos/negativos
- Impacto distributivo en poblaciones vulnerables
- Auditoría periódica de sesgos
- Mitigación de sesgos en entrenamiento
- Mitigación en post-procesamiento
- Obligación ética de corrección
- Documentación del riesgo residual
 
- Explicabilidad y justificabilidad de decisiones automatizadas- Explicar por qué se tomó una decisión
- Explicabilidad global vs local
- Explicaciones contrafactuales (“qué habría pasado si…”)
- Interpretabilidad para auditores/autoridades
- Interpretabilidad para usuarios finales
- Límites técnicos de interpretabilidad en deep learning
- Transparencia de criterios de scoring
- Riesgos de revelar demasiado (gaming del sistema)
- Trazabilidad de la decisión hasta el input
- Registro accesible para defensa legal
 
- Riesgo reputacional y deepfakes / desinformación sintética- Generación de contenido engañoso
- Suplantación de identidad
- Manipulación de audio/video
- Atribución de autoría falsa
- Detección de contenido sintético
- Watermarking y firmas de procedencia
- Moderación de contenido automatizada
- Riesgo de viralización y daño reputacional
- Uso malicioso interno vs externo
- Políticas de respuesta a incidentes públicos
 
- Transparencia frente a usuarios y stakeholders- Declarar uso de IA en decisiones críticas
- Explicar límites y posibles errores
- Canales de apelación humana
- Control del usuario sobre sus datos
- Visibilidad de métricas de calidad
- Disclosure ante clientes corporativos
- Comunicación de incidentes de datos
- Lenguaje claro no técnico
- Requerimientos de confianza en sectores regulados
- Expectativas éticas de clientes y sociedad
 
- Reproducibilidad científica y versionado de datasets/modelos- Versionado de datasets de entrenamiento
- Congelamiento de snapshots de datos
- Versionado de código y configuración
- Fijación de seeds y determinismo
- Documentación de ambiente de ejecución
- Comparación justa entre modelos
- Evidencia de replicabilidad
- Auditoría post-mortem de fallos
- Portabilidad entre entornos
- Conservación de experimentos históricos
 
- Gobernanza del ciclo de vida completo del dato y del modelo- Flujo dato → feature → modelo → predicción → acción
- Dueños claros para cada etapa
- Políticas de aprobación en cada cambio
- Monitoreo continuo post-despliegue
- Evaluación de impacto social antes del lanzamiento
- Retiro responsable de modelos obsoletos
- Controles de rollback ético
- Gestión de deuda técnica y deuda ética
- Documentación para auditoría externa
- Apoyo ejecutivo / comité de riesgo
 
- Políticas internas de aprobación y revisión humana obligatoria- Casos donde no se permite decisión 100% automática
- Umbrales que gatillan revisión humana
- Registro de intervenciones humanas
- Trazabilidad de overrides
- Revisión ética de nuevos casos de uso
- Revisión legal / compliance previa al despliegue
- Aprobación ejecutiva en casos críticos
- Revocación de modelos ante mal uso
- Mecanismos de denuncia interna
- Accountability final explícito
 
- Continuidad operativa y resiliencia ante fallos del modelo en producción- Modos degradados seguros
- Fallback a reglas heurísticas
- Rollback inmediato a versión anterior
- Plan de contingencia ante ataque adversario
- Desconexión rápida ante comportamiento tóxico
- Alertas on-call 24/7 para servicios críticos
- Simulacros de desastre algorítmico
- Comunicación de incidentes a stakeholders
- Plan de remediación y mejora
- Gestión reputacional post-incidente
 
 
- Privacidad de datos personales y minimización de uso
- Aplicaciones verticales y casos de uso - Analítica de negocio y optimización operacional- Medición de eficiencia operativa
- Identificación de cuellos de botella
- Priorización de iniciativas de mejora
- Scorecards y accountability interno
- Automatización de reporting operativo
- Alertas sobre SLAs rotos
- Optimización de pricing/promociones
- Predicción de demanda de capacidad interna
- Detección de ineficiencias de procesos
- Soporte de decisiones tácticas diarias
 
- Detección de fraude, scoring de riesgo y cumplimiento financiero- Scoring crediticio
- Señales de comportamiento atípico
- Alertas de fraude en tiempo real
- Clasificación de transacciones sospechosas
- Modelos antifraude adaptativos
- Explicabilidad requerida por cumplimiento regulatorio
- Revisión humana de alertas de alto riesgo
- Prevención de lavado de dinero (AML)
- Auditoría y trazabilidad de decisiones de riesgo
- Balance falso positivo vs costo de fraude
 
- Personalización, recomendación y priorización de leads- Lead scoring comercial
- Priorización automática de outreach
- Ofertas y mensajes personalizados
- Recomendación de producto / contenido
- Retención de usuarios en riesgo de churn
- Up-selling / cross-selling inteligente
- Secuencias de contacto multicanal
- Optimización de funnel de conversión
- Evaluación incremental (uplift en ventas)
- Riesgos éticos de segmentación agresiva
 
- Salud y biomedicina asistida por IA- Ayuda al diagnóstico clínico asistido
- Análisis de imágenes médicas
- Alarmas tempranas en UCI
- Priorización de casos críticos
- Modelos de riesgo de rehospitalización
- Descubrimiento de fármacos y screening molecular
- Privacidad y datos altamente sensibles
- Validación clínica y regulación sanitaria
- Toma de decisión asistida, no autónoma
- Responsabilidad legal y ética del soporte de IA
 
- Retail, demanda y logística predictiva- Forecast de demanda por tienda / SKU
- Optimización de inventario
- Prevención de quiebre de stock
- Optimización de reposición
- Ruteo de entrega y última milla
- Detección de fraude en devoluciones
- Segmentación de clientes por valor de vida útil
- Personalización de promociones
- Pricing dinámico según demanda
- Evaluación del impacto en margen
 
- Industria y mantenimiento predictivo (gemelos digitales)- Sensores IoT industriales
- Modelos de fallo inminente
- Mantenimiento preventivo vs predictivo
- Gemelos digitales de equipos críticos
- Optimización energética de planta
- Seguridad industrial y fallos catastróficos
- Programación automática de mantención
- Priorización de alertas operativas
- Diagnóstico remoto en terreno
- Trazabilidad completa de eventos de falla
 
- Ciencia y simulación asistida por datos (clima, materiales, física)- Modelado climático / pronóstico de variables ambientales
- Descubrimiento de nuevos materiales
- Modelos de dinámica molecular asistidos por ML
- Aceleración de simulaciones numéricas costosas
- Ajuste de parámetros físicos vía optimización bayesiana
- Fusión de datos experimentales + simulación
- Reducción de modelos complejos a emuladores rápidos
- Cuantificación de incertidumbre científica
- Reproducibilidad científica
- Uso ético en modelamiento de riesgo climático
 
- Agentes autónomos, robótica y control continuo- Percepción integrada (visión + sensores)
- Navegación y evitación de obstáculos
- Manipulación robótica con feedback sensorial
- Control en bucle cerrado en tiempo real
- Aprendizaje por refuerzo en simulación
- Transferencia Sim2Real
- Coordinación multi-robot
- Seguridad operacional y “botón rojo”
- Cumplimiento normativo en entornos humanos
- Responsabilidad en caso de accidente
 
- Asistentes conversacionales y copilotos para trabajo humano- Asistencia al flujo de trabajo (resúmenes, drafting)
- Recuperación aumentada de contexto interno
- Razonamiento paso a paso guiado
- Integración con herramientas corporativas
- Automatización de tareas repetitivas
- Soporte en atención al cliente
- Riesgo de alucinación en dominios críticos
- Escalamiento del humano (augmentación, no reemplazo)
- Medición de valor real (tiempo ahorrado, calidad mejorada)
- Supervisión humana obligatoria en decisiones sensibles
 
- Automatización de decisiones en línea dentro del flujo de negocio- Scoring en tiempo real dentro del producto
- Priorización automática de casos operativos
- Control dinámico de riesgo
- Moderación y filtrado de contenido en vivo
- Prevención de abuso y spam
- Detección temprana de incidentes operativos
- Ajuste automático de precios / límites / acceso
- Integración con sistemas transaccionales
- Auditoría de cada decisión automatizada
- Estrategia de rollback rápido ante decisiones dañinas
 
 
- Analítica de negocio y optimización operacional