Data y machine learning

47 minutos de lectura

Datos y ML
1. Fundamentos matemáticos y computacionales
  1. Álgebra lineal para datos y modelos
    1. Vectores, matrices y tensores
    2. Operaciones lineales y productos matriciales
    3. Dependencia lineal y rango
    4. Espacios vectoriales y subespacios columna/fila
    5. Descomposición en valores y vectores propios
    6. Descomposición SVD y reducción de dimensionalidad
    7. Proyecciones ortogonales y mínimos cuadrados
    8. Sistemas sobredeterminados y pseudoinversa
    9. Estabilidad numérica en álgebra lineal
    10. Representación dispersa y cómputo eficiente
  2. Cálculo diferencial e introducción a optimización continua
    1. Derivadas parciales y gradiente
    2. Regla de la cadena en espacios de alta dimensión
    3. Hessiano y curvatura local
    4. Óptimos locales y estacionariedad
    5. Convexidad básica y condiciones de mínimo global
    6. Funciones de pérdida diferenciables
    7. Descenso por gradiente básico
    8. Paso de aprendizaje y estabilidad
    9. Problemas mal condicionados
    10. Regularización como término en la función objetivo
  3. Optimización convexa y dualidad (Lagrange, KKT)
    1. Funciones convexas y conjuntos convexos
    2. Programas cuadráticos y lineales
    3. Multiplicadores de Lagrange
    4. Condiciones KKT
    5. Dualidad primal-dual
    6. Interpretación económica de las variables duales
    7. Soft constraints vs hard constraints
    8. Regularización L1/L2 como restricciones
    9. Sparsity inducida por L1
    10. Convergencia garantizada en problemas convexos
  4. Métodos de optimización numérica (gradiente, Newton, quasi-Newton, Adam)
    1. Gradiente descendente estocástico (SGD)
    2. Momentum y aceleración
    3. Métodos de segundo orden y Newton
    4. Métodos quasi-Newton (BFGS, L-BFGS)
    5. Adam y variantes adaptativas
    6. Decaimiento del learning rate
    7. Batch vs mini-batch vs online
    8. Early stopping como control de sobreajuste
    9. Paisajes no convexos y mínimos locales planos
    10. Estabilidad numérica en entrenamiento profundo
  5. Probabilidad básica y variables aleatorias
    1. Espacios de probabilidad y eventos
    2. Variables aleatorias discretas y continuas
    3. Funciones de densidad y de distribución
    4. Esperanza, varianza y covarianza
    5. Ley de los grandes números
    6. Teorema central del límite
    7. Distribuciones comunes (Bernoulli, Normal, Poisson, Exponencial)
    8. Independencia y correlación
    9. Probabilidad condicional y Bayes
    10. Muestreo Monte Carlo básico
  6. Inferencia estadística elemental (muestreo, estimación, sesgo/varianza)
    1. Muestra vs población
    2. Estimadores puntuales y por intervalo
    3. Propiedades de un buen estimador
    4. Sesgo vs varianza
    5. Reamostrado bootstrap
    6. Intervalos de confianza
    7. Test de hipótesis como decisión binaria
    8. p-value y error tipo I/II
    9. Corrección por comparaciones múltiples
    10. Incertidumbre y comunicación de error
  7. Teoría de la información (entropía, divergencia)
    1. Entropía de Shannon
    2. Información mutua
    3. Divergencia KL
    4. Cross-entropy como función de pérdida
    5. Codificación óptima y compresión
    6. Redundancia y correlación de atributos
    7. Selección de variables por información mutua
    8. Regularización basada en información
    9. Máxima entropía
    10. Relación entre entropía y incertidumbre en modelos
2. Fundamentos de datos y análisis cuantitativo
  1. Tipos y formatos de datos (estructurados, semiestructurados, no estructurados)
    1. Tabular relacional
    2. JSON, logs y eventos
    3. Texto libre
    4. Imágenes y señales
    5. Datos de series temporales
    6. Sensores y telemetría
    7. Datos geoespaciales
    8. Datos etiquetados vs no etiquetados
    9. Datos sintéticos
    10. Datos sensibles y regulados
  2. Manipulación y transformación de datos
    1. Joins y merges
    2. Filtrado y selección de columnas
    3. Agregaciones y group-by
    4. Pivot y reshaping
    5. Normalización de unidades y escalas
    6. Detección de duplicados
    7. Enriquecimiento con fuentes externas
    8. Procesamiento batch vs streaming
    9. Construcción de features derivadas
    10. Documentación de transformaciones
  3. Limpieza, imputación, normalización y validación
    1. Detección de valores faltantes
    2. Imputación numérica y categórica
    3. Outliers y recortes (winsorizing)
    4. Estandarización y escalamiento
    5. Codificación categórica
    6. Validación de rangos y formatos
    7. Detección de drift en el esquema
    8. Calidad de etiquetas
    9. Auditoría de calidad de datos
    10. Trazabilidad de cambios en datos críticos
  4. Versionado de datos, linaje y reproducibilidad de datasets
    1. Linaje de columnas (origen-transformación-destino)
    2. Versionado de tablas y snapshots
    3. Versionado de esquemas y contratos
    4. Control de acceso a datasets históricos
    5. Metadatos y catálogo de datos
    6. Datasets “golden” y certificación
    7. Reproducibilidad de informes
    8. Retención y expiración de datos
    9. Ciclo de vida de datasets críticos
    10. Auditoría y cumplimiento
  5. Series temporales básicas: agregaciones, ventanas de tiempo, estacionalidad
    1. Ventanas móviles y acumuladas
    2. Downsampling y resampling
    3. Estacionalidad diaria / semanal / anual
    4. Tendencia y nivel
    5. Suavizamiento exponencial
    6. Retención de usuarios con ventanas móviles
    7. Detección de picos y anomalías
    8. Lag features y lead features
    9. Forecasting corto plazo vs largo plazo
    10. Métricas de error en pronóstico
  6. Métricas de negocio y definición de KPI
    1. Métricas de adquisición, activación y retención
    2. Métricas de conversión y funnel
    3. Lifetime value (LTV)
    4. Churn y retención de clientes
    5. SLA / SLO operacionales
    6. Métricas de riesgo y fraude
    7. Métricas de satisfacción / NPS
    8. Métricas de eficiencia operativa y costo
    9. Métricas regulatorias
    10. Alineación métrica-equipo-dirección
  7. Segmentación, cohortes y comportamiento de usuarios
    1. Cohortes por fecha de alta / adquisición
    2. Segmentación por uso de funcionalidades
    3. Valor económico por segmento
    4. Ciclo de vida del usuario
    5. RFM (recencia, frecuencia, monto)
    6. Funnels multietapa
    7. Abandono y puntos de fuga
    8. Segmentación geográfica
    9. Segmentación contextual / estacional
    10. Segmentación dinámica en tiempo real
  8. Analítica de producto y telemetría de uso
    1. Instrumentación de eventos
    2. Definición de eventos de producto
    3. Propiedades de evento (metadata)
    4. Embudos de uso de funcionalidad
    5. Detección de fricción en la experiencia
    6. Impacto de nuevas features
    7. Alertas sobre caídas de uso
    8. Experimentos con cambios UI/UX
    9. Métricas de engagement
    10. Métricas de activación temprana
  9. Análisis geoespacial y datos con localización
    1. Coordenadas y proyecciones
    2. Map matching y geofencing
    3. Densidad espacial y heatmaps
    4. Rutas, trayectorias y movilidad
    5. Clustering espacial
    6. Demanda geolocalizada
    7. Riesgo geográfico y cobertura
    8. Optimización logística
    9. Datos satelitales y sensores remotos
    10. Privacidad en datos de localización
  10. Análisis de riesgo, fraude y anomalías
    1. Patrones transaccionales inusuales
    2. Umbrales dinámicos vs estáticos
    3. Reglas heurísticas vs modelos estadísticos
    4. Modelos de anomalía no supervisados
    5. Señales agregadas por usuario / dispositivo
    6. Escalonamiento de alertas
    7. Validación humana de fraudes
    8. Costo esperado del falso positivo
    9. Evasión adversaria
    10. Reportabilidad / cumplimiento interno
  11. Análisis exploratorio de datos (EDA)
    1. Distribuciones y percentiles
    2. Relaciones bivariadas
    3. Correlaciones y multicolinealidad preliminar
    4. Outliers y colas gruesas
    5. Separación por subpoblaciones
    6. Drift temporal de las variables
    7. Calidad de etiquetado
    8. Variables candidatas a ser features
    9. Supuestos del modelo detectables a ojo
    10. Hallazgos accionables tempranos
  12. Visualización, storytelling con datos y comunicación ejecutiva
    1. Elección de la visualización adecuada
    2. Minimalismo y señal vs ruido
    3. Gráficos para tendencias vs instantáneas
    4. Métricas únicas vs panel comparativo
    5. Narrativa causal vs narrativa descriptiva
    6. Comunicación a audiencias no técnicas
    7. Alertas visuales y semáforos ejecutivos
    8. Anotaciones y contexto histórico
    9. Métricas que importan al negocio
    10. Toma de decisión basada en evidencia
3. Estadística, inferencia y causalidad
  1. Estimadores, sesgo y varianza
    1. Consistencia del estimador
    2. Insesgadez vs baja varianza
    3. Error cuadrático medio
    4. Trade-off sesgo/varianza
    5. Regularización como aumento de sesgo controlado
    6. Intervalos de error para métricas de negocio
    7. Estimación empírica vs paramétrica
    8. Regímenes de pocos datos
    9. Varianza en modelos complejos
    10. Incertidumbre comunicable al stakeholder
  2. Intervalos de confianza y tests de hipótesis
    1. Hipótesis nula y alternativa
    2. Estadístico de prueba
    3. Distribución nula
    4. p-value y su interpretación
    5. Error tipo I y tipo II
    6. Intervalos de confianza vs tests
    7. Corrección por múltiples pruebas
    8. Equivalencia y tests de no-inferioridad
    9. Test unilateral vs bilateral
    10. Robustez frente a supuestos no cumplidos
  3. Comparación de grupos (t-test, χ², ANOVA)
    1. Comparación de medias
    2. Comparación de proporciones
    3. Varianzas entre grupos
    4. Tabla de contingencia y χ²
    5. ANOVA de una vía
    6. ANOVA multifactorial
    7. Interacciones entre factores
    8. Efecto práctico vs efecto estadístico
    9. Corrección post-hoc
    10. Selección de la métrica de comparación
  4. Significancia estadística, potencia estadística y tamaño de muestra
    1. Potencia estadística (power)
    2. Cálculo de tamaño mínimo de muestra
    3. Detección de efectos pequeños
    4. Curva ROC estadística de un experimento
    5. Balance costo/beneficio de experimentar
    6. Duración mínima de experimentos A/B
    7. Peeking y riesgo de look-ahead
    8. Sequential testing
    9. Stopping rules
    10. Validez científica vs velocidad de negocio
  5. Regresión lineal y múltiple (interpretación de coeficientes)
    1. Modelo lineal clásico
    2. Supuestos del modelo lineal
    3. Coeficientes como efectos marginales
    4. Intervalos de confianza de coeficientes
    5. Interacciones y términos cruzados
    6. Variables categóricas y dummies
    7. Multicolinealidad en la práctica
    8. Heterocedasticidad
    9. Errores correlacionados en el tiempo
    10. Interpretabilidad ante audiencias ejecutivas
  6. Multicolinealidad y selección de variables
    1. Matriz de correlación
    2. VIF (Variance Inflation Factor)
    3. Eliminación hacia atrás / hacia adelante
    4. Penalizaciones L1 y sparsity
    5. Selección basada en información mutua
    6. Selección basada en performance validada
    7. Variables redundantes
    8. Variables proxy de sesgos
    9. Coste de obtener cada variable
    10. Estabilidad de la selección en el tiempo
  7. Regularización estadística (ridge, lasso)
    1. Ridge y contracción de coeficientes
    2. Lasso y sparsity
    3. Elastic Net
    4. Interpretación geométrica de L1 vs L2
    5. Evitar sobreajuste en alta dimensión
    6. Selección automática de variables con L1
    7. Penalización como control de complejidad
    8. Validación cruzada para λ óptimo
    9. Relación con Bayes (priors gaussianos / laplacianos)
    10. Impacto en interpretabilidad
  8. Inferencia bayesiana aplicada
    1. Priors y posteiores
    2. Verosimilitud
    3. Actualización bayesiana con nueva evidencia
    4. Credible intervals vs confidence intervals
    5. Map vs MCMC
    6. Inferencia aproximada y variacional
    7. Bayes en experimentación online
    8. Priors informativos vs no informativos
    9. Mezcla de expertos bayesiana
    10. Comunicación probabilística a negocio
  9. Análisis causal (confusores, variables instrumentales, correlación vs causalidad)
    1. Causa vs correlación
    2. Confusores y sesgo de omisión
    3. Diagramas causales (DAGs)
    4. Variables instrumentales
    5. Propensity score matching
    6. Inverse propensity weighting
    7. Diferencias en diferencias
    8. Modelos estructurales causales
    9. Identificación vs estimación
    10. Limitaciones prácticas de la inferencia causal
  10. Evaluación de impacto y uplift
    1. Métricas de uplift individual
    2. Segmentación de tratamiento
    3. Heterogeneidad del efecto
    4. Lift de conversión
    5. ROI incremental
    6. Selección de población objetivo
    7. Riesgo regulatorio en targeting diferencial
    8. Equidad en la asignación de tratamiento
    9. Priorización operativa de campañas
    10. Medición post-lanzamiento (observacional vs experimental)
4. Teoría del aprendizaje automático
  1. Formulación de aprendizaje supervisado, no supervisado y semisupervisado
    1. Objetivos de predicción vs descubrimiento de estructura
    2. Etiquetas fuertes vs etiquetas débiles
    3. Dependencia de la señal de entrenamiento
    4. Supuestos sobre la distribución de datos
    5. Aprendizaje transductivo vs inductivo
    6. Riesgo empírico vs riesgo verdadero
    7. Funciones objetivo típicas por tipo de tarea
    8. Escenarios con datos limitados o costosos
    9. Relación con aprendizaje activo
    10. Transferencia entre paradigmas (pseudo-etiquetado)
  2. Funciones de pérdida y significado estadístico
    1. Pérdida cuadrática y supuestos gaussianos
    2. Entropía cruzada y clasificación probabilística
    3. Hinge loss y márgenes
    4. Pérdidas robustas a outliers (Huber)
    5. Pérdidas asimétricas y coste-dependientes
    6. Pérdida ranking / AUC-oriented
    7. Pérdidas multiclase vs multietiqueta
    8. Regularización como término en la pérdida
    9. Pérdidas personalizadas para negocio
    10. Interpretación probabilística de la pérdida
  3. Generalización: sesgo-varianza, capacidad del modelo y sobreajuste
    1. Curvas de aprendizaje (train vs valid)
    2. Underfitting vs overfitting
    3. Capacidad del modelo vs tamaño del dataset
    4. Complejidad efectiva del modelo
    5. Regularización para reducir varianza
    6. Data augmentation para mejorar generalización
    7. Early stopping como control de sobreajuste
    8. Cross-validation como estimador de error fuera de muestra
    9. Detección de fuga de información
    10. Generalización fuera de distribución
  4. Dimensión VC, márgenes y control de complejidad
    1. Dimensión VC como medida de capacidad
    2. Separabilidad lineal y margen máximo
    3. Regularización L2 como control del margen
    4. Trade-off margen vs error empírico
    5. Cotas de generalización dependientes del margen
    6. Complejidad del clasificador no lineal
    7. Funciones kernel y espacio de alta dimensión
    8. Capacidad efectiva de modelos profundos
    9. Sobrecapacidad y memorization
    10. Interpretación geométrica del sobreajuste
  5. PAC learning (visión conceptual)
    1. Probablemente Aproximadamente Correcto
    2. Error empírico vs error verdadero
    3. Tolerancia ε (precisión) y δ (confianza)
    4. Tamaño de muestra necesario para aprender
    5. Familias de hipótesis y complejidad
    6. Consistencia PAC
    7. Relación con dimensión VC
    8. Aprendibilidad en el sentido PAC
    9. Limitaciones prácticas del marco PAC
    10. Conexiones con bounds modernos en deep learning
  6. Regularización vista como restricción de complejidad
    1. Penalización L2 (weight decay)
    2. Penalización L1 (sparsity y selección de features)
    3. Elastic Net como compromiso
    4. Dropout como ruido estructurado
    5. Data augmentation como regularización implícita
    6. Normalización de batch y estabilidad del entrenamiento
    7. Early stopping como límite de capacidad
    8. Weight sharing en redes convolucionales
    9. Cuantización/poda como reducción efectiva de complejidad
    10. Interpretación bayesiana de la regularización
  7. Paisajes de optimización no convexa en redes profundas
    1. Mínimos locales vs puntos silla
    2. Mínimos planos vs mínimos afilados
    3. Robustez de mínimos planos a ruido
    4. Efecto del tamaño del batch
    5. Sensibilidad a la inicialización
    6. Rugosidad del paisaje de pérdida
    7. Simetrías de parámetros (permutación de neuronas)
    8. Degradación / explosión de gradientes
    9. Trayectorias de descenso en alta dimensión
    10. Convergencia práctica con optimizadores heurísticos
  8. Estabilidad de entrenamiento y ruido
    1. Ruido estocástico en SGD
    2. Ruido como exploración del paisaje de pérdida
    3. Robustez frente a datos ruidosos
    4. Etiquetas incorrectas y su efecto
    5. Suavizado de etiquetas (label smoothing)
    6. Normalización y control de escala
    7. Mezcla de ejemplos (mixup, cutmix)
    8. Sensibilidad a perturbaciones adversarias
    9. Estabilidad entre semillas aleatorias
    10. Estabilidad vs reproducibilidad en entornos reales
5. Machine Learning clásico (ML tradicional)
  1. Regresión lineal y logística
    1. Formulación cerrada vs entrenamiento iterativo
    2. Interpretación de coeficientes
    3. Probabilidades calibradas en clasificación
    4. Regularización ridge / lasso
    5. Multicolinealidad y condicionamiento numérico
    6. Interacciones y términos polinomiales
    7. Detección de outliers en residuales
    8. Regresión penalizada para alta dimensión
    9. Regresión logística multinomial
    10. Limitaciones para fronteras no lineales
  2. k-NN y métodos basados en distancia
    1. Definición de vecindad
    2. Elección de k
    3. Métricas de distancia (euclidiana, coseno)
    4. Efecto de la dimensionalidad alta
    5. Búsqueda aproximada de vecinos más cercanos
    6. Clasificación basada en voto ponderado
    7. Regresión basada en promedio local
    8. Sensibilidad a ruido y outliers
    9. Escalamiento / normalización previa
    10. Uso en recomendación basada en similitud
  3. Máquinas de soporte vectorial (SVM)
    1. Máximo margen
    2. Soft margin y parámetro C
    3. Funciones kernel (lineal, RBF, polinomial)
    4. Clasificación binaria y multiclase
    5. SVM para regresión (SVR)
    6. Interpretación geométrica de los support vectors
    7. Escalamiento de features
    8. Costo computacional en datasets grandes
    9. Selección de hiperparámetros (C, gamma)
    10. Robustez en alta dimensión con pocos datos
  4. Árboles de decisión
    1. Criterios de partición (gini, entropía, mse)
    2. Profundidad máxima y sobreajuste
    3. Interpretabilidad visual
    4. Manejo de variables categóricas
    5. Manejo de valores faltantes
    6. Árboles de regresión vs clasificación
    7. Podado (pruning)
    8. Inestabilidad frente a pequeñas variaciones
    9. Leakage por splits mal construidos
    10. Árboles como bloques base de ensembles
  5. Bosques aleatorios
    1. Bootstrap aggregating (bagging)
    2. Selección aleatoria de features por split
    3. Reducción de varianza
    4. Importancia de variables (feature importance)
    5. Robustez al ruido
    6. Estimación de error fuera de bolsa (OOB)
    7. Control de profundidad y cantidad de árboles
    8. Detección de overfitting residual
    9. Manejo de alta dimensionalidad
    10. Limitaciones en extrapolación continua
  6. Ensembles y Gradient Boosting (XGBoost, LightGBM)
    1. Boosting vs bagging
    2. Árboles débiles como aprendices base
    3. Tasa de aprendizaje (learning rate)
    4. Profundidad de árbol en boosting
    5. Regularización en boosting
    6. Importancias de características por ganancia
    7. Manejo de clases desbalanceadas
    8. Interpretabilidad parcial (partial dependence)
    9. Overfitting en boosting agresivo
    10. Uso industrial en tabular prediction
  7. Selección de variables y feature engineering
    1. Creación de variables agregadas
    2. Variables cruzadas (feature crosses)
    3. Transformaciones log, box-cox, binning
    4. Encoding categórico (one-hot, target encoding)
    5. Selección basada en importancia del modelo
    6. Selección basada en estabilidad temporal
    7. Eliminación de leakage
    8. Ingeniería de variables temporales (lags, rolling stats)
    9. Normalización / estandarización
    10. Documentación y gobierno de features
  8. Balanceo de clases y manejo de desbalance extremo
    1. Reponderación de clases (class weights)
    2. Submuestreo de la clase mayoritaria
    3. Sobremuestreo de la clase minoritaria
    4. SMOTE y variantes
    5. Métricas robustas al desbalance (PR AUC)
    6. Ajuste de umbral de decisión
    7. Cost-sensitive learning
    8. Riesgo regulatorio en falsos negativos/positivos
    9. Evaluación por subpoblaciones
    10. Monitoreo del desbalance en el tiempo
  9. Clustering (k-means, jerárquico, DBSCAN)
    1. k-means y su objetivo
    2. Elección de k (inercia, silhouette)
    3. Inicialización (k-means++)
    4. Clustering jerárquico y dendrogramas
    5. Distancias y enlaces (linkage)
    6. DBSCAN y densidad
    7. Ruido y puntos frontera
    8. Clusters de forma arbitraria
    9. Escalamiento a datasets grandes
    10. Uso en segmentación de clientes
  10. Modelos de mezcla y clustering probabilístico
    1. Modelos de mezcla gaussiana
    2. Expectation-Maximization (EM)
    3. Soft clustering vs hard clustering
    4. Estimación de densidad
    5. Selección del número de componentes (BIC/AIC)
    6. Interpretación probabilística de pertenencia
    7. Mezclas no gaussianas
    8. Mezclas para datos categóricos
    9. Mezclas en series temporales
    10. Limitaciones en alta dimensión
  11. Reducción de dimensionalidad (PCA, t-SNE, UMAP)
    1. PCA lineal y varianza explicada
    2. Componentes principales interpretables
    3. Efecto de escalamiento previo
    4. t-SNE para visualización
    5. UMAP y preservación de estructura local
    6. Ruido vs señal en alta dimensión
    7. Compresión de features
    8. Preprocesamiento para clustering
    9. Reducción para visualización ejecutiva
    10. Pérdida de interpretabilidad
  12. Detección de anomalías y outliers
    1. Modelos estadísticos univariados
    2. Distancia en espacio de features
    3. Isolation Forest
    4. Local Outlier Factor
    5. Modelos de densidad
    6. Anomalías en series temporales
    7. Uso en fraude y seguridad
    8. Trade-off sensibilidad vs falsas alarmas
    9. Validación humana de alertas
    10. Adaptación a nuevos patrones de ataque
  13. Series temporales con ML tradicional (ARIMA, SARIMA, Holt-Winters, VAR)
    1. Estacionariedad y diferenciación
    2. Estacionalidad y SARIMA
    3. Holt-Winters (tendencia y estacionalidad suave)
    4. VAR para multivariado
    5. Selección de retardos (lags)
    6. Métricas de forecasting (MAPE, sMAPE, MASE)
    7. Roll-forward vs entrenamiento global
    8. Drift de comportamiento en el tiempo
    9. Forecast con intervención externa
    10. Interpretación operativa del pronóstico
  14. Forecasting de demanda y predicción multihorizonte
    1. Predicción a corto vs largo plazo
    2. Horizonte rodante
    3. Forecast por segmento / categoría
    4. Efectos calendario (festivos, campañas)
    5. Incertidumbre en la predicción
    6. Predicción probabilística (quantile forecasting)
    7. Coste de sobrestock vs quiebre de stock
    8. Agregación jerárquica de pronósticos
    9. Evaluación financiera del error
    10. Integración con planeación operativa
  15. AutoML y búsqueda de hiperparámetros / arquitecturas
    1. Búsqueda aleatoria vs grid search
    2. Optimización bayesiana de hiperparámetros
    3. Selección automática de modelos candidatos
    4. Selección automática de features
    5. Ensamblado automático de pipelines
    6. Neural Architecture Search (NAS)
    7. Meta-aprendizaje
    8. Benchmarks internos de calidad
    9. Coste computacional y límites prácticos
    10. Riesgos de caja negra y reproducibilidad
  16. Aprendizaje semisupervisado y débilmente supervisado
    1. Pseudo-etiquetado
    2. Consistency regularization
    3. Self-training iterativo
    4. Weak supervision con reglas heurísticas
    5. Datasets ruidosos pero masivos
    6. Reducción de costo de etiquetado humano
    7. Transferencia entre dominios
    8. Detección de etiquetas contradictorias
    9. Evaluación sin gold standard perfecto
    10. Uso industrial en fraude y moderación
6. Evaluación de modelos y diseño experimental
  1. Partición train/valid/test y validación cruzada
    1. Hold-out simple
    2. K-fold cross-validation
    3. Stratified sampling
    4. Time series split
    5. Validación anidada (nested CV)
    6. Fugas temporales en series
    7. Leakage por usuario
    8. Conjuntos de test bloqueados
    9. Reutilización indebida del test set
    10. Reproducibilidad de splits
  2. Métricas de regresión, clasificación y ranking (ROC, PR, F1, calibración)
    1. RMSE / MAE para regresión
    2. Accuracy y sus límites
    3. Precision, recall y F1
    4. Curva ROC y AUC
    5. Curva PR y utilidad en clases raras
    6. Calibración de probabilidades
    7. Métricas top-K y ranking
    8. Métricas orientadas a negocio (costo esperado)
    9. Métricas por subgrupo (fairness)
    10. Métricas en tiempo real vs batch
  3. Umbrales de decisión y coste esperado
    1. Trade-off falso positivo / falso negativo
    2. Optimización de umbral por métrica de negocio
    3. Curva precision-recall como guía de umbral
    4. Expected value of a prediction
    5. Cost-sensitive classification
    6. Umbrales dinámicos según contexto
    7. Riesgo regulatorio en cierto tipo de error
    8. Calibración dependiente del segmento
    9. Aprobación humana en casos borde
    10. Explicabilidad del umbral ante negocio
  4. Interpretabilidad local y global (importancia de características, SHAP/LIME)
    1. Importancia global de variables
    2. Dependencia parcial (PDP)
    3. SHAP para atribución local
    4. LIME para explicaciones locales aproximadas
    5. Explicaciones contrafactuales
    6. Interacciones entre variables
    7. Transparencia vs performance
    8. Explicaciones para auditores / regulador
    9. Explicabilidad en tiempo real al usuario final
    10. Riesgo de revelar información sensible
  5. Data leakage y fugas de información
    1. Variables que usan información del futuro
    2. Variables derivadas de la etiqueta
    3. Variables casi duplicadas de la etiqueta
    4. Mezcla de usuarios entre train y test
    5. Mezcla de períodos históricos
    6. Variables altamente agregadas sin control temporal
    7. Fugas en feature stores compartidos
    8. Fugas entre entornos de entrenamiento y producción
    9. Cómo detectarlo con auditoría de features
    10. Impacto en métricas infladas artificialmente
  6. Robustez frente a ruido, datos faltantes y cambios de distribución
    1. Evaluación bajo perturbaciones controladas
    2. Robustez a outliers
    3. Robustez a imputación agresiva
    4. Evaluación en subpoblaciones raras
    5. Shift de dominio (domain shift)
    6. Shift de concepto (concept drift)
    7. Adversarial noise básico
    8. Estabilidad entre réplicas del modelo
    9. Estimación de incertidumbre en predicción
    10. Plan de mitigación si el modelo se degrada
  7. A/B testing y experimentación controlada
    1. Grupo control vs treatment
    2. Aleatorización y estratificación
    3. Duración mínima del experimento
    4. Peeking y sesgo temporal
    5. Métrica primaria y métricas secundarias
    6. Spillover entre tratamientos
    7. Pruebas multivariantes (A/B/n)
    8. Efectos en subsegmentos
    9. Coste de oportunidad de una variante mala
    10. Decisión de rollout basada en evidencia
  8. Modelos descriptivos / diagnósticos / predictivos / prescriptivos
    1. Qué pasó (descriptivo)
    2. Por qué pasó (diagnóstico)
    3. Qué va a pasar (predictivo)
    4. Qué deberíamos hacer (prescriptivo)
    5. Sistemas de alerta temprana
    6. Priorización de leads / casos
    7. Sugerencia de acción próxima
    8. Optimización bajo restricción de recursos
    9. Medición del impacto real de la acción
    10. Integración con la operación diaria
  9. Análisis causal aplicado y uplift modeling en producto
    1. Modelos de uplift individual
    2. Asignación diferencial de tratamiento
    3. Heterogeneidad del efecto de tratamiento
    4. Segmentos de alto impacto incremental
    5. Evitar targeting de usuarios que igual iban a convertir
    6. Riesgo ético en targeting selectivo
    7. Evaluación retrospectiva (post-hoc)
    8. Validación con experimentos A/B
    9. Comunicación de impacto incremental al negocio
    10. Uso en marketing, retención y pricing
  10. Detección temprana de degradación (drift de datos y drift de concepto)
    1. Monitoreo de distribución de entrada
    2. Monitoreo de distribución de salida
    3. Detección de drift de etiquetas
    4. Alarmas de performance bajo umbral
    5. Degradación localizada en un segmento
    6. Alertas operativas automáticas
    7. Re-entrenamiento gatillado por drift
    8. Validación previa al redeploy
    9. Rollback seguro
    10. Documentación del incidente de modelo
  11. Aprendizaje en línea y adaptación continua
    1. Entrenamiento incremental
    2. Actualización de pesos sin reentrenar desde cero
    3. Feature stores en streaming
    4. Manejo de concepto cambiante
    5. Modelos que evolucionan con el usuario
    6. Riesgo de deriva hacia sesgos
    7. Métricas en near-real-time
    8. Seguridad ante inyección maliciosa de datos
    9. Retención de conocimiento útil antiguo
    10. Validación continua en producción
  12. Aprendizaje activo (el modelo pide etiquetas donde tiene más incertidumbre)
    1. Estrategias de muestreo por incertidumbre
    2. Estrategias de muestreo por desacuerdo entre modelos
    3. Priorización de ejemplos “difíciles”
    4. Reducción de costo de etiquetado humano
    5. Bucle humano-en-el-loop
    6. Mejora dirigida en métricas críticas
    7. Foco en clases raras / fraude
    8. Curación progresiva del dataset
    9. Evaluación del beneficio marginal de cada etiqueta nueva
    10. Riesgo de sesgar el dataset con feedback iterativo
7. Deep Learning: fundamentos
  1. Neuronas artificiales y perceptrón multicapa
    1. Neurona lineal y función de activación
    2. Perceptrón simple y límite de separación lineal
    3. Perceptrón multicapa (MLP)
    4. Capas ocultas y capacidad de aproximación universal
    5. Tamaño de capa vs capacidad del modelo
    6. Arquitecturas totalmente conectadas
    7. Normalización de entrada
    8. Saturación de activaciones clásicas (sigmoid/tanh)
    9. Vanishing gradient en redes profundas
    10. Relación con regresión logística y softmax
  2. Redes densas feed-forward
    1. Capas lineales encadenadas
    2. Bloque lineal + no lineal como unidad básica
    3. Profundidad vs ancho
    4. Funciones de activación modernas (ReLU y variantes)
    5. Batch-wise training
    6. Regularización con dropout en capas densas
    7. Normalización entre capas
    8. Inicialización adecuada para redes profundas
    9. Capacidad de memorizar vs generalizar
    10. Límites en datos estructurados/tabulares
  3. Funciones de activación y normalización
    1. Sigmoid y saturación
    2. tanh y centrado en cero
    3. ReLU y variantes (LeakyReLU, GELU)
    4. Softmax para clasificación multiclase
    5. Batch Normalization
    6. Layer Normalization
    7. Normalización como estabilizador de gradientes
    8. Efecto en velocidad de convergencia
    9. Normalización como regularización implícita
    10. Normalización vs residual connections
  4. Retropropagación del gradiente
    1. Derivadas en capas encadenadas
    2. Regla de la cadena en alta dimensión
    3. Forward pass vs backward pass
    4. Cálculo eficiente con grafos computacionales
    5. Vanishing / exploding gradients
    6. Clipping de gradiente
    7. Retropropagación en redes recurrentes
    8. Retropropagación en arquitecturas con saltos residuales
    9. Autograd y frameworks modernos
    10. Coste computacional y memoria
  5. Inicialización de pesos y estabilidad numérica
    1. Inicialización aleatoria uniforme vs normal
    2. Xavier/Glorot initialization
    3. He initialization para ReLU
    4. Simetría rota entre neuronas
    5. Escalamiento adecuado por capa
    6. Profundidad y degradación del gradiente
    7. Efecto de la inicialización en la velocidad de convergencia
    8. Semillas aleatorias y reproducibilidad
    9. Precisión numérica (float32, float16, bfloat16)
    10. Estabilidad en hardware acelerado (GPU/TPU)
  6. Regularización en redes neuronales (dropout, weight decay)
    1. Dropout como ruido estructurado
    2. Weight decay como penalización L2
    3. Early stopping
    4. Data augmentation
    5. Label smoothing
    6. Mixup y variantes
    7. Normalización como regularización implícita
    8. Sparsity inducida
    9. Control de sobreajuste en datasets pequeños
    10. Impacto en interpretabilidad
  7. Ajuste de hiperparámetros en redes profundas
    1. Learning rate y schedulers
    2. Tamaño de batch
    3. Elección de optimizador (SGD, Adam, AdamW)
    4. Profundidad y ancho de la red
    5. Dropout rate y regularización
    6. Número de épocas
    7. Warmup de learning rate
    8. Grid search vs búsqueda bayesiana
    9. Tuning específico por tarea (visión, NLP)
    10. Tuning bajo restricción de cómputo
  8. Funciones de pérdida para clasificación y regresión
    1. Cross-entropy (clasificación multiclase)
    2. Binary cross-entropy (clasificación binaria)
    3. Softmax + NLLLoss
    4. MSE / MAE (regresión)
    5. Huber / Smooth L1
    6. Triplet loss y contrastive loss
    7. Focal loss para clases desbalanceadas
    8. Pérdidas orientadas a ranking
    9. Pérdidas multitarea
    10. Pérdidas personalizadas por negocio
8. Arquitecturas profundas avanzadas
  1. Redes convolucionales (CNN) para visión
    1. Convolución como extracción local de patrones
    2. Filtros / kernels y canales
    3. Receptive field y profundidad
    4. Invariancia traslacional
    5. Arquitecturas clásicas (LeNet, AlexNet)
    6. Arquitecturas modernas (ResNet, EfficientNet)
    7. BatchNorm en visión
    8. Data augmentation en visión
    9. Entrenamiento con datasets grandes vs pequeños
    10. Transfer learning en visión
  2. Pooling, padding y bloques tipo ResNet
    1. Max pooling vs average pooling
    2. Stride y downsampling espacial
    3. Padding y preservación de tamaño
    4. Problema del gradiente en redes muy profundas
    5. Saltos residuales (skip connections)
    6. Bloques básicos y bottleneck blocks
    7. Normalización dentro del bloque residual
    8. Profundidad extrema (50+ capas)
    9. Eficiencia computacional y memoria
    10. Estabilidad de entrenamiento con residuals
  3. Redes recurrentes (RNN, LSTM, GRU)
    1. Modelado secuencial explícito
    2. Exploding/vanishing gradients en RNN clásicas
    3. Celdas LSTM y compuertas
    4. GRU como versión simplificada
    5. Estado oculto como memoria
    6. Procesamiento paso a paso vs batching
    7. Modelos many-to-one / many-to-many
    8. Limitaciones en secuencias largas
    9. Regularización en RNNs (dropout recurrente)
    10. Aplicaciones en series temporales y texto
  4. Temporal Convolutional Networks
    1. Convoluciones causales
    2. Campos receptivos dilatados
    3. Paralelismo frente a RNN secuenciales
    4. Estabilidad del gradiente en secuencias largas
    5. Predicción multihorizonte
    6. Uso en forecasting temporal
    7. Aplicación en señales industriales
    8. Comparación con LSTM
    9. Limitaciones con dependencias muy largas
    10. Híbridos TCN + atención
  5. Mecanismos de atención y self-attention
    1. Atención como ponderación contextual
    2. Query, Key, Value
    3. Atención escalada por producto punto
    4. Multi-Head Attention
    5. Atender largas secuencias
    6. Atención causal vs bidireccional
    7. Atención cruzada (cross-attention)
    8. Coste cuadrático y variantes eficientes
    9. Interpretabilidad de mapas de atención
    10. Atención en visión y audio
  6. Transformers y arquitecturas encoder-decoder
    1. Encoder puro (BERT-like)
    2. Decoder puro (GPT-like)
    3. Encoder-decoder (T5, seq2seq moderna)
    4. Positional encoding
    5. Normalización por capa
    6. Máscaras de atención y control de contexto
    7. Tareas de completado y traducción
    8. Scaling law y tamaño de modelo
    9. Fine-tuning vs prompting
    10. Limitaciones de contexto
  7. Modelos generativos (autoencoders, GANs, modelos de difusión)
    1. Autoencoder clásico (reconstrucción)
    2. Autoencoder variacional (VAE)
    3. Latent space continuo
    4. GANs: generador vs discriminador
    5. Inestabilidad de entrenamiento en GANs
    6. Difusión directa e inversa (denoising diffusion)
    7. Control de estilo y condicionamiento
    8. Generación de imagen y audio
    9. Deepfakes y ética de generación
    10. Métricas de calidad generativa (FID, IS)
  8. Modelos multimodales (imagen-texto, audio-texto, fusión sensorial)
    1. Alineamiento entre modalidades (CLIP-style)
    2. Representaciones compartidas entre texto e imagen
    3. Audio-texto y ASR neuronal
    4. Video + texto + contexto temporal
    5. Fusión sensorial (imagen + LiDAR)
    6. Aprendizaje contrastivo multimodal
    7. grounding en el mundo físico
    8. Captura de contexto situacional
    9. Limitaciones de sesgo modal
    10. Aplicaciones en robótica y percepción autónoma
9. Transfer learning, auto-supervisión y modelos fundacionales
  1. Transfer learning clásico (pre-entrenar y ajustar)
    1. Fine-tuning completo vs capas congeladas
    2. Reutilización de features visuales
    3. Adaptación de modelos de texto a dominios específicos
    4. Reaprovechamiento en datasets pequeños
    5. Catastrophic forgetting al ajustar demasiado
    6. Selección de capa de corte
    7. Adaptación de salida (head) a nueva tarea
    8. Curva de datos requeridos vs tamaño del modelo
    9. Riesgos de overfitting en dominios niche
    10. Métricas para validar transferencia exitosa
  2. Aprendizaje auto-supervisado (contrastive, enmascarado, predicción de la siguiente parte)
    1. Pretexto sin etiquetas humanas
    2. Masked language modeling
    3. Contrastive learning (SimCLR, InfoNCE)
    4. Predict-the-next-token
    5. Bootstrap sin negativos explícitos
    6. Pre-entrenamiento en visión sin etiquetas
    7. Representaciones invariantes a augmentations
    8. Reducción del costo de etiquetado
    9. Generalización a múltiples tareas downstream
    10. Limitaciones por sesgos del corpus
  3. Modelos fundacionales y LLMs como base generalista
    1. Escalamiento de parámetros y datos
    2. Capacidades emergentes
    3. In-context learning
    4. Razonamiento encadenado (chain-of-thought, a alto nivel)
    5. Uso como motor semántico general
    6. Adaptación a múltiples tareas sin reentrenar
    7. Riesgos de alucinación
    8. Riesgos de filtrado de datos sensibles
    9. Dependencia de infraestructura grande
    10. Impacto en ciclos de desarrollo de productos
  4. Fine-tuning eficiente (LoRA, adapters, distillation)
    1. LoRA y baja-rango en matrices de atención
    2. Adapters como capas insertables
    3. Pocas actualizaciones de pesos (PEFT)
    4. Distillation professor-student
    5. Compresión de modelos grandes a modelos ligeros
    6. Coste de inferencia reducido
    7. Ajuste rápido por cliente / vertical
    8. Reentrenamiento frecuente con poco cómputo
    9. Preservación del conocimiento base
    10. Riesgos de degradación de calidad
  5. Continual learning y olvido catastrófico
    1. Catastrophic forgetting en ajuste secuencial
    2. Regularización para retener conocimiento previo
    3. Rehearsal y memoria episódica
    4. Métodos basados en importancia de parámetros
    5. Adaptación incremental de dominio
    6. Lifelong learning
    7. Aprendizaje personalizable por usuario
    8. Control de deriva semántica
    9. Riesgos de sesgo temporal
    10. Métricas para medir retención vs adaptación
10. Lenguaje natural, recuperación aumentada y agentes
  1. Representaciones de texto (TF-IDF, embeddings)
    1. Bolsa de palabras y conteo de términos
    2. TF-IDF como ponderación de relevancia
    3. Word embeddings densos (word2vec, GloVe)
    4. Subword embeddings
    5. Contextual embeddings (transformers)
    6. Espacios semánticos y similitud coseno
    7. Reducción de dimensionalidad en texto
    8. Detección de sinónimos / relaciones semánticas
    9. Limitaciones en polisemia
    10. Sesgos lingüísticos en embeddings
  2. Modelos de lenguaje (n-gramas, RNNs, Transformers)
    1. Modelos de n-gramas y probabilidad condicional
    2. Suavizado (smoothing) en n-gramas
    3. Modelos recurrentes para texto
    4. Atención en secuencias largas
    5. Transformers autoregresivos
    6. Modelos enmascarados tipo BERT
    7. Perplejidad como métrica de calidad
    8. Modelos generativos vs clasificadores
    9. Control de estilo / tono
    10. Costos de entrenamiento de LM
  3. Modelos de lenguaje grandes (LLMs) y alineación básica
    1. Instrucción y ajuste con feedback humano
    2. RLHF (refuerzo con feedback humano) a alto nivel
    3. Seguridad y filtrado de output
    4. Mitigación de toxicidad y bias
    5. Control de tono institucional / compliance
    6. Control de alucinaciones
    7. Uso como asistente interno especializado
    8. Riesgos de fuga de información confidencial
    9. Evaluación cualitativa vs cuantitativa
    10. Evaluación por panel humano
  4. Adaptación de dominio y fine-tuning instruccional
    1. Especialización a un vertical (legal, salud, finanzas)
    2. Ajuste de vocabulario técnico
    3. Ajuste de estilo y formato de salida
    4. Incorporación de políticas internas
    5. Inyección de documentación propietaria
    6. Control de tono hacia cliente final
    7. Personalización por segmento de usuario
    8. Mitigación de contradicciones internas
    9. Evaluación con datos de dominio
    10. Riesgos legales de datos sensibles
  5. Resumen automático, QA, NER y extracción de información
    1. Resumen extractivo vs abstractivo
    2. Pregunta-respuesta factual
    3. QA abierta vs QA cerrada a un corpus
    4. Reconocimiento de entidades (NER)
    5. Relación entre entidades (RE)
    6. Extracción de eventos
    7. Clasificación de intención
    8. Detección de sentimiento / toxicidad
    9. Evaluación de precisión factual
    10. Uso en automatización operativa
  6. Recuperación aumentada de contexto (búsqueda semántica, RAG)
    1. Indexación vectorial
    2. Similaridad semántica
    3. Recuperación de contexto relevante
    4. Inyección de contexto en el prompt
    5. Grounding en datos internos
    6. Actualización sin reentrenar el modelo base
    7. Control de alucinación vía evidencia recuperada
    8. Privacidad y control de acceso al corpus
    9. Latencia de recuperación vs latencia de respuesta
    10. Trazabilidad y citabilidad de la respuesta
  7. Orquestación de agentes que usan herramientas externas (tool-use)
    1. LLM como planificador de alto nivel
    2. Llamadas a APIs externas
    3. Razonamiento paso a paso condicionado por feedback
    4. Recuperación iterativa de información
    5. Acciones autónomas con confirmación humana
    6. Enrutamiento de consultas a la herramienta correcta
    7. Memoria a corto plazo del agente
    8. Memoria a largo plazo del agente
    9. Rastreabilidad de decisiones del agente
    10. Riesgos de acción no autorizada
  8. Seguridad y alucinación
    1. Alucinación factual
    2. Respuesta inventada con tono seguro
    3. Inyección de prompt maliciosa
    4. Jailbreaks y extracción de instrucciones internas
    5. Filtrado de respuestas sensibles
    6. Controles de compliance en entornos regulados
    7. Limitación de alcance (scoping) del agente
    8. Reducción de fuga de datos internos
    9. Métricas de seguridad de output
    10. Auditoría humana continua
11. Visión computacional y aprendizaje en grafos
  1. Aumentación y preprocesamiento de imágenes
    1. Normalización y estandarización de píxeles
    2. Aumentación geométrica (rotar, escalar, recortar)
    3. Aumentación fotométrica (brillo, contraste, ruido)
    4. Aumentación específica de dominio (defectos industriales, clima)
    5. Balanceo de clases mediante aumentación
    6. Redimensionamiento y recorte consistente
    7. Limpieza de datos corruptos / etiquetado dudoso
    8. Preprocesamiento para inferencia en tiempo real
    9. Data augmentation agresiva vs estabilidad del modelo
    10. Estandarización de pipelines de preprocesamiento
  2. Clasificación, detección y segmentación de objetos
    1. Clasificación de imagen completa
    2. Localización con bounding boxes
    3. Detección de objetos (one-stage vs two-stage)
    4. Segmentación semántica
    5. Segmentación instancia y panóptica
    6. Métricas tipo IoU / mAP
    7. Manejo de clases raras y objetos pequeños
    8. Inferencia en tiempo real (cámaras, móviles)
    9. Uso en visión industrial / inspección
    10. Tracking de objetos persistentes
  3. Visión 3D, nubes de puntos y seguimiento en video
    1. Nubes de puntos (LiDAR, depth cameras)
    2. Reconstrucción 3D aproximada
    3. Estimación de pose 3D
    4. Estimación de flujo óptico y movimiento
    5. Seguimiento multi-objeto en video
    6. Percepción para conducción autónoma / robótica
    7. Representaciones voxel vs point-based
    8. Limpieza de ruido en sensores físicos
    9. Sincronización de frames y sensores
    10. Métricas de estabilidad temporal
  4. Fusión sensorial (imagen + LiDAR)
    1. Calibración entre sensores
    2. Sincronización temporal multi-sensor
    3. Proyección de nube de puntos al espacio imagen
    4. Late fusion vs early fusion
    5. Representaciones multimodales compartidas
    6. Manejo de sensores faltantes / degradados
    7. Detección robusta en condiciones adversas (noche, lluvia)
    8. Redundancia para seguridad
    9. Uso en robótica móvil y vehículos autónomos
    10. Coste computacional en el borde (edge)
  5. Representación de grafos (nodos, aristas, atributos)
    1. Grafos homogéneos y heterogéneos
    2. Grafos dirigidos vs no dirigidos
    3. Atributos en nodos y aristas
    4. Subgrafos y vecindarios k-hop
    5. Caminos, ciclos y conectividad
    6. Embeddings iniciales de nodos
    7. Grafos dinámicos / temporales
    8. Desbalance de grado y hubs
    9. Normalización estructural
    10. Coste de muestrear vecindarios grandes
  6. Redes neuronales en grafos (message passing, GCN, GAT)
    1. Message passing neural networks
    2. GCN (Graph Convolutional Networks)
    3. GAT (Graph Attention Networks)
    4. Pooling en grafos
    5. Graph readout global
    6. Grafos inducidos por similitud
    7. Grafos espaciotemporales
    8. Escalabilidad a grafos gigantes
    9. Over-smoothing en capas profundas
    10. Regularización estructural
  7. Aplicaciones en química, fraude, redes sociales y recomendación
    1. Predicción de propiedades moleculares
    2. Descubrimiento de fármacos
    3. Detección de fraude transaccional
    4. Detección de comunidades y colusión
    5. Recomendación basada en grafo usuario-item
    6. Análisis de influencia social
    7. Moderación y seguridad en plataformas
    8. Detección de bots y actividad coordinada
    9. Análisis de conectividad crítica (infraestructura)
    10. Ranking contextualizado por red social
12. Series de tiempo avanzadas y señales
  1. Estacionalidad, tendencia y descomposición
    1. Descomposición aditiva vs multiplicativa
    2. Tendencia a largo plazo
    3. Efectos estacionales fijos y móviles
    4. Efectos calendario (fines de semana, festivos)
    5. Cambios estructurales y rupturas
    6. Señales de saturación / madurez
    7. Ajuste estacional previo al modelado
    8. Reversión de tendencia (ciclos)
    9. Interpretación de estacionalidad ante negocio
    10. Comparación entre segmentos o regiones
  2. Forecasting probabilístico y multihorizonte
    1. Predicción puntual vs distribución completa
    2. Intervalos de predicción y cuantiles
    3. Predicción a distintos horizontes (1h, 24h, 7d)
    4. Forecast jerárquico (categoría → producto)
    5. Forecast agregable por región / canal
    6. Penalización por sobreestimación vs subestimación
    7. Métricas (MAPE, sMAPE, MASE)
    8. Ensembles de modelos de forecasting
    9. Validación temporal rolling-origin
    10. Evaluación financiera del error de forecast
  3. Detección de anomalías en tiempo real
    1. Umbrales dinámicos dependientes del contexto
    2. Modelos de predicción + error residual
    3. Señales multivariantes correlacionadas
    4. Alertas tempranas vs ruido operativo
    5. Confirmación humana en loop
    6. Priorización según impacto
    7. Reducción de falsas alarmas
    8. Persistencia de anomalía vs pico aislado
    9. Anomalías estacionales esperables
    10. Auditoría y etiquetado continuo de eventos raros
  4. Transformers temporales y predicción secuencial multivariante
    1. Atención en series largas
    2. Manejo de múltiples variables simultáneas
    3. Encoding temporal / posicional para tiempo continuo
    4. Predicción multihorizonte con un solo modelo
    5. Captura de dependencias no lineales complejas
    6. Manejo de datos faltantes en streams
    7. Regularización en tareas con poco histórico
    8. Transferencia entre series similares
    9. Coste de inferencia en tiempo real
    10. Interpretabilidad de atención temporal
  5. Monitoreo operacional en streaming (alertas, SLA de detección)
    1. Ingesta de datos en vivo
    2. Extracción de features en línea
    3. Inferencia en baja latencia
    4. Alarmas automáticas y escalamiento
    5. SLAs de detección y respuesta
    6. Trazabilidad de incidentes
    7. Versionado de reglas / modelos en producción
    8. Re-entrenamiento continuo con datos recientes
    9. Métricas near-real-time para negocio
    10. Integración con dashboards y on-call
13. Aprendizaje por refuerzo y control
  1. Formulación MDP (estados, acciones, recompensas)
    1. Estado, observación y estado parcial
    2. Política como función de decisión
    3. Retorno descontado
    4. Recompensas escasas vs denso-recompensadas
    5. Horizonte finito vs infinito
    6. Exploración vs explotación
    7. Determinístico vs estocástico
    8. Entornos simulados vs reales
    9. Modelos off-policy vs on-policy
    10. Ingeniería de la recompensa
  2. Métodos tabulares (Q-Learning, SARSA)
    1. Tabla Q como aproximación de valor acción-estado
    2. Actualización incremental de Q
    3. ε-greedy como política exploratoria
    4. SARSA vs Q-Learning
    5. Convergencia en espacios pequeños
    6. Limitaciones en espacios grandes / continuos
    7. Trade-off velocidad / exploración
    8. Variantes con decaimiento de ε
    9. Ruido en la estimación de valor
    10. Problemas clásicos tipo gridworld
  3. Deep Q-Networks (DQN)
    1. Aproximación con red neuronal del valor Q
    2. Replay buffer
    3. Target network
    4. Estabilidad de entrenamiento
    5. Generalización entre estados parecidos
    6. Acción discreta vs continua
    7. DQN extendido (Double DQN, Dueling DQN)
    8. Sample efficiency
    9. Escalado a entornos complejos (juegos, control)
    10. Riesgos de sobreajuste al simulador
  4. Policy Gradient y actor-critic (PPO)
    1. Optimizar la política directamente
    2. Gradiente de la expectativa de retorno
    3. Variancia alta del estimador
    4. Baselines y reducción de varianza
    5. Actor-critic (actor actualiza política, critic evalúa)
    6. PPO (Proximal Policy Optimization)
    7. Restricción de actualización para estabilidad
    8. Continuous control y acciones continuas
    9. Sample efficiency en tareas físicas
    10. Robustez frente a pequeñas perturbaciones
  5. Control continuo y robótica
    1. Espacios de acción continuos
    2. Control motor fino
    3. Políticas reactivas vs planeamiento
    4. Imitation learning / behavioral cloning
    5. Sim2Real (transferencia simulador → mundo real)
    6. Seguridad física y límites de fuerza
    7. Retroalimentación sensorial ruidosa
    8. Latencia y control en tiempo real
    9. Fallos catastróficos y fallback seguro
    10. Optimización energética y eficiencia mecánica
  6. Multiagente y coordinación
    1. Juegos de suma cero vs cooperación
    2. Políticas independientes vs coordinadas
    3. Comunicación explícita entre agentes
    4. Equilibrios y estrategias estables
    5. Transferencia de políticas entre agentes
    6. Escalamiento con número de agentes
    7. Incentivos mal diseñados (colusión, abuso)
    8. Credit assignment multiagente
    9. Emergencia de roles especializados
    10. Aplicaciones en logística y sistemas distribuidos
  7. Seguridad, exploración controlada y alineación en RL
    1. Exploración segura en entornos físicos
    2. Restricciones duras (safety constraints)
    3. Penalización de acciones peligrosas
    4. Protección frente a recompensas mal definidas
    5. Catastrophic actions y apagado seguro
    6. Interpretabilidad de la política aprendida
    7. Supervisión humana en el loop
    8. Especificación de objetivos alineados
    9. Fallos éticos en entornos sociales simulados
    10. Transferencia a entornos reales regulados
14. Sistemas de recomendación y personalización
  1. Segmentación de usuarios y clustering aplicado
    1. Segmentación demográfica
    2. Segmentación por comportamiento de uso
    3. Segmentación por valor económico
    4. Segmentación por riesgo / churn
    5. Clustering clásico (k-means) aplicado a usuarios
    6. Cohortes temporales
    7. Microsegmentación dinámica
    8. Actualización periódica vs en línea
    9. Privacidad e identificación indirecta
    10. Uso para campañas y targeting
  2. Filtrado colaborativo y factorización matricial
    1. Matriz usuario–ítem
    2. Relleno de entradas faltantes
    3. Descomposición en factores latentes
    4. SVD y variantes implícitas
    5. Cold start de usuarios nuevos
    6. Cold start de ítems nuevos
    7. Sesgos de popularidad
    8. Regularización de factores
    9. Evaluación tipo top-N recomendados
    10. Escalamiento a catálogos grandes
  3. Modelos basados en contenido y señales de contexto
    1. Perfilado del ítem (tags, texto, metadata)
    2. Perfilado del usuario (historial, preferencias)
    3. Contexto temporal (hora del día, estacionalidad)
    4. Contexto espacial / geográfico
    5. Contexto del dispositivo / canal
    6. Recomendación contextualizada
    7. Explicabilidad basada en atributos
    8. Sesgo de exposición (lo que muestras condiciona lo que clickean)
    9. Personalización sensible a la situación
    10. Riesgos de filtrado burbuja
  4. Ranking, CTR prediction y métricas top-K
    1. Modelos de predicción de probabilidad de clic (CTR)
    2. Score de relevancia
    3. Ordenar resultados como problema de ranking
    4. Métricas top-K (recall@K, precision@K)
    5. Diversidad vs precisión pura
    6. Serendipia y novedad
    7. Calibración de la probabilidad de clic
    8. Positional bias y corrección
    9. Aprendizaje a partir de feedback implícito
    10. Evaluación online vs offline en recomendación
  5. Recomendadores secuenciales y en tiempo real
    1. Modelado de la secuencia de interacción
    2. RNN / Transformers para sesiones de usuario
    3. Predicción del próximo ítem
    4. Recomendación contextual en vivo
    5. Latencia extrema (ms-level)
    6. Actualización continua de embeddings de usuario
    7. Multi-armed bandits para exploración
    8. Protección contra loops de auto-refuerzo
    9. Detección de comportamiento fraudulento
    10. Escalamiento en catálogos masivos y rotación rápida
  6. Personalización dinámica en producto
    1. Contenido dinámico por usuario
    2. Reordenamiento de UI / feed personalizado
    3. Ofertas / precios personalizados
    4. Priorización de alertas / notificaciones
    5. Experiencias adaptativas (onboarding inteligente)
    6. Recomendación contextual en distintas superficies (web, móvil, correo)
    7. Controles de usuario (opt-out, afinamiento manual)
    8. Riesgos regulatorios en personalización
    9. Impacto en métricas de retención y conversión
    10. Auditoría de sesgo y trato diferencial
  7. Interpretabilidad y explicabilidad para equipos de negocio
    1. “Te recomendamos esto porque…”
    2. Destacar atributos relevantes del ítem
    3. Transparencia regulatoria (por qué recibí esta oferta)
    4. Explicar ranking a stakeholders no técnicos
    5. Métricas de salud del sistema de recomendación
    6. Fairness entre segmentos de usuarios
    7. Auditoría de auto-refuerzo de contenido
    8. Riesgo reputacional de malas sugerencias
    9. Controles humanos sobre recomendaciones críticas
    10. Documentación y accountability del motor de recomendación
15. Ingeniería de datos y plataformas de datos
  1. Modelado analítico orientado a negocio
    1. Identificación de métricas clave del negocio
    2. Modelos de datos centrados en preguntas reales
    3. Definición única de verdad (single source of truth)
    4. KPI operativos vs KPI estratégicos
    5. Métricas derivadas vs métricas fundamentales
    6. Trazabilidad desde métrica hasta tabla origen
    7. Diseño pensando en stakeholders no técnicos
    8. Versionado semántico de métricas
    9. Alineación entre analítica y reporting financiero
    10. Gobierno de definiciones métricas
  2. Modelado dimensional (hechos y dimensiones)
    1. Tablas de hechos (transacciones, eventos)
    2. Tablas de dimensiones (quién, qué, dónde)
    3. Dimensiones lentamente cambiantes (SCD)
    4. Granularidad de los hechos
    5. Métricas aditivas, semiaditivas y no aditivas
    6. Conformidad de dimensiones entre dominios
    7. Join patterns estándar
    8. Minimizar duplicación en data marts
    9. Documentación de llaves de negocio
    10. Impacto del modelado dimensional en performance BI
  3. Data warehouse, data lakes y lakehouses
    1. Almacén estructurado vs repositorio crudo
    2. ETL hacia warehouse vs ELT en lake
    3. Lakehouse como capa unificada
    4. Tablas gobernadas vs zonas “raw”
    5. Gestión de esquemas en zonas crudas
    6. Costos de almacenamiento vs costos de consulta
    7. Seguridad y acceso por capa
    8. Uso analítico vs uso ML
    9. Catálogo centralizado de datasets productivos
    10. Evolución histórica de warehouse → lake → lakehouse
  4. Formatos columnares y almacenamiento orientado a análisis
    1. Columnar vs row-oriented
    2. Formatos tipo Parquet / ORC
    3. Compresión y particionamiento
    4. Pruning de columnas para queries analíticas
    5. Z-Ordering / clustering físico
    6. Almacenamiento frío vs caliente
    7. Trade-off costo/latencia acceso
    8. Indexación secundaria
    9. Time-partitioned tables
    10. Impacto en costos de exploración ad-hoc
  5. Catálogo de datos, linaje y descubribilidad
    1. Metadatos técnicos y de negocio
    2. Quién usa qué tabla
    3. Linaje columna a columna
    4. Búsqueda semántica de datasets
    5. Clasificación de sensibilidad
    6. Owners y stewards de datos
    7. Calidad declarada vs medida
    8. Deprecación y archivado controlado
    9. Auditoría de accesos
    10. Discovery self-service para analistas
  6. Gobernanza de acceso y control de permisos
    1. Control de acceso basado en roles
    2. Enmascaramiento de columnas sensibles
    3. Segmentación por dominio/área de negocio
    4. Separación entre ambientes (dev / prod)
    5. Auditoría de consultas sensibles
    6. Acceso temporal / Just-In-Time
    7. Revocación automatizada
    8. Registros de cumplimiento normativo
    9. Data sharing interno controlado
    10. Data sharing externo (partners, clientes)
  7. Retención, archivado y ciclo de vida de los datos
    1. Políticas de retención legal
    2. Borrado seguro / derecho al olvido
    3. Datos fríos / históricos vs datos activos
    4. Archivado en capas de bajo costo
    5. Snapshots históricos para auditoría
    6. Versiones congeladas para reproducibilidad
    7. Limpieza de datos obsoletos
    8. Riesgos regulatorios por sobre-retención
    9. Impacto en costos de almacenamiento largo plazo
    10. Estrategias de restore ante incidentes
  8. Integración con herramientas de BI y tableros ejecutivos
    1. Dashboards operativos vs ejecutivos
    2. Métrica única y consistente entre tableros
    3. Control de acceso a dashboards sensibles
    4. Alertas automáticas y umbrales
    5. Versionado de dashboards
    6. Catálogo de reportes oficiales
    7. Autoservicio para analistas
    8. Storytelling visual para directores
    9. Paneles regulatorios / auditoría
    10. Métricas en “tiempo casi real” para negocio
  9. Exposición de datos como servicio (APIs analíticas)
    1. APIs para consumo analítico interno
    2. Limitar filtrado pesado en cliente
    3. Agregaciones precomputadas
    4. Controles de acceso por token / rol
    5. Cuotas y rate limiting
    6. Versionado de endpoints
    7. Estabilidad contractual de la respuesta
    8. Auditoría de uso de APIs
    9. Latencia objetivo de las respuestas
    10. Exposición de features a sistemas ML online
  10. ETL / ELT y pipelines reproducibles y declarativos
    1. Extracción desde fuentes heterogéneas
    2. Transformaciones determinísticas
    3. Declaratividad vs scripting imperativo
    4. Infra como código para pipelines
    5. Control de versiones del pipeline
    6. Idempotencia de tareas
    7. Gestión de dependencias entre pasos
    8. Rollback de pipelines defectuosos
    9. Auditoría de ejecuciones
    10. Testing automatizado de transformaciones
  11. Procesamiento batch a gran escala
    1. Ingesta nocturna / periódica
    2. Ventanas de corte (close of business)
    3. Reprocesamiento histórico
    4. Control de costos en batch jobs pesados
    5. Fallos intermedios y reintentos
    6. Paralelización horizontal
    7. Orden de dependencia entre jobs
    8. SLA de disponibilidad de datos batch
    9. Validación de integridad al final del job
    10. Publicación de resultados listos para consumo
  12. Procesamiento streaming y datos en flujo continuo
    1. Ingesta en tiempo real (event buses)
    2. Transformación en streaming
    3. Computo ventana fija / sliding window
    4. Estado en streaming (stateful operators)
    5. Deduplicación en tiempo real
    6. Aseguramiento “exactly-once” vs “at-least-once”
    7. Latencia extremo a extremo
    8. Alertas inmediatas y detección temprana
    9. Enriquecimiento con datos de referencia
    10. Publicación a dashboards en vivo
  13. Orquestación de tareas y scheduling de flujos
    1. DAGs de dependencias
    2. Schedulers declarativos
    3. Retries y backoff exponencial
    4. Prioridades de ejecución
    5. Alertas en falla
    6. Auditoría de ejecuciones históricas
    7. Deploy controlado de nuevas versiones de flujo
    8. Separación de entornos (dev / staging / prod)
    9. Gobernanza de quién puede editar qué
    10. Escalamiento horizontal de workers
  14. Optimización y perfilado de pipelines
    1. Perfilado de pasos costosos
    2. Cuellos de botella de I/O
    3. Optimización de joins caros
    4. Reducción de shuffle / movimiento de datos
    5. Pruning de columnas no usadas
    6. Indexación / particionamiento adecuado
    7. Reuso de resultados intermedios cacheados
    8. Costeo por pipeline / job
    9. Alertas por degradación de performance
    10. Budgeting de cómputo por equipo
  15. Pruebas de calidad, contratos de datos y SLAs de datos
    1. Tests de esquema (tipos, nullability)
    2. Tests de rangos / dominio válido
    3. Tests de unicidad y llaves
    4. Tests de completitud mínima
    5. Alertas por caída de calidad
    6. Contratos de datos entre equipos (data contracts)
    7. SLAs de frescura y disponibilidad
    8. Versiones incompatibles de columnas
    9. Gestión de breaking changes
    10. Reportes semanales de salud de datos
  16. Observabilidad de datos (frescura, completitud, anomalías)
    1. Monitoreo de latencia de ingesta
    2. Monitoreo de tasa de llegada de eventos
    3. Detección de huecos en datos
    4. Detección de outliers estadísticos en métricas clave
    5. Alarmas de ruptura de tendencia
    6. Panel de salud de tablas críticas
    7. Auditoría de acceso no esperado
    8. Alertas de PII fuera de lugar
    9. Gestión de incidentes de datos
    10. Postmortems y acciones correctivas
  17. Data mesh y dominios de datos
    1. Dominio de datos como “producto” interno
    2. Propiedad distribuida por equipo de negocio
    3. Estándares comunes de calidad y acceso
    4. SLA de datos por dominio
    5. Descubribilidad federada
    6. Interoperabilidad entre dominios
    7. Gobernanza federada vs centralizada
    8. Reducción de cuellos de botella del “equipo de datos central”
    9. Escalamiento organizacional y autonomía
    10. Riesgos de inconsistencia métrica entre dominios
16. Big Data y computación distribuida
  1. Concepto de big data (volumen, velocidad, variedad, veracidad, valor)
    1. Volumen: datasets masivos
    2. Velocidad: ingestión en tiempo casi real
    3. Variedad: fuentes heterogéneas
    4. Veracidad: ruido y calidad dudosa
    5. Valor: utilidad económica real
    6. Datos estructurados vs logs crudos
    7. Limitaciones de herramientas tradicionales
    8. Trade-off latencia vs costo
    9. Casos que realmente requieren big data
    10. Antipatrones de “big data por moda”
  2. Arquitecturas distribuidas de datos
    1. Clusters escalables horizontalmente
    2. Procesamiento paralelo tipo map/shuffle/reduce
    3. Separación cómputo/almacenamiento
    4. Elasticidad bajo demanda
    5. Fault tolerance y replicación
    6. Balanceo de carga
    7. Alta disponibilidad
    8. Consistencia eventual vs fuerte
    9. Escalamiento multi-región
    10. Costeo de infraestructura compartida
  3. Sistemas de archivos distribuidos
    1. Almacenamiento en bloques replicados
    2. Metadatos centralizados vs distribuidos
    3. Acceso concurrente masivo
    4. Tolerancia a fallos de nodo
    5. Localidad de datos y afinidad de tareas
    6. Jerarquías de almacenamiento (SSD/HDD/objeto)
    7. Integración con motores de cómputo
    8. Evolución de HDFS a almacenamiento de objetos
    9. Control de permisos en almacenamiento distribuido
    10. Borrado seguro y cumplimiento normativo
  4. Motores de consulta distribuida y SQL distribuido
    1. Procesamiento paralelo de queries
    2. Pushdown de filtros/proyecciones
    3. Optimización de planes de ejecución
    4. Joins distribuidos y shuffle
    5. Caching intermedio
    6. Cost-based optimization
    7. Federated query sobre múltiples fuentes
    8. Latencia vs throughput
    9. Aislamiento entre workloads analíticos
    10. Multitenancy y fairness de recursos
  5. Buses de eventos y colas de mensajería
    1. Publicación/suscripción (pub/sub)
    2. Particionamiento por clave
    3. Orden relativo por partición
    4. Retención por ventana temporal
    5. Reproceso de historial de eventos
    6. Backpressure y control de flujo
    7. Garantías de entrega (at-most-once, at-least-once, exactly-once)
    8. Monitorización de lag del consumidor
    9. Aislamiento de productores “ruidosos”
    10. Integración con pipelines streaming
  6. Procesamiento en tiempo real para decisiones operativas
    1. Enriquecimiento de eventos entrantes con contexto
    2. Scoring en vivo con modelos ML
    3. Alertas operativas automáticas
    4. Detección temprana de fraude / intrusión
    5. Reacción automática (bloqueo, throttling)
    6. Monitorización de SLAs operativos
    7. Dashboards en vivo para turno operativo
    8. Registro auditable de decisiones en línea
    9. Sistemas de baja latencia (<100 ms)
    10. Trade-off precisión vs inmediatez
  7. Integración de telemetría de producto y métricas de negocio a escala
    1. Instrumentación de eventos de uso masivo
    2. Envío confiable desde clientes distribuidos
    3. Alineación de datos de producto con datos financieros
    4. Enriquecimiento con atributos de usuario / cuenta
    5. Métricas de salud del producto en vivo
    6. Correlación entre performance técnica y métricas de negocio
    7. Detección de regresiones tras deploys
    8. Alertas de caída de engagement
    9. Visibilidad unificada para producto / datos / operaciones
    10. Priorización de incidentes según impacto económico
17. Puesta en producción de modelos (MLOps / LLMOps)
  1. Ciclo de vida del modelo: entrenamiento, validación, despliegue, rollback
    1. Entrenamiento reproducible
    2. Validación previa al deploy
    3. Publicación a un entorno de inferencia
    4. Canary release / lanzamiento gradual
    5. Rollback seguro y rápido
    6. Versionado del modelo desplegado
    7. Gestión de entornos (dev/staging/prod)
    8. Control de dependencias y librerías
    9. Documentación del cambio de modelo
    10. Trazabilidad completa de qué modelo tomó qué decisión
  2. Tracking de experimentos y versionado de artefactos
    1. Registro de hiperparámetros y métricas
    2. Comparación entre runs
    3. Registro de datasets usados
    4. Versionado del código de entrenamiento
    5. Checkpoints de modelos
    6. Artefactos de preprocesamiento
    7. Retención de modelos obsoletos
    8. Auditoría científica / reproducibilidad
    9. Firma y certificación de modelos aprobados
    10. Control de acceso a modelos sensibles
  3. Gestión de características (feature stores)
    1. Definición única y reutilizable de features
    2. Cálculo batch vs cálculo en línea
    3. Consistencia train/serve (offline vs online)
    4. Versionado de features
    5. Catálogo de features aprobadas
    6. Control de acceso a features sensibles
    7. Documentación semántica de cada feature
    8. Monitoreo de drift por feature
    9. Latencia de lectura en producción
    10. Reutilización entre equipos / modelos
  4. Servir modelos en batch y en tiempo real
    1. Scoring batch programado
    2. Scoring bajo demanda (online inference)
    3. Endpoints de predicción
    4. Latencia objetivo por caso de uso
    5. Escalamiento horizontal / autoscaling
    6. Tolerancia a fallos del servicio
    7. Versionado y enrutamiento de modelos
    8. Logging de requests y respuestas
    9. Seguridad y control de acceso a inferencia
    10. Costeo por predicción / por request
  5. Inferencia de baja latencia y costo por predicción
    1. Cuantización de modelos
    2. Compilación / optimización para hardware específico
    3. Batch interno para throughput
    4. Cacheo de resultados frecuentes
    5. Despliegue en edge / on-device
    6. Balance entre precisión y latencia
    7. Trade-off costo cloud vs on-prem
    8. Timeouts y degradación controlada
    9. Elasticidad ante picos de tráfico
    10. Políticas de priorización de requests críticos
  6. Monitorización de deriva y degradación de modelos
    1. Drift de datos de entrada
    2. Drift de la distribución de predicciones
    3. Drift de la relación input→output (concept drift)
    4. Métricas de performance en vivo
    5. Alarmas de performance bajo umbral
    6. Evaluación por subpoblación
    7. Métricas de fairness en producción
    8. Alertas on-call para incidentes de modelo
    9. Registro de incidentes y RCA (root cause analysis)
    10. Plan de respuesta y contención
  7. Retraining continuo y loops de realimentación
    1. Recolección automática de nuevos datos etiquetados
    2. Curación de ejemplos difíciles
    3. Retraining programado vs bajo demanda
    4. Validación automática post-retraining
    5. Aprobación humana previa al redeploy
    6. Gestión de versiones consecutivas
    7. Evitar drift hacia sesgos no deseados
    8. Limpieza de datos tóxicos / adversarios
    9. Documentación de cambios de comportamiento
    10. Evaluación de impacto tras el redeploy
  8. Testing de modelos antes del rollout y validación de seguridad
    1. Tests unitarios de preprocesamiento
    2. Tests de consistencia de features
    3. Tests de estabilidad numérica
    4. Tests de rendimiento en carga
    5. Tests de fairness / sesgo
    6. Tests de “no romper métricas clave”
    7. Evaluación en datos sintéticos adversarios
    8. Red teaming de prompts / modelos de lenguaje
    9. Validación legal / compliance
    10. Firma de aprobación antes de producción
  9. A/B testing en producción y medición de impacto
    1. Traffic splitting entre modelos
    2. Métrica primaria de éxito
    3. Monitoreo en vivo del experimento
    4. Detección de efectos secundarios negativos
    5. Spillover entre variantes
    6. Duración mínima confiable
    7. Decisión de adopción / rollback
    8. Documentación de resultados
    9. Comunicación del impacto a negocio
    10. Reutilización de aprendizajes para próximos lanzamientos
  10. Observabilidad operativa (latencia, throughput, errores)
    1. Métricas de infraestructura (CPU, memoria, GPU)
    2. Latencia p50 / p95 / p99
    3. Throughput sostenido vs pico
    4. Tasa de error / timeouts
    5. Saturación de colas
    6. Caídas de dependencia externa
    7. Alertas en tiempo real
    8. Dashboards para on-call
    9. Registro histórico para auditoría
    10. Priorización de incidentes críticos
  11. SLOs y SLAs para servicios de inferencia
    1. Definición de SLO técnico (latencia, uptime)
    2. Definición de SLA contractual
    3. Alertas al romper SLO
    4. Penalidades por incumplimiento de SLA
    5. SLOs distintos para clientes internos vs externos
    6. Aislamiento de workloads críticos
    7. Planes de contingencia
    8. Backoff / degradación graciosa
    9. Escalamiento operativo formal
    10. Reportes ejecutivos de cumplimiento
  12. Documentación y tarjetas de modelo (model cards)
    1. Descripción de propósito del modelo
    2. Dataset(s) de entrenamiento y sus sesgos
    3. Poblaciones donde funciona bien / mal
    4. Métricas de rendimiento declaradas
    5. Riesgos conocidos y limitaciones
    6. Consideraciones éticas y legales
    7. Requisitos de monitoreo post-despliegue
    8. Controles humanos requeridos
    9. Historial de versiones del modelo
    10. Contacto responsable / ownership claro
18. Escalamiento, eficiencia y despliegue en el borde
  1. Entrenamiento distribuido (data parallelism, model parallelism, sharding)
    1. Paralelismo de datos vs paralelismo de modelo
    2. Sharding de parámetros y activaciones
    3. All-reduce y sincronización de gradientes
    4. Desacople comunicación / cómputo
    5. Entrenamiento en múltiples GPUs / nodos
    6. Balance de carga entre workers
    7. Checkpointing distribuido tolerante a fallos
    8. Elastic training (recursos que entran/salen)
    9. Estrategias de escalamiento de lotes (batch size scaling)
    10. Costos de red como cuello de botella
  2. Mezcla de expertos y arquitecturas escalables
    1. Mezcla de expertos (MoE) dispersa
    2. Ruteo condicional de tokens / entradas
    3. Escalar parámetros sin escalar cómputo por token
    4. Balance de carga entre expertos
    5. Sparsity estructurada
    6. Especialización de expertos por dominio
    7. Colapso de expertos y mitigaciones
    8. Mezcla de expertos en visión, texto y multmodal
    9. Inferencia distribuida con MoE
    10. Impacto en coste de servir LLMs gigantes
  3. Cuantización, poda y compresión de modelos
    1. Cuantización a menor precisión (fp16, int8, int4)
    2. Poda estructurada y no estructurada
    3. Pruning de canales / neuronas menos útiles
    4. Factorización de matrices de pesos (low-rank)
    5. Distillation (teacher-student)
    6. Minimizar memoria en inferencia
    7. Minimizar latencia en dispositivos edge
    8. Trade-off compresión vs pérdida de calidad
    9. Técnicas post-training vs durante el entrenamiento
    10. Re-entrenamiento fino tras compresión
  4. Compiladores y runtimes optimizados (GPU / TPU / ASIC)
    1. Graph compilers y optimización de grafos computacionales
    2. Fusión de operadores (op fusion)
    3. Reordenamiento de operaciones para locality de memoria
    4. Kernel tuning específico de hardware
    5. Aceleradores especializados (TPU / NPU / ASIC)
    6. Scheduling heterogéneo CPU+GPU
    7. Compilación ahead-of-time vs just-in-time
    8. Auto-tuning basado en profiling
    9. Cuellos de botella de memoria, no de FLOPs
    10. Portabilidad entre proveedores de hardware
  5. Inferencia en el borde (edge AI, TinyML, microcontroladores)
    1. Modelos ultra ligeros
    2. Memoria extremadamente limitada (KB/MB)
    3. Latencia dura (tiempo real físico)
    4. Ejecución offline sin red
    5. Consumo energético mínimo (batería / IoT)
    6. Seguridad y privacidad on-device
    7. Inferencia en sensores industriales / robots
    8. Actualización remota de modelos en campo
    9. Detección local de eventos críticos
    10. Validación y certificación en entornos regulados
  6. Limitaciones de memoria, energía y latencia dura
    1. Presupuestos de energía por inferencia
    2. Latencia máxima tolerable por la aplicación
    3. Tamaño máximo del modelo permitido
    4. Gestión térmica en hardware embebido
    5. Balance precisión vs consumo energético
    6. Inferencia determinista y tiempo garantizado
    7. Degradación controlada bajo sobrecarga
    8. Priorización de tareas críticas en edge
    9. Caching local de resultados frecuentes
    10. Trade-offs entre enviar al servidor o decidir local
  7. Costos energéticos y sostenibilidad del cómputo en IA
    1. Huella energética del entrenamiento de modelos grandes
    2. Costos de refrigeración y data center
    3. Uso de hardware eficiente vs hardware genérico
    4. Reutilización de modelos vs entrenamiento desde cero
    5. Compresión para reducir consumo en inferencia masiva
    6. Balance entre batch offline y online scoring
    7. Métricas de eficiencia energética por predicción
    8. Regulaciones y reporting ambiental
    9. Incentivos económicos para modelos más pequeños
    10. Diseño responsable de workloads intensivos
19. Ética, seguridad, privacidad y gobernanza
  1. Privacidad de datos personales y minimización de uso
    1. Minimización de retención de PII
    2. Principio de “necesidad de conocer”
    3. Anonimización y seudonimización
    4. Riesgo de reidentificación
    5. Separación de datos personales y operacionales
    6. Propósito declarado vs uso real
    7. Transparencia frente al usuario
    8. Derecho al olvido y borrado selectivo
    9. Restricciones de uso secundario de datos
    10. Auditorías de acceso
  2. Privacidad diferencial y aprendizaje federado
    1. Ruido calibrado a nivel estadístico
    2. Garantías formales de privacidad
    3. Ataques de reconstrucción de datos
    4. Membership inference attacks
    5. Entrenamiento en el dispositivo del usuario
    6. Agregación segura de gradientes
    7. No compartir datos crudos entre nodos
    8. Riesgos de fuga mediante el modelo
    9. Trade-off privacidad / performance
    10. Uso en salud y finanzas
  3. Gobernanza, trazabilidad y auditoría de datos y modelos
    1. Linaje de datos crítico (origen → transformación → decisión)
    2. Quién entrenó el modelo y con qué datos
    3. Historial de versiones del modelo en producción
    4. Registro de cambios de features
    5. Auditoría externa regulatoria
    6. Auditoría interna de cumplimiento
    7. Evidencia para peritaje legal
    8. Firma / certificación de modelos aprobados
    9. Control de acceso basado en rol
    10. Responsables claros (“owner” del modelo)
  4. Cumplimiento normativo y marcos legales
    1. Regulaciones sectoriales (finanzas, salud, etc.)
    2. Restricciones de uso de datos sensibles
    3. Reportabilidad obligatoria de decisiones automáticas
    4. Explicabilidad legalmente exigible
    5. Limitaciones al profiling individual
    6. Retención mínima / máxima legal
    7. Transferencia internacional de datos
    8. Consentimiento informado vs interés legítimo
    9. Sanciones por incumplimiento
    10. Actualización continua por cambios regulatorios
  5. Control de acceso, clasificación de datos y dominios de seguridad
    1. Clasificación por sensibilidad
    2. Segmentación de entornos (prod vs analítica)
    3. Enmascaramiento dinámico de campos sensibles
    4. Accesos temporales / justificados
    5. Registro de accesos privilegiados
    6. Hardening de entornos de inferencia
    7. Gestión de llaves y secretos
    8. Aislamiento de workloads regulados
    9. Cumplimiento de políticas internas
    10. Detección de abuso interno
  6. Sesgos algorítmicos, equidad y no discriminación
    1. Bias en datos históricos
    2. Variables proxy de atributos sensibles
    3. Métricas de fairness por subgrupos
    4. Disparidad de falsos positivos/negativos
    5. Impacto distributivo en poblaciones vulnerables
    6. Auditoría periódica de sesgos
    7. Mitigación de sesgos en entrenamiento
    8. Mitigación en post-procesamiento
    9. Obligación ética de corrección
    10. Documentación del riesgo residual
  7. Explicabilidad y justificabilidad de decisiones automatizadas
    1. Explicar por qué se tomó una decisión
    2. Explicabilidad global vs local
    3. Explicaciones contrafactuales (“qué habría pasado si…”)
    4. Interpretabilidad para auditores/autoridades
    5. Interpretabilidad para usuarios finales
    6. Límites técnicos de interpretabilidad en deep learning
    7. Transparencia de criterios de scoring
    8. Riesgos de revelar demasiado (gaming del sistema)
    9. Trazabilidad de la decisión hasta el input
    10. Registro accesible para defensa legal
  8. Riesgo reputacional y deepfakes / desinformación sintética
    1. Generación de contenido engañoso
    2. Suplantación de identidad
    3. Manipulación de audio/video
    4. Atribución de autoría falsa
    5. Detección de contenido sintético
    6. Watermarking y firmas de procedencia
    7. Moderación de contenido automatizada
    8. Riesgo de viralización y daño reputacional
    9. Uso malicioso interno vs externo
    10. Políticas de respuesta a incidentes públicos
  9. Transparencia frente a usuarios y stakeholders
    1. Declarar uso de IA en decisiones críticas
    2. Explicar límites y posibles errores
    3. Canales de apelación humana
    4. Control del usuario sobre sus datos
    5. Visibilidad de métricas de calidad
    6. Disclosure ante clientes corporativos
    7. Comunicación de incidentes de datos
    8. Lenguaje claro no técnico
    9. Requerimientos de confianza en sectores regulados
    10. Expectativas éticas de clientes y sociedad
  10. Reproducibilidad científica y versionado de datasets/modelos
    1. Versionado de datasets de entrenamiento
    2. Congelamiento de snapshots de datos
    3. Versionado de código y configuración
    4. Fijación de seeds y determinismo
    5. Documentación de ambiente de ejecución
    6. Comparación justa entre modelos
    7. Evidencia de replicabilidad
    8. Auditoría post-mortem de fallos
    9. Portabilidad entre entornos
    10. Conservación de experimentos históricos
  11. Gobernanza del ciclo de vida completo del dato y del modelo
    1. Flujo dato → feature → modelo → predicción → acción
    2. Dueños claros para cada etapa
    3. Políticas de aprobación en cada cambio
    4. Monitoreo continuo post-despliegue
    5. Evaluación de impacto social antes del lanzamiento
    6. Retiro responsable de modelos obsoletos
    7. Controles de rollback ético
    8. Gestión de deuda técnica y deuda ética
    9. Documentación para auditoría externa
    10. Apoyo ejecutivo / comité de riesgo
  12. Políticas internas de aprobación y revisión humana obligatoria
    1. Casos donde no se permite decisión 100% automática
    2. Umbrales que gatillan revisión humana
    3. Registro de intervenciones humanas
    4. Trazabilidad de overrides
    5. Revisión ética de nuevos casos de uso
    6. Revisión legal / compliance previa al despliegue
    7. Aprobación ejecutiva en casos críticos
    8. Revocación de modelos ante mal uso
    9. Mecanismos de denuncia interna
    10. Accountability final explícito
  13. Continuidad operativa y resiliencia ante fallos del modelo en producción
    1. Modos degradados seguros
    2. Fallback a reglas heurísticas
    3. Rollback inmediato a versión anterior
    4. Plan de contingencia ante ataque adversario
    5. Desconexión rápida ante comportamiento tóxico
    6. Alertas on-call 24/7 para servicios críticos
    7. Simulacros de desastre algorítmico
    8. Comunicación de incidentes a stakeholders
    9. Plan de remediación y mejora
    10. Gestión reputacional post-incidente
20. Aplicaciones verticales y casos de uso
  1. Analítica de negocio y optimización operacional
    1. Medición de eficiencia operativa
    2. Identificación de cuellos de botella
    3. Priorización de iniciativas de mejora
    4. Scorecards y accountability interno
    5. Automatización de reporting operativo
    6. Alertas sobre SLAs rotos
    7. Optimización de pricing/promociones
    8. Predicción de demanda de capacidad interna
    9. Detección de ineficiencias de procesos
    10. Soporte de decisiones tácticas diarias
  2. Detección de fraude, scoring de riesgo y cumplimiento financiero
    1. Scoring crediticio
    2. Señales de comportamiento atípico
    3. Alertas de fraude en tiempo real
    4. Clasificación de transacciones sospechosas
    5. Modelos antifraude adaptativos
    6. Explicabilidad requerida por cumplimiento regulatorio
    7. Revisión humana de alertas de alto riesgo
    8. Prevención de lavado de dinero (AML)
    9. Auditoría y trazabilidad de decisiones de riesgo
    10. Balance falso positivo vs costo de fraude
  3. Personalización, recomendación y priorización de leads
    1. Lead scoring comercial
    2. Priorización automática de outreach
    3. Ofertas y mensajes personalizados
    4. Recomendación de producto / contenido
    5. Retención de usuarios en riesgo de churn
    6. Up-selling / cross-selling inteligente
    7. Secuencias de contacto multicanal
    8. Optimización de funnel de conversión
    9. Evaluación incremental (uplift en ventas)
    10. Riesgos éticos de segmentación agresiva
  4. Salud y biomedicina asistida por IA
    1. Ayuda al diagnóstico clínico asistido
    2. Análisis de imágenes médicas
    3. Alarmas tempranas en UCI
    4. Priorización de casos críticos
    5. Modelos de riesgo de rehospitalización
    6. Descubrimiento de fármacos y screening molecular
    7. Privacidad y datos altamente sensibles
    8. Validación clínica y regulación sanitaria
    9. Toma de decisión asistida, no autónoma
    10. Responsabilidad legal y ética del soporte de IA
  5. Retail, demanda y logística predictiva
    1. Forecast de demanda por tienda / SKU
    2. Optimización de inventario
    3. Prevención de quiebre de stock
    4. Optimización de reposición
    5. Ruteo de entrega y última milla
    6. Detección de fraude en devoluciones
    7. Segmentación de clientes por valor de vida útil
    8. Personalización de promociones
    9. Pricing dinámico según demanda
    10. Evaluación del impacto en margen
  6. Industria y mantenimiento predictivo (gemelos digitales)
    1. Sensores IoT industriales
    2. Modelos de fallo inminente
    3. Mantenimiento preventivo vs predictivo
    4. Gemelos digitales de equipos críticos
    5. Optimización energética de planta
    6. Seguridad industrial y fallos catastróficos
    7. Programación automática de mantención
    8. Priorización de alertas operativas
    9. Diagnóstico remoto en terreno
    10. Trazabilidad completa de eventos de falla
  7. Ciencia y simulación asistida por datos (clima, materiales, física)
    1. Modelado climático / pronóstico de variables ambientales
    2. Descubrimiento de nuevos materiales
    3. Modelos de dinámica molecular asistidos por ML
    4. Aceleración de simulaciones numéricas costosas
    5. Ajuste de parámetros físicos vía optimización bayesiana
    6. Fusión de datos experimentales + simulación
    7. Reducción de modelos complejos a emuladores rápidos
    8. Cuantificación de incertidumbre científica
    9. Reproducibilidad científica
    10. Uso ético en modelamiento de riesgo climático
  8. Agentes autónomos, robótica y control continuo
    1. Percepción integrada (visión + sensores)
    2. Navegación y evitación de obstáculos
    3. Manipulación robótica con feedback sensorial
    4. Control en bucle cerrado en tiempo real
    5. Aprendizaje por refuerzo en simulación
    6. Transferencia Sim2Real
    7. Coordinación multi-robot
    8. Seguridad operacional y “botón rojo”
    9. Cumplimiento normativo en entornos humanos
    10. Responsabilidad en caso de accidente
  9. Asistentes conversacionales y copilotos para trabajo humano
    1. Asistencia al flujo de trabajo (resúmenes, drafting)
    2. Recuperación aumentada de contexto interno
    3. Razonamiento paso a paso guiado
    4. Integración con herramientas corporativas
    5. Automatización de tareas repetitivas
    6. Soporte en atención al cliente
    7. Riesgo de alucinación en dominios críticos
    8. Escalamiento del humano (augmentación, no reemplazo)
    9. Medición de valor real (tiempo ahorrado, calidad mejorada)
    10. Supervisión humana obligatoria en decisiones sensibles
  10. Automatización de decisiones en línea dentro del flujo de negocio
    1. Scoring en tiempo real dentro del producto
    2. Priorización automática de casos operativos
    3. Control dinámico de riesgo
    4. Moderación y filtrado de contenido en vivo
    5. Prevención de abuso y spam
    6. Detección temprana de incidentes operativos
    7. Ajuste automático de precios / límites / acceso
    8. Integración con sistemas transaccionales
    9. Auditoría de cada decisión automatizada
    10. Estrategia de rollback rápido ante decisiones dañinas

Última modificación October 27, 2025: changes (85a7032)