Operación en producción

    1. Operación en producción
      1. Concurrencia y rendimiento

        1. Modelos asíncronos y bucles de eventos
          1. Estructura del loop de eventos
          2. Tareas cooperativas y awaitables
          3. Programación sin bloqueo de E/S
          4. Multiplexación de sockets y file descriptors
          5. Límite de una sola hebra en el bucle de eventos
          6. Integración de código síncrono dentro de un contexto asíncrono
          7. Cancelación de tareas asíncronas y limpieza
        2. Paralelismo con hilos y procesos
          1. Paralelismo CPU-bound vs I/O-bound
          2. Planificación de hilos del sistema operativo
          3. Pools de hilos y pools de procesos
          4. Competencia por el intérprete e impacto del bloqueo global
          5. Aislamiento de memoria entre procesos
          6. Compartición de datos y pasos de mensaje entre procesos
          7. Sincronización entre hilos y condiciones de carrera
        3. Tareas diferidas y trabajo en segundo plano
          1. Ejecución fuera de la ruta crítica de la request
          2. Programación de trabajos periódicos
          3. Retries automáticos y colas de reintento diferido
          4. Trabajos de alta latencia y pipelines batch
          5. Priorización de tareas y niveles de servicio
          6. Confirmación explícita de trabajo completado
        4. Futuros, promesas y unidades de trabajo asíncronas
          1. Estados de una promesa (pendiente, resuelta, rechazada)
          2. Encadenamiento de callbacks y composición
          3. Recolección de resultados concurrentes
          4. Sincronización mediante espera conjunta de múltiples tareas
          5. Propagación de errores a través de futuros
          6. Cancelación y tiempo de espera sobre futuros
        5. Caching en memoria y distribuido
          1. Caches locales en proceso
          2. Caches compartidas entre réplicas
          3. Estrategias de expiración y TTL
          4. Invalidación de caché y coherencia de datos
          5. Memoización de cálculos costosos
          6. Cacheo de resultados de consultas externas
          7. Efectos del caché en la latencia percibida
        6. Perfilado de CPU y memoria
          1. Muestreo estadístico de uso de CPU
          2. Rastreo de asignaciones de memoria
          3. Identificación de fugas de memoria
          4. Coste de boxing, copying y serialización
          5. Impacto de estructuras de datos en consumo
          6. Hot paths y funciones críticas
          7. Optimización guiada por perfiles reales
        7. Cuellos de botella de entrada/salida frente a cómputo
          1. Saturación de disco
          2. Saturación de red
          3. Bloqueo en llamadas a servicios externos
          4. Limitaciones de CPU vectorial o SIMD
          5. Latencia de memoria RAM y cachés L1/L2/L3
          6. Balance carga I/O-bound y CPU-bound en arquitectura mixta
        8. Medición de rendimiento y benchmarking
          1. Microbenchmarks de funciones críticas
          2. Benchmarks de throughput y latencia de extremo a extremo
          3. Pruebas en frío vs calentamiento de procesos
          4. Variabilidad estadística y repetibilidad
          5. Límites sostenibles vs picos transitorios
          6. Degradación bajo estrés prolongado
        9. Estrategias de escalado horizontal y vertical
          1. Escalado vertical por recurso (CPU, RAM)
          2. Escalado horizontal por réplicas idénticas
          3. Balanceadores de carga y distribución uniforme
          4. Sesiones pegajosas vs estado compartido
          5. Sharding lógico por clave
          6. Replicación activa-activa y activa-pasiva
        10. Colas de trabajo y orquestadores de tareas
          1. Productores y consumidores desacoplados
          2. Confirmación explícita de mensaje procesado
          3. Reintentos con backoff exponencial
          4. Detección de mensajes envenenados
          5. Dead-letter queues y cuarentena
          6. Balanceo de carga entre workers
        11. Control de tasa y mecanismos de alivio de presión
          1. Limitación de solicitudes por unidad de tiempo
          2. Ventanas deslizantes y contadores de tokens
          3. Priorización por tipo de cliente
          4. Rechazo temprano y respuestas degradadas
          5. Colas de espera controladas
          6. Circuit breaking por sobrecarga
        12. Bloqueos, semáforos y estructuras de sincronización
          1. Exclusión mutua y regiones críticas
          2. Lectores-escritores y acceso concurrente
          3. Semáforos contadores y control de recursos limitados
          4. Barreras de sincronización y fases de cómputo
          5. Deadlocks, livelocks y inanición
          6. Diseño lock-free y wait-free
      2. Infraestructura y operaciones

        1. Estrategias avanzadas de control de versiones y ramas
          1. Ramas de larga duración y ramas efímeras
          2. Estrategias trunk-based y release branches
          3. Versionado semántico y etiquetado de releases
          4. Cherry-pick y backport controlado
          5. Políticas de revisión y protección de ramas
          6. Lineaje de cambios y auditoría de commits
        2. Integración continua / entrega continua en entornos reales
          1. Pipelines automatizados de build y test
          2. Validaciones de seguridad en el pipeline
          3. Gates de calidad y cobertura
          4. Artefactos versionados y promoción entre entornos
          5. Deploy continuo vs deploy bajo aprobación
          6. Rollback automatizado ante fallos
        3. Contenedores y definición de entornos portables
          1. Aislamiento de dependencias y librerías del sistema
          2. Imágenes reproducibles y deterministas
          3. Reducción de superficie de ataque en la imagen
          4. Versionado y cache de capas
          5. Inmutabilidad del runtime empaquetado
          6. Compatibilidad multiplataforma y arquitectura CPU
        4. Despliegue de múltiples servicios coordinados
          1. Versionado independiente por servicio
          2. Contratos de API y compatibilidad hacia atrás
          3. Orquestación de despliegues dependientes
          4. Sincronización de cambios de esquema de datos
          5. Migraciones transicionales y ventanas de mantenimiento
          6. Estrategias de despliegue gradual por servicio
        5. Orquestación de contenedores y planificación de cargas
          1. Schedulers y asignación de pods/tareas
          2. Afinidad y anti-afinidad de nodos
          3. Probes de liveness y readiness
          4. Autoescalado controlado por métricas
          5. Actualizaciones rolling y despliegues canary
          6. Gestión de estado en cargas stateful
        6. Monitoreo de infraestructura y paneles de visualización
          1. Métricas de CPU, memoria, disco y red
          2. Estado de nodos, contenedores y pods
          3. Alarmas de capacidad y saturación
          4. Paneles en tiempo real y paneles ejecutivos
          5. Históricos de rendimiento para análisis de tendencias
          6. Correlación entre eventos de infraestructura y fallas
        7. Infraestructura como código
          1. Declaratividad y convergencia de estado
          2. Versionado y auditoría de cambios infra
          3. Validación y pruebas de plantillas
          4. Reutilización de módulos y componentes
          5. Gestión de múltiples entornos desde el mismo código
          6. Destrucción controlada y limpieza de recursos
        8. Plataformas en la nube (cómputo, redes, almacenamiento)
          1. Máquinas virtuales y capacidad reservada
          2. Redes virtuales, subredes y reglas de ingreso
          3. Balanceadores gestionados y gateways
          4. Almacenamiento en bloque y archivos compartidos
          5. Replicación entre zonas y regiones
          6. Políticas de alta disponibilidad geográfica
        9. Almacenamiento de objetos, ejecución sin servidor, monitoreo gestionado
          1. Buckets de objetos y políticas de retención
          2. Funciones bajo demanda y cómputo sin servidor
          3. Límites de tiempo de ejecución y memoria por invocación
          4. Integración con colas y eventos
          5. Servicios gestionados de logging y métricas
          6. Persistencia eventual y consistencia leída-despues-de-escritura
        10. Gestión de configuración y secretos centralizados
          1. Variables de entorno y configuración externa
          2. Inyección dinámica de secretos en runtime
          3. Rotación de llaves y credenciales
          4. Control de acceso basado en roles
          5. Versionado de configuración y rollback
          6. Separación configuración por entorno y por región
        11. Monitoreo activo y alertas operacionales
          1. Probes sintéticos de disponibilidad
          2. Verificación de SLA y SLO
          3. Alertas por latencia y tasa de errores
          4. Alertas por backlog de colas y congestión
          5. Alertas de costos y sobregasto proyectado
          6. Rutas de escalamiento y on-call
        12. Optimización de costos y escalado automático
          1. Rightsizing de instancias y contenedores
          2. Uso de instancias reservadas y spot/preemptibles
          3. Escalado basado en métricas de negocio
          4. Programación horaria de apagado de recursos
          5. Compresión y ciclo de vida de almacenamiento
          6. Reducción de duplicación de datos y tráfico innecesario
      3. Observabilidad, logs y métricas

        1. Logging estructurado y contextualizado
          1. Campos clave/valor y trazabilidad por request
          2. Correlación con IDs de sesión, usuario y transacción
          3. Niveles de severidad y filtrado
          4. Retención, rotación y archivado de logs
          5. Mascaramiento de datos sensibles
          6. Búsqueda y agregación en grandes volúmenes
        2. Monitoreo del desempeño de las aplicaciones (APM)
          1. Métricas de latencia por endpoint
          2. Métricas de throughput y saturación
          3. Errores por tipo y frecuencia
          4. Seguimiento de dependencias externas
          5. Degradación progresiva bajo carga
          6. Detección temprana de regresiones de rendimiento
        3. Trazas distribuidas de extremo a extremo
          1. Propagación de contexto entre servicios
          2. Spans anidados y timeline de la request
          3. Identificación del servicio lento en la cadena
          4. Cuellos de botella inter-servicio
          5. Muestreo y retención de trazas
          6. Análisis de latencia percibida por el usuario final
        4. Métricas personalizadas y verificaciones de salud
          1. Métricas técnicas (cola, memoria, GC)
          2. Métricas funcionales (pedidos/minuto, pagos fallidos)
          3. Endpoints de healthcheck internos y públicos
          4. Señales de degradación temprana
          5. Alarmas por cambio relativo, no solo absoluto
          6. Métricas de disponibilidad percibida
        5. Alertas basadas en umbrales y tendencias
          1. Umbrales estáticos vs umbrales dinámicos
          2. Alertas por anomalías estadísticas
          3. Tendencias de crecimiento de error rate
          4. Alertas de saturación inminente
          5. Priorización y severidad de alertas
          6. Gestión de fatiga de alertas y ruido
        6. Auditoría y reconstrucción de incidentes
          1. Registro inmutable de acciones relevantes
          2. Línea de tiempo del incidente
          3. Evidencia para análisis post-mortem
          4. Identificación del punto de quiebre
          5. Acceso a datos históricos consistentes
          6. Mejora continua basada en lecciones aprendidas
      4. Resiliencia

        1. Tolerancia a fallos y aislamiento
          1. Aislamiento por servicio y dominio funcional
          2. Aislamiento de recursos críticos compartidos
          3. Redundancia activa y pasiva
          4. Degradación controlada de características no críticas
          5. Limitación del radio de explosión ante fallas
          6. Failover automatizado entre réplicas
        2. Control de latencia y tiempo de espera
          1. Timeouts por operación y por dependencia
          2. Presupuestos de latencia por request
          3. Cancelación proactiva de operaciones lentas
          4. Respuestas parciales bajo presión
          5. Fast-fail frente a recursos saturados
          6. Evitar bloqueo cascada por espera
        3. Reintentos seguros
          1. Idempotencia de operaciones
          2. Backoff exponencial y jitter aleatorio
          3. Detección de errores transitorios vs permanentes
          4. Evitar tormentas de reintentos coordinados
          5. Límite máximo de reintentos y corte temprano
          6. Registro de reintentos para auditoría
        4. Protección contra sobrecarga
          1. Circuit breakers y apertura de circuito
          2. Rechazo controlado de tráfico en picos
          3. Colas limitadas y shedding de carga
          4. Modos degradados de servicio
          5. Cuotas por cliente o tenant
          6. Protección contra picos maliciosos o anómalos
        5. Salud del servicio y autosanación
          1. Detección automática de instancias defectuosas
          2. Reinicio y reemplazo automático de réplicas
          3. Reconciliación con estado declarado
          4. Rotación de nodos no saludables
          5. Limpieza de recursos colgados o zombificados
          6. Autorrecuperación sin intervención humana
        6. Recuperación y continuidad
          1. Backups consistentes y verificados
          2. Restauración probada y documentada
          3. Planes de recuperación ante crisis
          4. Ingeniería del caos