Operación en producción

  1. Operación en producción
    1. Concurrencia y rendimiento

      1. Modelos asíncronos y bucles de eventos
        1. Estructura del loop de eventos
        2. Tareas cooperativas y awaitables
        3. Programación sin bloqueo de E/S
        4. Multiplexación de sockets y file descriptors
        5. Límite de una sola hebra en el bucle de eventos
        6. Integración de código síncrono dentro de un contexto asíncrono
        7. Cancelación de tareas asíncronas y limpieza
      2. Paralelismo con hilos y procesos
        1. Paralelismo CPU-bound vs I/O-bound
        2. Planificación de hilos del sistema operativo
        3. Pools de hilos y pools de procesos
        4. Competencia por el intérprete e impacto del bloqueo global
        5. Aislamiento de memoria entre procesos
        6. Compartición de datos y pasos de mensaje entre procesos
        7. Sincronización entre hilos y condiciones de carrera
      3. Tareas diferidas y trabajo en segundo plano
        1. Ejecución fuera de la ruta crítica de la request
        2. Programación de trabajos periódicos
        3. Retries automáticos y colas de reintento diferido
        4. Trabajos de alta latencia y pipelines batch
        5. Priorización de tareas y niveles de servicio
        6. Confirmación explícita de trabajo completado
      4. Futuros, promesas y unidades de trabajo asíncronas
        1. Estados de una promesa (pendiente, resuelta, rechazada)
        2. Encadenamiento de callbacks y composición
        3. Recolección de resultados concurrentes
        4. Sincronización mediante espera conjunta de múltiples tareas
        5. Propagación de errores a través de futuros
        6. Cancelación y tiempo de espera sobre futuros
      5. Caching en memoria y distribuido
        1. Caches locales en proceso
        2. Caches compartidas entre réplicas
        3. Estrategias de expiración y TTL
        4. Invalidación de caché y coherencia de datos
        5. Memoización de cálculos costosos
        6. Cacheo de resultados de consultas externas
        7. Efectos del caché en la latencia percibida
      6. Perfilado de CPU y memoria
        1. Muestreo estadístico de uso de CPU
        2. Rastreo de asignaciones de memoria
        3. Identificación de fugas de memoria
        4. Coste de boxing, copying y serialización
        5. Impacto de estructuras de datos en consumo
        6. Hot paths y funciones críticas
        7. Optimización guiada por perfiles reales
      7. Cuellos de botella de entrada/salida frente a cómputo
        1. Saturación de disco
        2. Saturación de red
        3. Bloqueo en llamadas a servicios externos
        4. Limitaciones de CPU vectorial o SIMD
        5. Latencia de memoria RAM y cachés L1/L2/L3
        6. Balance carga I/O-bound y CPU-bound en arquitectura mixta
      8. Medición de rendimiento y benchmarking
        1. Microbenchmarks de funciones críticas
        2. Benchmarks de throughput y latencia de extremo a extremo
        3. Pruebas en frío vs calentamiento de procesos
        4. Variabilidad estadística y repetibilidad
        5. Límites sostenibles vs picos transitorios
        6. Degradación bajo estrés prolongado
      9. Estrategias de escalado horizontal y vertical
        1. Escalado vertical por recurso (CPU, RAM)
        2. Escalado horizontal por réplicas idénticas
        3. Balanceadores de carga y distribución uniforme
        4. Sesiones pegajosas vs estado compartido
        5. Sharding lógico por clave
        6. Replicación activa-activa y activa-pasiva
      10. Colas de trabajo y orquestadores de tareas
        1. Productores y consumidores desacoplados
        2. Confirmación explícita de mensaje procesado
        3. Reintentos con backoff exponencial
        4. Detección de mensajes envenenados
        5. Dead-letter queues y cuarentena
        6. Balanceo de carga entre workers
      11. Control de tasa y mecanismos de alivio de presión
        1. Limitación de solicitudes por unidad de tiempo
        2. Ventanas deslizantes y contadores de tokens
        3. Priorización por tipo de cliente
        4. Rechazo temprano y respuestas degradadas
        5. Colas de espera controladas
        6. Circuit breaking por sobrecarga
      12. Bloqueos, semáforos y estructuras de sincronización
        1. Exclusión mutua y regiones críticas
        2. Lectores-escritores y acceso concurrente
        3. Semáforos contadores y control de recursos limitados
        4. Barreras de sincronización y fases de cómputo
        5. Deadlocks, livelocks y inanición
        6. Diseño lock-free y wait-free
    2. Infraestructura y operaciones

      1. Estrategias avanzadas de control de versiones y ramas
        1. Ramas de larga duración y ramas efímeras
        2. Estrategias trunk-based y release branches
        3. Versionado semántico y etiquetado de releases
        4. Cherry-pick y backport controlado
        5. Políticas de revisión y protección de ramas
        6. Lineaje de cambios y auditoría de commits
      2. Integración continua / entrega continua en entornos reales
        1. Pipelines automatizados de build y test
        2. Validaciones de seguridad en el pipeline
        3. Gates de calidad y cobertura
        4. Artefactos versionados y promoción entre entornos
        5. Deploy continuo vs deploy bajo aprobación
        6. Rollback automatizado ante fallos
      3. Contenedores y definición de entornos portables
        1. Aislamiento de dependencias y librerías del sistema
        2. Imágenes reproducibles y deterministas
        3. Reducción de superficie de ataque en la imagen
        4. Versionado y cache de capas
        5. Inmutabilidad del runtime empaquetado
        6. Compatibilidad multiplataforma y arquitectura CPU
      4. Despliegue de múltiples servicios coordinados
        1. Versionado independiente por servicio
        2. Contratos de API y compatibilidad hacia atrás
        3. Orquestación de despliegues dependientes
        4. Sincronización de cambios de esquema de datos
        5. Migraciones transicionales y ventanas de mantenimiento
        6. Estrategias de despliegue gradual por servicio
      5. Orquestación de contenedores y planificación de cargas
        1. Schedulers y asignación de pods/tareas
        2. Afinidad y anti-afinidad de nodos
        3. Probes de liveness y readiness
        4. Autoescalado controlado por métricas
        5. Actualizaciones rolling y despliegues canary
        6. Gestión de estado en cargas stateful
      6. Monitoreo de infraestructura y paneles de visualización
        1. Métricas de CPU, memoria, disco y red
        2. Estado de nodos, contenedores y pods
        3. Alarmas de capacidad y saturación
        4. Paneles en tiempo real y paneles ejecutivos
        5. Históricos de rendimiento para análisis de tendencias
        6. Correlación entre eventos de infraestructura y fallas
      7. Infraestructura como código
        1. Declaratividad y convergencia de estado
        2. Versionado y auditoría de cambios infra
        3. Validación y pruebas de plantillas
        4. Reutilización de módulos y componentes
        5. Gestión de múltiples entornos desde el mismo código
        6. Destrucción controlada y limpieza de recursos
      8. Plataformas en la nube (cómputo, redes, almacenamiento)
        1. Máquinas virtuales y capacidad reservada
        2. Redes virtuales, subredes y reglas de ingreso
        3. Balanceadores gestionados y gateways
        4. Almacenamiento en bloque y archivos compartidos
        5. Replicación entre zonas y regiones
        6. Políticas de alta disponibilidad geográfica
      9. Almacenamiento de objetos, ejecución sin servidor, monitoreo gestionado
        1. Buckets de objetos y políticas de retención
        2. Funciones bajo demanda y cómputo sin servidor
        3. Límites de tiempo de ejecución y memoria por invocación
        4. Integración con colas y eventos
        5. Servicios gestionados de logging y métricas
        6. Persistencia eventual y consistencia leída-despues-de-escritura
      10. Gestión de configuración y secretos centralizados
        1. Variables de entorno y configuración externa
        2. Inyección dinámica de secretos en runtime
        3. Rotación de llaves y credenciales
        4. Control de acceso basado en roles
        5. Versionado de configuración y rollback
        6. Separación configuración por entorno y por región
      11. Monitoreo activo y alertas operacionales
        1. Probes sintéticos de disponibilidad
        2. Verificación de SLA y SLO
        3. Alertas por latencia y tasa de errores
        4. Alertas por backlog de colas y congestión
        5. Alertas de costos y sobregasto proyectado
        6. Rutas de escalamiento y on-call
      12. Optimización de costos y escalado automático
        1. Rightsizing de instancias y contenedores
        2. Uso de instancias reservadas y spot/preemptibles
        3. Escalado basado en métricas de negocio
        4. Programación horaria de apagado de recursos
        5. Compresión y ciclo de vida de almacenamiento
        6. Reducción de duplicación de datos y tráfico innecesario
    3. Observabilidad, logs y métricas

      1. Logging estructurado y contextualizado
        1. Campos clave/valor y trazabilidad por request
        2. Correlación con IDs de sesión, usuario y transacción
        3. Niveles de severidad y filtrado
        4. Retención, rotación y archivado de logs
        5. Mascaramiento de datos sensibles
        6. Búsqueda y agregación en grandes volúmenes
      2. Monitoreo del desempeño de las aplicaciones (APM)
        1. Métricas de latencia por endpoint
        2. Métricas de throughput y saturación
        3. Errores por tipo y frecuencia
        4. Seguimiento de dependencias externas
        5. Degradación progresiva bajo carga
        6. Detección temprana de regresiones de rendimiento
      3. Trazas distribuidas de extremo a extremo
        1. Propagación de contexto entre servicios
        2. Spans anidados y timeline de la request
        3. Identificación del servicio lento en la cadena
        4. Cuellos de botella inter-servicio
        5. Muestreo y retención de trazas
        6. Análisis de latencia percibida por el usuario final
      4. Métricas personalizadas y verificaciones de salud
        1. Métricas técnicas (cola, memoria, GC)
        2. Métricas funcionales (pedidos/minuto, pagos fallidos)
        3. Endpoints de healthcheck internos y públicos
        4. Señales de degradación temprana
        5. Alarmas por cambio relativo, no solo absoluto
        6. Métricas de disponibilidad percibida
      5. Alertas basadas en umbrales y tendencias
        1. Umbrales estáticos vs umbrales dinámicos
        2. Alertas por anomalías estadísticas
        3. Tendencias de crecimiento de error rate
        4. Alertas de saturación inminente
        5. Priorización y severidad de alertas
        6. Gestión de fatiga de alertas y ruido
      6. Auditoría y reconstrucción de incidentes
        1. Registro inmutable de acciones relevantes
        2. Línea de tiempo del incidente
        3. Evidencia para análisis post-mortem
        4. Identificación del punto de quiebre
        5. Acceso a datos históricos consistentes
        6. Mejora continua basada en lecciones aprendidas
    4. Resiliencia

      1. Tolerancia a fallos y aislamiento
        1. Aislamiento por servicio y dominio funcional
        2. Aislamiento de recursos críticos compartidos
        3. Redundancia activa y pasiva
        4. Degradación controlada de características no críticas
        5. Limitación del radio de explosión ante fallas
        6. Failover automatizado entre réplicas
      2. Control de latencia y tiempo de espera
        1. Timeouts por operación y por dependencia
        2. Presupuestos de latencia por request
        3. Cancelación proactiva de operaciones lentas
        4. Respuestas parciales bajo presión
        5. Fast-fail frente a recursos saturados
        6. Evitar bloqueo cascada por espera
      3. Reintentos seguros
        1. Idempotencia de operaciones
        2. Backoff exponencial y jitter aleatorio
        3. Detección de errores transitorios vs permanentes
        4. Evitar tormentas de reintentos coordinados
        5. Límite máximo de reintentos y corte temprano
        6. Registro de reintentos para auditoría
      4. Protección contra sobrecarga
        1. Circuit breakers y apertura de circuito
        2. Rechazo controlado de tráfico en picos
        3. Colas limitadas y shedding de carga
        4. Modos degradados de servicio
        5. Cuotas por cliente o tenant
        6. Protección contra picos maliciosos o anómalos
      5. Salud del servicio y autosanación
        1. Detección automática de instancias defectuosas
        2. Reinicio y reemplazo automático de réplicas
        3. Reconciliación con estado declarado
        4. Rotación de nodos no saludables
        5. Limpieza de recursos colgados o zombificados
        6. Autorrecuperación sin intervención humana
      6. Recuperación y continuidad
        1. Backups consistentes y verificados
        2. Restauración probada y documentada
        3. Planes de recuperación ante crisis
        4. Ingeniería del caos
Última modificación October 27, 2025: changes (85a7032)