# Runbook: Agent E2E Failure (E2E=0) ## Тригери - `AgentE2EFailure`: agent_e2e_success{target="gateway_health"} == 0 - `AgentPingFailure`: agent_e2e_success{target="agent_ping"} == 0 ## Швидка діагностика (5 команд) ```bash # 1. Prober status curl -sS http://localhost:9108/metrics | grep agent_e2e_success # 2. Gateway logs (останні помилки) docker logs dagi-gateway-node1 --tail 20 2>&1 | grep -iE "error|fail|timeout" # 3. Router health curl -sS http://localhost:9102/health # 4. NATS connectivity docker run --rm --network dagi-network natsio/nats-box nats -s nats://dagi-nats-node1:4222 server ping # 5. Memory-service health curl -sS http://localhost:8000/health ``` ## Детальна діагностика ### Якщо Gateway DOWN ```bash docker ps | grep gateway docker logs dagi-gateway-node1 --tail 50 docker restart dagi-gateway-node1 ``` ### Якщо Router не відповідає ```bash docker logs dagi-router-node1 --tail 50 # Перевірити Ollama curl -sS http://172.17.0.1:11434/api/tags | head ``` ### Якщо Memory-service DOWN ```bash docker logs dagi-memory-service-node1 --tail 50 # Перевірити Qdrant curl -sS http://localhost:6333/collections | head ``` ### Якщо NATS проблеми ```bash # JetStream status docker run --rm --network dagi-network natsio/nats-box nats -s nats://dagi-nats-node1:4222 stream ls docker run --rm --network dagi-network natsio/nats-box nats -s nats://dagi-nats-node1:4222 consumer info ARTIFACT_JOBS render_pdf_worker ``` ## Ескалація 1. Перезапуск сервісу не допоміг → перевірити ресурси (`docker stats`) 2. OOM kills → `dmesg | grep -i oom` 3. Disk full → `df -h` ## Контакти - Slack: #daarion-alerts - On-call: check PagerDuty