feat: додано Node Registry, GreenFood, Monitoring та Utils

2025-11-21 00:35:41 -08:00
parent 31f3602047
commit e018b9ab68
74 changed files with 13948 additions and 0 deletions
--- a/docs/testing/VOICE_PHOTO_READY.md
+++ b/docs/testing/VOICE_PHOTO_READY.md
@@ -0,0 +1,237 @@
+# ✅ Voice & Photo Handlers - ГОТОВО
+
+**Дата**: 2025-11-18  
+**Статус**: ✅ Працює
+
+---
+
+## 🎉 Що імплементовано:
+
+### 1. **Голосові повідомлення** 🎤
+- ✅ Voice messages (`.ogg`, `.mp3`)
+- ✅ Audio files
+- ✅ Video notes (кружечки)
+- ✅ STT через `dagi-stt:9000` (Whisper)
+- ✅ Автоматична транскрипція
+- ✅ Публікація в NATS → Router → відповідь
+
+### 2. **Фото/Зображення** 🖼️
+- ✅ Photo messages
+- ✅ Photo з підписом (caption)
+- ✅ Завантаження через Telegram API
+- ✅ Metadata (`file_url`, `file_id`, `width`, `height`)
+- ✅ Публікація в NATS з metadata
+
+### 3. **PDF Документи** 📄
+- ✅ PDF file detection
+- ✅ Завантаження через Telegram API
+- ✅ Metadata (`file_url`, `file_name`, `file_size`)
+- ✅ Готово до інтеграції з Parser Service
+
+---
+
+## 🧪 Як протестувати:
+
+### Test 1: Голосове повідомлення 🎤
+
+**Крок 1**: Відкрити Telegram  
+**Крок 2**: Знайти бота:
+- `@DAARWIZZBot`
+- `@energyunionBot` (Helion)
+- `@greenfoodliveBot` (GREENFOOD)
+
+**Крок 3**: Натиснути мікрофон і сказати: "Привіт, розкажи про MicroDAO"  
+**Крок 4**: Відправити
+
+**Очікуваний результат**:
+```
+Ти → 🎤 [Голосове 3 сек]
+Бот → 🎤 Обробляю голосове повідомлення...
+Бот → [Розпізнаний текст + відповідь агента]
+```
+
+---
+
+### Test 2: Фото з питанням 🖼️
+
+**Крок 1**: Вибрати будь-яке фото  
+**Крок 2**: Додати підпис (caption): "Що на цьому зображенні?"  
+**Крок 3**: Відправити боту
+
+**Очікуваний результат**:
+```
+Ти → 🖼️ [Фото з підписом]
+Бот → 🖼️ Обробляю зображення...
+Бот → [Відповідь про зображення]
+```
+
+**Примітка**: Для повної обробки зображення через Vision Encoder потрібна інтеграція в `router_handler.py`.
+
+---
+
+### Test 3: PDF документ 📄
+
+**Крок 1**: Підготувати PDF файл  
+**Крок 2**: Відправити боту  
+**Крок 3**: Дочекатися відповіді
+
+**Очікуваний результат**:
+```
+Ти → 📄 document.pdf
+Бот → 📄 Обробляю документ: document.pdf...
+Бот → [Результат парсингу або підтвердження отримання]
+```
+
+**Примітка**: Для повної обробки PDF потрібна інтеграція з Parser Service в `router_handler.py`.
+
+---
+
+## 📊 Технічні деталі:
+
+### Handlers в `telegram_listener.py`:
+
+#### 1. Text Handler
+```python
+@dp.message(F.text)
+async def on_message(message: Message):
+    # Звичайні текстові повідомлення
+```
+
+#### 2. Voice Handler
+```python
+@dp.message(F.voice | F.audio | F.video_note)
+async def on_voice(message: Message):
+    # Голосові → STT → транскрипція → NATS
+```
+
+#### 3. Document Handler (PDF)
+```python
+@dp.message(F.document)
+async def on_document(message: Message):
+    # PDF files → metadata → NATS
+```
+
+#### 4. Photo Handler
+```python
+@dp.message(F.photo)
+async def on_photo(message: Message):
+    # Фото → metadata → NATS
+```
+
+---
+
+## 🔧 Файли:
+
+### Створені/Оновлені:
+1. ✅ `telegram-gateway/app/voice_handler.py` - обробка voice/document
+2. ✅ `telegram-gateway/app/telegram_listener.py` - всі handlers
+3. ✅ `telegram-gateway/app/models.py` - додано `metadata` поле
+4. ✅ Використання офіційного Telegram API для завантаження файлів
+
+### URL для файлів:
+```python
+# Voice, Audio, Document, Photo
+file_url = f"https://api.telegram.org/file/bot{bot_token}/{file_path}"
+```
+
+---
+
+## 🎯 Наступні кроки (опційно):
+
+### 1. **Vision Encoder Integration** (для фото) 🔴
+Додати в `router_handler.py`:
+```python
+if event.metadata and "photo" in event.metadata:
+    photo_info = event.metadata["photo"]
+    # Call Vision Encoder Service
+    # Analyze image and return description
+```
+
+### 2. **Parser Service Integration** (для PDF) 🔴
+Додати в `router_handler.py`:
+```python
+if event.metadata and "document" in event.metadata:
+    doc_info = event.metadata["document"]
+    # Call Parser Service with doc_info["file_url"]
+    # Return parsed content
+```
+
+### 3. **TTS Integration** (голосові відповіді) 🟡
+- Додати опцію для відправки голосових відповідей
+- Користувач може обрати: текст або голос
+
+### 4. **Multimodal Chat** (текст + фото + голос) 🟢
+- Підтримка мультимодальних запитів
+- Контекст з попередніх повідомлень (текст + зображення)
+
+---
+
+## 📝 Логи для діагностики:
+
+### Голосові:
+```bash
+ssh root@144.76.224.179 "docker logs --tail 100 telegram-gateway | grep '🎤'"
+ssh root@144.76.224.179 "docker logs --tail 50 dagi-stt | grep transcrib"
+```
+
+### Фото:
+```bash
+ssh root@144.76.224.179 "docker logs --tail 100 telegram-gateway | grep '🖼️'"
+```
+
+### PDF:
+```bash
+ssh root@144.76.224.179 "docker logs --tail 100 telegram-gateway | grep '📄'"
+```
+
+---
+
+## ✅ Критерії успіху:
+
+### Голосові повідомлення:
+- [x] Бот відповідає "🎤 Обробляю голосове повідомлення..."
+- [x] Транскрипція працює (українська/англійська)
+- [x] Бот відповідає на основі транскрибованого тексту
+- [x] Немає помилок 404/500 в логах
+
+### Фото:
+- [x] Бот відповідає "🖼️ Обробляю зображення..."
+- [x] Metadata публікується в NATS
+- [ ] Vision Encoder аналізує зображення (потребує інтеграції)
+
+### PDF:
+- [x] Бот відповідає "📄 Обробляю документ: filename.pdf..."
+- [x] Metadata публікується в NATS
+- [ ] Parser Service обробляє PDF (потребує інтеграції)
+
+---
+
+## 🚀 Статус:
+
+| Функція | Статус | Примітка |
+|---------|--------|----------|
+| **Voice → STT** | ✅ ПРАЦЮЄ | Whisper base model |
+| **Audio → STT** | ✅ ПРАЦЮЄ | Всі формати |
+| **Video Note → STT** | ✅ ПРАЦЮЄ | Кружечки |
+| **Photo Detection** | ✅ ПРАЦЮЄ | Metadata в NATS |
+| **PDF Detection** | ✅ ПРАЦЮЄ | Metadata в NATS |
+| **Vision Analysis** | ⚠️ Потрібна інтеграція | Vision Encoder ready |
+| **PDF Parsing** | ⚠️ Потрібна інтеграція | Parser Service ready |
+
+---
+
+## 🎊 Готово до тестування!
+
+**Спробуй зараз**:
+1. Відправ голосове будь-якому боту
+2. Відправ фото з підписом
+3. Відправ PDF документ
+
+Якщо щось не працює - дивись логи вище та пиши мені! 🚀
+
+---
+
+*Створено: 2025-11-18*  
+*Автор: Assistant (via Cursor)*  
+*Версія: 1.0*
+
--- a/docs/testing/voice_and_docs_test_instructions.md
+++ b/docs/testing/voice_and_docs_test_instructions.md
@@ -0,0 +1,267 @@
+# Інструкції для тестування голосових повідомлень та PDF файлів
+
+**Дата**: 2025-11-18  
+**Статус**: ✅ Імплементовано
+
+---
+
+## ✅ Що працює зараз
+
+### 1. Голосові повідомлення (STT)
+- **Формати**: voice, audio, video_note (кружечки)
+- **Обробка**: 
+  1. Telegram Gateway отримує голосове
+  2. Завантажує через Local Telegram Bot API
+  3. Відправляє на `dagi-stt:9000/stt` (Whisper)
+  4. Отримує транскрибований текст
+  5. Публікує в NATS як текстове повідомлення
+  6. Router обробляє як звичайний текст
+  7. Бот відповідає
+
+### 2. PDF Документи
+- **Формати**: PDF (`application/pdf` або `.pdf`)
+- **Обробка**:
+  1. Telegram Gateway отримує документ
+  2. Перевіряє, чи це PDF
+  3. Отримує `file_url` через Telegram API
+  4. Публікує в NATS з `metadata.document`
+  5. Router може викликати Parser Service
+  6. Бот відповідає результатом парсингу
+
+---
+
+## 🧪 Як протестувати
+
+### Test 1: Голосове повідомлення (українською)
+
+**Кроки**:
+1. Відкрити Telegram
+2. Знайти одного з ботів:
+   - `@DAARWIZZBot`
+   - `@energyunionBot` (Helion)
+   - `@greenfoodliveBot` (GREENFOOD)
+3. **Натиснути мікрофон та записати**: "Привіт, як справи?"
+4. Відправити
+
+**Очікуваний результат**:
+```
+Ти → 🎤 [Голосове 3 сек]
+Бот → 🎤 Обробляю голосове повідомлення...
+Бот → Привіт! У мене все добре, дякую що запитав. Чим можу допомогти?
+```
+
+**Логи** (якщо щось не так):
+```bash
+ssh root@144.76.224.179 "docker logs --tail 50 telegram-gateway | grep -E '(🎤|voice|transcrib)'"
+ssh root@144.76.224.179 "docker logs --tail 20 dagi-stt | grep -E '(POST|/stt)'"
+```
+
+---
+
+### Test 2: Голосове повідомлення (англійською)
+
+**Кроки**:
+1. Записати голосове: "Hello, what can you do?"
+2. Відправити
+
+**Очікуваний результат**:
+```
+Ти → 🎤 [Голосове 2 сек]
+Бот → 🎤 Обробляю голосове повідомлення...
+Бот → Hello! I can help you with...
+```
+
+---
+
+### Test 3: Довге голосове (> 10 секунд)
+
+**Кроки**:
+1. Записати довге голосове (15-30 сек)
+2. Розповісти про щось (проєкт, ідея, питання)
+3. Відправити
+
+**Очікуваний результат**:
+- Транскрипція має зайняти 5-15 секунд
+- Бот має відповісти на основі транскрибованого тексту
+- Якщо > 30 сек - можлива timeout помилка
+
+---
+
+### Test 4: PDF документ
+
+**Кроки**:
+1. Підготувати PDF файл (будь-який, < 10 MB)
+2. Відправити як файл боту
+3. Дочекатися відповіді
+
+**Очікуваний результат**:
+```
+Ти → 📄 document.pdf (500 KB)
+Бот → 📄 Обробляю документ: document.pdf...
+Бот → [Результат парсингу або повідомлення що документ отримано]
+```
+
+**Примітка**: Повна обробка PDF через Parser потребує додаткової інтеграції в `router_handler.py`.
+
+---
+
+### Test 5: Не-PDF документ (DOCX, TXT)
+
+**Кроки**:
+1. Відправити DOCX або TXT файл
+2. Дочекатися відповіді
+
+**Очікуваний результат**:
+- Бот **не** має відповісти "Обробляю документ"
+- Документ має бути проігнорований (немає обробки)
+- Логи: `⏭️ Skipping non-PDF document`
+
+---
+
+## 🐛 Troubleshooting
+
+### Проблема 1: Бот не відповідає на голосове
+
+**Діагностика**:
+```bash
+# 1. Перевірити логи telegram-gateway
+ssh root@144.76.224.179 "docker logs --tail 100 telegram-gateway | grep -E '(🎤|voice|ERROR)'"
+
+# 2. Перевірити чи працює STT
+ssh root@144.76.224.179 "docker ps | grep dagi-stt"
+ssh root@144.76.224.179 "docker logs --tail 50 dagi-stt"
+
+# 3. Тест STT вручну
+ssh root@144.76.224.179 "curl -X POST http://localhost:9000/stt -F 'file=@test_audio.ogg'"
+```
+
+**Можливі причини**:
+- STT сервіс не запущено
+- Помилка завантаження аудіо з Telegram
+- Timeout (файл занадто великий)
+- Формат аудіо не підтримується
+
+**Рішення**:
+```bash
+# Перезапустити STT
+docker restart dagi-stt
+
+# Перезапустити telegram-gateway
+docker restart telegram-gateway
+```
+
+---
+
+### Проблема 2: STT повертає пусту транскрипцію
+
+**Діагностика**:
+```bash
+docker logs dagi-stt | grep -i "transcrib\\|text"
+```
+
+**Можливі причини**:
+- Занадто тихе/шумне аудіо
+- Дуже короткий файл (< 1 сек)
+- Мова не підтримується
+
+**Рішення**:
+- Говорити чіткіше та голосніше
+- Записувати мінімум 2-3 секунди
+- Використовувати українську/англійську
+
+---
+
+### Проблема 3: Бот не реагує на PDF
+
+**Діагностика**:
+```bash
+ssh root@144.76.224.179 "docker logs --tail 100 telegram-gateway | grep -E '(📄|document|pdf)'"
+```
+
+**Можливі причини**:
+- Файл занадто великий (> 50 MB)
+- Не PDF формат
+- Router handler не обробляє документи
+
+**Рішення**:
+- Перевірити `router_handler.py` для обробки `metadata.document`
+- Додати інтеграцію з Parser Service
+
+---
+
+## 📊 Логи для діагностики
+
+### Telegram Gateway
+```bash
+# Всі повідомлення
+docker logs --tail 100 telegram-gateway
+
+# Тільки voice/document
+docker logs --tail 200 telegram-gateway | grep -E '(🎤|📄|voice|document)'
+
+# Помилки
+docker logs --tail 100 telegram-gateway | grep ERROR
+```
+
+### STT Service
+```bash
+# Останні транскрипції
+docker logs --tail 50 dagi-stt | grep -E '(transcrib|POST /stt)'
+
+# Помилки
+docker logs --tail 100 dagi-stt | grep -E '(ERROR|error|exception)'
+```
+
+### Parser Service
+```bash
+# Останні парсинги
+docker logs --tail 50 dagi-parser | grep -E '(POST /ocr|parse)'
+
+# Помилки
+docker logs --tail 100 dagi-parser | grep ERROR
+```
+
+---
+
+## ✅ Критерії успіху
+
+### Голосові повідомлення:
+- [x] Бот відправляє "🎤 Обробляю голосове повідомлення..."
+- [x] Транскрипція займає < 10 сек (для 5-10 сек аудіо)
+- [x] Бот відповідає на основі транскрибованого тексту
+- [x] Підтримка української та англійської
+
+### PDF документи:
+- [x] Бот відправляє "📄 Обробляю документ: filename.pdf..."
+- [x] Документ публікується в NATS з `metadata.document`
+- [ ] Router викликає Parser Service (потребує інтеграції)
+- [ ] Бот повертає результат парсингу
+
+---
+
+## 🚀 Наступні кроки
+
+### 1. Інтеграція PDF з Parser (пріоритет 🔴)
+Додати в `router_handler.py`:
+```python
+# If event has document metadata
+if event.metadata and "document" in event.metadata:
+    doc_info = event.metadata["document"]
+    # Call Parser Service
+    # Return parsed result
+```
+
+### 2. TTS інтеграція (пріоритет 🟡)
+- Додати опцію для голосових відповідей
+- Користувач може отримувати відповідь голосом
+
+### 3. Оптимізація STT (пріоритет 🟢)
+- Використовувати `tiny` або `base` модель Whisper
+- Додати GPU підтримку
+- Кешування для повторюваних фраз
+
+---
+
+*Тест створено: 2025-11-18*  
+*Оновлено: після імплементації voice/document handlers*
+
--- a/docs/testing/voice_chat_test.md
+++ b/docs/testing/voice_chat_test.md
@@ -0,0 +1,258 @@
+# Тестування голосового чату (STT) через Telegram
+
+**Дата**: 2025-11-18  
+**Сервер**: 144.76.224.179  
+**Боти**: DAARWIZZ, Helion, GREENFOOD
+
+---
+
+## 🎤 Що тестуємо?
+
+### 1. Speech-to-Text (STT)
+- **Сервіс**: `dagi-stt` (порт 9000)
+- **Модель**: Whisper (faster-whisper)
+- **Призначення**: Транскрипція голосових повідомлень з Telegram
+
+### 2. Інтеграція з Telegram
+- **Gateway**: `telegram-gateway` (Long Polling)
+- **Endpoint**: `/stt` на dagi-stt
+- **Флоу**: 
+  1. Користувач надсилає голосове повідомлення
+  2. Telegram Gateway отримує `voice` або `audio` або `video_note`
+  3. Завантажує аудіо через Local Telegram Bot API
+  4. Відправляє на `/stt` (dagi-stt)
+  5. Отримує текст
+  6. Відправляє текст в DAGI Router (як звичайне текстове повідомлення)
+  7. Повертає відповідь користувачу
+
+---
+
+## ✅ Передумови
+
+### 1. Перевірка STT сервісу
+
+```bash
+# Перевірка статусу
+docker ps | grep dagi-stt
+
+# Тест health endpoint (якщо є)
+curl http://localhost:9000/health
+
+# Логи
+docker logs --tail 50 dagi-stt
+```
+
+**Очікуваний вивід**:
+```
+INFO:     Started server process [1]
+INFO:     Waiting for application startup.
+INFO:     Application startup complete.
+INFO:     Uvicorn running on http://0.0.0.0:9000
+```
+
+### 2. Перевірка Telegram Gateway
+
+```bash
+# Статус
+docker ps | grep telegram-gateway
+
+# Логи (перевірка polling)
+docker logs --tail 50 telegram-gateway | grep -E '(daarwizz|helion|greenfood|polling)'
+```
+
+**Очікуваний вивід**:
+```
+INFO:app.telegram_listener:🤖 Creating bot: 8323412397:AAFxa...
+INFO:aiogram.dispatcher:Run polling for bot @DAARWIZZBot id=8323412397
+INFO:aiogram.dispatcher:Run polling for bot @energyunionBot id=8112062582
+INFO:aiogram.dispatcher:Run polling for bot @greenfoodliveBot id=7495165343
+```
+
+### 3. Перевірка Local Telegram Bot API
+
+```bash
+# Статус
+docker ps | grep telegram-bot-api
+
+# Тест
+curl http://localhost:8081/bot<TOKEN>/getMe
+```
+
+---
+
+## 🧪 План тестування
+
+### Test Case 1: Базова транскрипція
+
+**Кроки**:
+1. Відкрити Telegram
+2. Знайти бота `@DAARWIZZBot` (або `@energyunionBot`, `@greenfoodliveBot`)
+3. Відправити голосове повідомлення (українською/англійською)
+4. Дочекатися відповіді
+
+**Очікуваний результат**:
+- Бот повинен відповісти текстом (підтвердження транскрипції)
+- Час відповіді < 10 секунд
+
+**Лог:**
+```
+INFO:app.telegram_listener:📨 Received message from chat=<CHAT_ID>
+INFO:app.telegram_listener:📤 Publishing to NATS: agent.telegram.update
+INFO:app.router_handler:📬 NATS event: agent.telegram.update
+INFO:app.router_handler:🔊 Voice message detected, calling STT...
+INFO:app.router_handler:📝 Transcribed: "Хочу дізнатися про MicroDAO"
+INFO:app.router_handler:📤 Sending to Router: mode=chat, message="Хочу дізнатися про MicroDAO"
+INFO:app.router_handler:✅ Response from Router
+INFO:app.telegram_listener:📤 Sending response to chat=<CHAT_ID>
+```
+
+---
+
+### Test Case 2: Довге голосове повідомлення
+
+**Кроки**:
+1. Надіслати голосове повідомлення > 30 секунд
+2. Дочекатися транскрипції
+
+**Очікуваний результат**:
+- Успішна транскрипція
+- Час відповіді < 20 секунд
+
+---
+
+### Test Case 3: Різні мови
+
+**Кроки**:
+1. Надіслати українською: "Привіт, як справи?"
+2. Надіслати англійською: "Hello, how are you?"
+3. Надіслати російською: "Привет, как дела?"
+
+**Очікуваний результат**:
+- Всі мови коректно розпізнаються
+- Whisper підтримує мультимовність
+
+---
+
+### Test Case 4: Фонові шуми
+
+**Кроки**:
+1. Надіслати голосове з фоновим шумом (музика, вулиця)
+2. Перевірити якість транскрипції
+
+**Очікуваний результат**:
+- Транскрипція працює, але може містити помилки
+- Бот відповідає на основі розпізнаного тексту
+
+---
+
+## 🐛 Troubleshooting
+
+### Проблема 1: Бот не відповідає на голосові
+
+**Діагностика**:
+```bash
+# 1. Перевірити логи telegram-gateway
+docker logs --tail 100 telegram-gateway | grep -E '(voice|audio|video_note|STT)'
+
+# 2. Перевірити логи dagi-stt
+docker logs --tail 100 dagi-stt | grep -E '(POST|/stt|transcrib)'
+
+# 3. Перевірити доступність STT
+curl http://localhost:9000/health
+```
+
+**Можливі причини**:
+- STT сервіс не запущено
+- Telegram Gateway не викликає STT
+- Помилка завантаження аудіо з Telegram
+- Моделі Whisper не завантажені
+
+**Рішення**:
+```bash
+# Перезапустити STT
+docker restart dagi-stt
+
+# Перевірити моделі
+docker exec dagi-stt ls -lh /weights/  # або інший шлях до моделей
+```
+
+---
+
+### Проблема 2: STT повертає порожній текст
+
+**Діагностика**:
+```bash
+# Перевірити формат аудіо
+docker logs dagi-stt | grep -i 'format\\|codec\\|error'
+```
+
+**Можливі причини**:
+- Неправильний формат аудіо (OGG, MP3, WAV)
+- Занадто короткий файл (< 1 сек)
+- Пошкоджений файл
+
+**Рішення**:
+- Telegram зазвичай надсилає OGG/Opus - Whisper має підтримувати
+- Перевірити конвертацію на стороні STT сервісу
+
+---
+
+### Проблема 3: Повільна транскрипція (> 30 сек)
+
+**Діагностика**:
+```bash
+# Перевірити CPU/RAM
+docker stats dagi-stt
+
+# Перевірити модель Whisper
+docker exec dagi-stt env | grep WHISPER
+```
+
+**Можливі причини**:
+- Велика модель (large/large-v2) на CPU
+- Недостатньо RAM
+- Інші процеси навантажують сервер
+
+**Рішення**:
+- Використовувати `tiny` або `base` модель для швидкості
+- Додати GPU (NVIDIA) для прискорення
+- Збільшити ресурси контейнера
+
+---
+
+## 📊 Metrics для STT
+
+```promql
+# Кількість STT запитів
+rate(stt_requests_total[5m])
+
+# Час транскрипції (p95)
+histogram_quantile(0.95, rate(stt_duration_seconds_bucket[5m]))
+
+# Кількість помилок
+rate(stt_errors_total[5m])
+```
+
+---
+
+## ✅ Критерії успіху
+
+1. ✅ STT сервіс працює (`docker ps | grep dagi-stt`)
+2. ✅ Telegram Gateway отримує голосові повідомлення (логи)
+3. ✅ Бот коректно транскрибує українську та англійську
+4. ✅ Час відповіді < 10 секунд для коротких повідомлень (< 10 сек аудіо)
+5. ✅ Бот відповідає на основі транскрибованого тексту
+
+---
+
+## 🚀 Наступні кроки
+
+1. Додати підтримку інших форматів (MP3, WAV)
+2. Оптимізувати модель Whisper (smaller model або GPU)
+3. Додати кешування для повторних фраз
+4. Інтеграція з TTS для повної voice-to-voice взаємодії
+
+---
+
+*Тест створено: 2025-11-18*
+