32 lines
3.0 KiB
Markdown
32 lines
3.0 KiB
Markdown
# Стартовий контекст для нового чату (24.11.2025)
|
||
|
||
Цей документ можна копіювати як короткий промт при старті нового діалогу, щоб одразу мати актуальний стан мультимодальних агентів.
|
||
|
||
## 🔊 Голос (STT/TTS)
|
||
- STT сервіс `dagi-stt-service` перебудований з Whisper (`openai-whisper==20231117`, `torch==2.1.0`, `numpy<2`) та працює на `http://172.21.0.19:8895/api/stt/upload`.
|
||
- Тест через `curl -F file=@/tmp/test.wav` повертає 200 OK (pipeline робочий).
|
||
- Gateway (`telegram-gateway/app/router_handler.py`) надсилає голосові на `/api/stt/upload` з полем `file`.
|
||
- Наступний крок: протестувати живим голосовим у будь-якого Telegram-бота; TTS відповіді ще не вмикались.
|
||
|
||
## 📸 Фото (vision)
|
||
- `_handle_photo` тепер витягує `file_id` → `file_url` через Telegram Bot API та шле в Router.
|
||
- У Router додано профіль `specialist_vision_8b` (alias на `qwen3-vl:8b`) і в metadata gateway передає `provider: "llm_specialist_vision_8b"`.
|
||
- Потрібно проконтролювати, що Router повертає реальний опис (без fallback «не можу обробити») — залежить від доступності vision-моделі.
|
||
|
||
## 📡 Telegram Gateway
|
||
- Перезапущений останньою версією (усі 9 ботів у polling).
|
||
- Голосові/фото тепер проходять у NATS -> Router без 500 в gateway.
|
||
- Постійне попередження `nats: not a JetStream message` не критичне (acks викликаються на звичайних повідомленнях, можна відкласти фікс).
|
||
|
||
## ✅ Що вже зроблено
|
||
- STT контейнер перебудовано, health OK.
|
||
- `_handle_photo` переписано на робочий pipeline.
|
||
- Router залишився на Dev-конфізі, але має профіль `llm_specialist_vision_8b`.
|
||
|
||
## ⏭️ Що перевірити одразу після старту нового чату
|
||
1. Надіслати голосове в будь-якого бота, пересвідчитись що gateway → STT → Router повертає текст і TTS-відповідь (дивитись логи `telegram-gateway` та `dagi-stt-service`).
|
||
2. Надіслати фото — очікувати осмислену відповідь від `specialist_vision_8b`.
|
||
3. Якщо потрібен vision fallback, перевірити Swapper/vision-encoder сервіси.
|
||
|
||
> Якщо чат стартує з нуля, достатньо скопіювати цей блок у промт агента, щоб він миттєво зрозумів поточний стан системи.
|