3.0 KiB
3.0 KiB
Стартовий контекст для нового чату (24.11.2025)
Цей документ можна копіювати як короткий промт при старті нового діалогу, щоб одразу мати актуальний стан мультимодальних агентів.
🔊 Голос (STT/TTS)
- STT сервіс
dagi-stt-serviceперебудований з Whisper (openai-whisper==20231117,torch==2.1.0,numpy<2) та працює наhttp://172.21.0.19:8895/api/stt/upload. - Тест через
curl -F file=@/tmp/test.wavповертає 200 OK (pipeline робочий). - Gateway (
telegram-gateway/app/router_handler.py) надсилає голосові на/api/stt/uploadз полемfile. - Наступний крок: протестувати живим голосовим у будь-якого Telegram-бота; TTS відповіді ще не вмикались.
📸 Фото (vision)
_handle_photoтепер витягуєfile_id→file_urlчерез Telegram Bot API та шле в Router.- У Router додано профіль
specialist_vision_8b(alias наqwen3-vl:8b) і в metadata gateway передаєprovider: "llm_specialist_vision_8b". - Потрібно проконтролювати, що Router повертає реальний опис (без fallback «не можу обробити») — залежить від доступності vision-моделі.
📡 Telegram Gateway
- Перезапущений останньою версією (усі 9 ботів у polling).
- Голосові/фото тепер проходять у NATS -> Router без 500 в gateway.
- Постійне попередження
nats: not a JetStream messageне критичне (acks викликаються на звичайних повідомленнях, можна відкласти фікс).
✅ Що вже зроблено
- STT контейнер перебудовано, health OK.
_handle_photoпереписано на робочий pipeline.- Router залишився на Dev-конфізі, але має профіль
llm_specialist_vision_8b.
⏭️ Що перевірити одразу після старту нового чату
- Надіслати голосове в будь-якого бота, пересвідчитись що gateway → STT → Router повертає текст і TTS-відповідь (дивитись логи
telegram-gatewayтаdagi-stt-service). - Надіслати фото — очікувати осмислену відповідь від
specialist_vision_8b. - Якщо потрібен vision fallback, перевірити Swapper/vision-encoder сервіси.
Якщо чат стартує з нуля, достатньо скопіювати цей блок у промт агента, щоб він миттєво зрозумів поточний стан системи.