feat: implement TTS, Document processing, and Memory Service /facts API

- TTS: xtts-v2 integration with voice cloning support
- Document: docling integration for PDF/DOCX/PPTX processing
- Memory Service: added /facts/upsert, /facts/{key}, /facts endpoints
- Added required dependencies (TTS, docling)
This commit is contained in:
Apple
2026-01-17 08:16:37 -08:00
parent a9fcadc6e2
commit 5290287058
121 changed files with 17071 additions and 436 deletions

View File

@@ -0,0 +1,94 @@
# 📄 Встановлення Datalab Chandra на НОДА1
**Дата:** 2026-01-12
---
## ✅ Це нормально!
**Так, встановлення Datalab Chandra — відмінна ідея!**
Chandra доповнить поточну обробку документів (`doc_service.py`) і надасть:
- ✅ Обробку складних таблиць (зберігає структуру)
- ✅ Розпізнавання рукописного тексту
- ✅ Обробку форм та документів
- ✅ Збереження макету документа (bounding boxes, метадані)
- ✅ Вихід у форматах: Markdown, HTML, JSON
---
## 📊 Поточна ситуація
### НОДА1:
-**GPU:** NVIDIA RTX 4000 SFF Ada (20GB VRAM) — достатньо для Chandra Small
-**Обробка документів:** `gateway-bot/services/doc_service.py`
-**Інтеграція:** Router → Parser Agent → Memory Service
### Що додасть Chandra:
- Покращена обробка таблиць
- Розпізнавання рукопису
- Обробка складних форм
- Детальні метадані документа
---
## 🔧 Варіанти встановлення
### Варіант 1: Docker контейнер (рекомендовано)
- Використовувати офіційний inference контейнер Datalab
- Інтегрувати через HTTP API
- Налаштувати в `docker-compose.node1.yml`
### Варіант 2: HuggingFace модель
- Завантажити модель через HuggingFace
- Запустити локально через Python
- Інтегрувати через API wrapper
---
## 📝 План встановлення
1. **Отримати ліцензію** (якщо потрібна повна версія)
- Або використати open-source версію
- Або `chandra-small` (менше вимог до VRAM)
2. **Завантажити Docker образ**
- Використати офіційний образ Datalab
- Або створити власний з HuggingFace моделлю
3. **Налаштувати контейнер на НОДА1**
- Додати в `docker-compose.node1.yml`
- Налаштувати GPU доступ
- Налаштувати порт та мережу
4. **Інтегрувати з doc_service**
- Додати метод для виклику Chandra API
- Обробка результатів (Markdown/HTML/JSON)
- Передача в Router/Memory Service
5. **Протестувати**
- Обробка таблиць
- Обробка форм
- Розпізнавання рукопису
---
## 🎯 Інтеграція з поточною системою
### Поточна обробка:
```
Gateway → doc_service.parse_document() → Router → Parser Agent → Memory Service
```
### З Chandra:
```
Gateway → doc_service.parse_document() → Chandra API → Обробка результатів → Router → Memory Service
```
---
**Готовий почати встановлення!**
---
**Оновлено:** 2026-01-12