feat: implement TTS, Document processing, and Memory Service /facts API
- TTS: xtts-v2 integration with voice cloning support
- Document: docling integration for PDF/DOCX/PPTX processing
- Memory Service: added /facts/upsert, /facts/{key}, /facts endpoints
- Added required dependencies (TTS, docling)
This commit is contained in:
94
DATALAB-CHANDRA-INSTALLATION.md
Normal file
94
DATALAB-CHANDRA-INSTALLATION.md
Normal file
@@ -0,0 +1,94 @@
|
||||
# 📄 Встановлення Datalab Chandra на НОДА1
|
||||
|
||||
**Дата:** 2026-01-12
|
||||
|
||||
---
|
||||
|
||||
## ✅ Це нормально!
|
||||
|
||||
**Так, встановлення Datalab Chandra — відмінна ідея!**
|
||||
|
||||
Chandra доповнить поточну обробку документів (`doc_service.py`) і надасть:
|
||||
- ✅ Обробку складних таблиць (зберігає структуру)
|
||||
- ✅ Розпізнавання рукописного тексту
|
||||
- ✅ Обробку форм та документів
|
||||
- ✅ Збереження макету документа (bounding boxes, метадані)
|
||||
- ✅ Вихід у форматах: Markdown, HTML, JSON
|
||||
|
||||
---
|
||||
|
||||
## 📊 Поточна ситуація
|
||||
|
||||
### НОДА1:
|
||||
- ✅ **GPU:** NVIDIA RTX 4000 SFF Ada (20GB VRAM) — достатньо для Chandra Small
|
||||
- ✅ **Обробка документів:** `gateway-bot/services/doc_service.py`
|
||||
- ✅ **Інтеграція:** Router → Parser Agent → Memory Service
|
||||
|
||||
### Що додасть Chandra:
|
||||
- Покращена обробка таблиць
|
||||
- Розпізнавання рукопису
|
||||
- Обробка складних форм
|
||||
- Детальні метадані документа
|
||||
|
||||
---
|
||||
|
||||
## 🔧 Варіанти встановлення
|
||||
|
||||
### Варіант 1: Docker контейнер (рекомендовано)
|
||||
- Використовувати офіційний inference контейнер Datalab
|
||||
- Інтегрувати через HTTP API
|
||||
- Налаштувати в `docker-compose.node1.yml`
|
||||
|
||||
### Варіант 2: HuggingFace модель
|
||||
- Завантажити модель через HuggingFace
|
||||
- Запустити локально через Python
|
||||
- Інтегрувати через API wrapper
|
||||
|
||||
---
|
||||
|
||||
## 📝 План встановлення
|
||||
|
||||
1. **Отримати ліцензію** (якщо потрібна повна версія)
|
||||
- Або використати open-source версію
|
||||
- Або `chandra-small` (менше вимог до VRAM)
|
||||
|
||||
2. **Завантажити Docker образ**
|
||||
- Використати офіційний образ Datalab
|
||||
- Або створити власний з HuggingFace моделлю
|
||||
|
||||
3. **Налаштувати контейнер на НОДА1**
|
||||
- Додати в `docker-compose.node1.yml`
|
||||
- Налаштувати GPU доступ
|
||||
- Налаштувати порт та мережу
|
||||
|
||||
4. **Інтегрувати з doc_service**
|
||||
- Додати метод для виклику Chandra API
|
||||
- Обробка результатів (Markdown/HTML/JSON)
|
||||
- Передача в Router/Memory Service
|
||||
|
||||
5. **Протестувати**
|
||||
- Обробка таблиць
|
||||
- Обробка форм
|
||||
- Розпізнавання рукопису
|
||||
|
||||
---
|
||||
|
||||
## 🎯 Інтеграція з поточною системою
|
||||
|
||||
### Поточна обробка:
|
||||
```
|
||||
Gateway → doc_service.parse_document() → Router → Parser Agent → Memory Service
|
||||
```
|
||||
|
||||
### З Chandra:
|
||||
```
|
||||
Gateway → doc_service.parse_document() → Chandra API → Обробка результатів → Router → Memory Service
|
||||
```
|
||||
|
||||
---
|
||||
|
||||
**Готовий почати встановлення!**
|
||||
|
||||
---
|
||||
|
||||
**Оновлено:** 2026-01-12
|
||||
Reference in New Issue
Block a user