- TTS: xtts-v2 integration with voice cloning support
- Document: docling integration for PDF/DOCX/PPTX processing
- Memory Service: added /facts/upsert, /facts/{key}, /facts endpoints
- Added required dependencies (TTS, docling)
85 lines
2.9 KiB
Markdown
85 lines
2.9 KiB
Markdown
# 📄 Налаштування Datalab Chandra для обробки документів та таблиць
|
||
|
||
**Дата:** 2026-01-12
|
||
|
||
---
|
||
|
||
## ✅ Це нормально!
|
||
|
||
**Так, встановлення Datalab Chandra для обробки документів та таблиць — це відмінна ідея!**
|
||
|
||
Chandra доповнить поточну обробку документів і надасть:
|
||
- Обробку складних таблиць
|
||
- Розпізнавання рукописного тексту
|
||
- Обробку форм
|
||
- Збереження макету документа (bounding boxes, метадані)
|
||
|
||
---
|
||
|
||
## 📋 Що таке Datalab Chandra
|
||
|
||
**Datalab Chandra** — OCR-модель для обробки:
|
||
- Складних таблиць (зберігає структуру)
|
||
- Форм та документів
|
||
- Рукописного тексту
|
||
- З виходом у форматах: Markdown, HTML, JSON з метаданими
|
||
|
||
---
|
||
|
||
## 🔧 Вимоги
|
||
|
||
### Апаратні:
|
||
- ✅ **НОДА1 має:** NVIDIA RTX 4000 SFF Ada (20GB VRAM) — достатньо для Chandra
|
||
- GPU з CUDA підтримкою
|
||
|
||
### Програмні:
|
||
- Docker та Docker Compose
|
||
- Ліцензія Datalab (для повної версії)
|
||
- Або використання open-source версії
|
||
|
||
---
|
||
|
||
## 📦 Варіанти встановлення
|
||
|
||
### Варіант 1: Docker контейнер (рекомендовано)
|
||
- Використовувати офіційний inference контейнер Datalab
|
||
- Налаштувати через environment variables
|
||
- Інтегрувати з Swapper/Gateway
|
||
|
||
### Варіант 2: HuggingFace модель
|
||
- Завантажити модель через HuggingFace
|
||
- Запустити локально
|
||
- Інтегрувати через API
|
||
|
||
---
|
||
|
||
## 🔗 Інтеграція з поточною системою
|
||
|
||
### Поточна обробка документів:
|
||
- `gateway-bot/services/doc_service.py` — обробка PDF, документів
|
||
- Інтеграція з Memory Service для RAG
|
||
- Підтримка через Gateway (Telegram/Discord)
|
||
|
||
### Додавання Chandra:
|
||
- Chandra буде обробляти складні таблиці та форми
|
||
- Результати будуть передаватися в doc_service
|
||
- Інтеграція з Memory Service для збереження
|
||
|
||
---
|
||
|
||
## 📝 План встановлення
|
||
|
||
1. **Отримати ліцензію** (якщо потрібна повна версія)
|
||
2. **Завантажити Docker образ** або модель
|
||
3. **Налаштувати контейнер** на НОДА1
|
||
4. **Інтегрувати з Gateway/Swapper**
|
||
5. **Протестувати обробку таблиць**
|
||
|
||
---
|
||
|
||
**Готовий почати встановлення!**
|
||
|
||
---
|
||
|
||
**Оновлено:** 2026-01-12
|