- TTS: xtts-v2 integration with voice cloning support
- Document: docling integration for PDF/DOCX/PPTX processing
- Memory Service: added /facts/upsert, /facts/{key}, /facts endpoints
- Added required dependencies (TTS, docling)
2.9 KiB
2.9 KiB
📄 Налаштування Datalab Chandra для обробки документів та таблиць
Дата: 2026-01-12
✅ Це нормально!
Так, встановлення Datalab Chandra для обробки документів та таблиць — це відмінна ідея!
Chandra доповнить поточну обробку документів і надасть:
- Обробку складних таблиць
- Розпізнавання рукописного тексту
- Обробку форм
- Збереження макету документа (bounding boxes, метадані)
📋 Що таке Datalab Chandra
Datalab Chandra — OCR-модель для обробки:
- Складних таблиць (зберігає структуру)
- Форм та документів
- Рукописного тексту
- З виходом у форматах: Markdown, HTML, JSON з метаданими
🔧 Вимоги
Апаратні:
- ✅ НОДА1 має: NVIDIA RTX 4000 SFF Ada (20GB VRAM) — достатньо для Chandra
- GPU з CUDA підтримкою
Програмні:
- Docker та Docker Compose
- Ліцензія Datalab (для повної версії)
- Або використання open-source версії
📦 Варіанти встановлення
Варіант 1: Docker контейнер (рекомендовано)
- Використовувати офіційний inference контейнер Datalab
- Налаштувати через environment variables
- Інтегрувати з Swapper/Gateway
Варіант 2: HuggingFace модель
- Завантажити модель через HuggingFace
- Запустити локально
- Інтегрувати через API
🔗 Інтеграція з поточною системою
Поточна обробка документів:
gateway-bot/services/doc_service.py— обробка PDF, документів- Інтеграція з Memory Service для RAG
- Підтримка через Gateway (Telegram/Discord)
Додавання Chandra:
- Chandra буде обробляти складні таблиці та форми
- Результати будуть передаватися в doc_service
- Інтеграція з Memory Service для збереження
📝 План встановлення
- Отримати ліцензію (якщо потрібна повна версія)
- Завантажити Docker образ або модель
- Налаштувати контейнер на НОДА1
- Інтегрувати з Gateway/Swapper
- Протестувати обробку таблиць
Готовий почати встановлення!
Оновлено: 2026-01-12