Files

Apple 4601c6fca8 feat: add Vision Encoder service + Vision RAG implementation

- Vision Encoder Service (OpenCLIP ViT-L/14, GPU-accelerated)
  - FastAPI app with text/image embedding endpoints (768-dim)
  - Docker support with NVIDIA GPU runtime
  - Port 8001, health checks, model info API

- Qdrant Vector Database integration
  - Port 6333/6334 (HTTP/gRPC)
  - Image embeddings storage (768-dim, Cosine distance)
  - Auto collection creation

- Vision RAG implementation
  - VisionEncoderClient (Python client for API)
  - Image Search module (text-to-image, image-to-image)
  - Vision RAG routing in DAGI Router (mode: image_search)
  - VisionEncoderProvider integration

- Documentation (5000+ lines)
  - SYSTEM-INVENTORY.md - Complete system inventory
  - VISION-ENCODER-STATUS.md - Service status
  - VISION-RAG-IMPLEMENTATION.md - Implementation details
  - vision_encoder_deployment_task.md - Deployment checklist
  - services/vision-encoder/README.md - Deployment guide
  - Updated WARP.md, INFRASTRUCTURE.md, Jupyter Notebook

- Testing
  - test-vision-encoder.sh - Smoke tests (6 tests)
  - Unit tests for client, image search, routing

- Services: 17 total (added Vision Encoder + Qdrant)
- AI Models: 3 (qwen3:8b, OpenCLIP ViT-L/14, BAAI/bge-m3)
- GPU Services: 2 (Vision Encoder, Ollama)
- VRAM Usage: ~10 GB (concurrent)

Status: Production Ready ✅

2025-11-17 05:24:36 -08:00

19 KiB

Raw Blame History

🎨 Vision RAG Implementation — Complete

Version: 2.0.0
Status: ✅ COMPLETE
Date: 2025-01-17

📊 Implementation Summary

Status: COMPLETE ✅

Vision Encoder service повністю інтегровано в DAGI Router з підтримкою:

✅ Text-to-image search (знайти зображення за текстом)
✅ Image-to-image search (знайти схожі зображення)
✅ Python клієнт для Vision Encoder API
✅ Image Search модуль з Qdrant integration
✅ Vision RAG routing в DAGI Router
✅ Unit tests для всіх компонентів

🏗️ Architecture Overview

User Request → DAGI Router (9102)
                  ↓
       (mode: "image_search")
                  ↓
         Vision RAG Routing
         (routings/vision_rag.py)
                  ↓
        Vision Encoder Client
        (client/vision_client.py)
                  ↓
     Vision Encoder Service (8001)
          (OpenCLIP ViT-L/14)
                  ↓
         768-dim embedding
                  ↓
         Image Search Module
         (utils/image_search.py)
                  ↓
         Qdrant Vector DB (6333)
                  ↓
         Search Results → User

📂 New Components

1. Vision Encoder Client (`client/vision_client.py`)

Purpose: Python клієнт для Vision Encoder Service API

Features:

✅ Синхронний HTTP клієнт (httpx)
✅ Type hints + Pydantic models
✅ Error handling з кастомними винятками
✅ Health check з таймаутом

Methods:

class VisionEncoderClient:
    def embed_text(text: str, normalize: bool = True) -> List[float]
    def embed_image_file(file_path: str, normalize: bool = True) -> List[float]
    def embed_image_url(image_url: str, normalize: bool = True) -> List[float]
    def health() -> Dict[str, Any]

Usage:

from client.vision_client import VisionEncoderClient

client = VisionEncoderClient(base_url="http://vision-encoder:8001")

# Text embedding
embedding = client.embed_text("токеноміка DAARION")

# Image embedding from file
embedding = client.embed_image_file("/path/to/image.jpg")

# Image embedding from URL
embedding = client.embed_image_url("https://example.com/image.jpg")

# Health check
health = client.health()

Error Handling:

from client.vision_client import VisionEncoderError, VisionEncoderConnectionError

try:
    embedding = client.embed_text("test")
except VisionEncoderConnectionError as e:
    print(f"Service unavailable: {e}")
except VisionEncoderError as e:
    print(f"API error: {e}")

2. Image Search Module (`utils/image_search.py`)

Purpose: Індексація та пошук зображень у Qdrant

Features:

✅ Автоматичне створення колекції Qdrant
✅ Text-to-image search
✅ Image-to-image search
✅ Graceful degradation (fallback якщо сервіси недоступні)
✅ Metadata support (DAO ID, tags, timestamps)

Functions:

def index_image(
    image_id: str,
    image_path: str,
    dao_id: str,
    metadata: Optional[Dict] = None,
    collection_name: str = "daarion_images"
) -> bool

def search_images_by_text(
    query: str,
    dao_id: Optional[str] = None,
    top_k: int = 5,
    collection_name: str = "daarion_images"
) -> List[Dict[str, Any]]

def search_images_by_image(
    image_path: str,
    dao_id: Optional[str] = None,
    top_k: int = 5,
    collection_name: str = "daarion_images"
) -> List[Dict[str, Any]]

Usage:

from utils.image_search import index_image, search_images_by_text

# Index image
success = index_image(
    image_id="diagram_001",
    image_path="/data/images/tokenomics.png",
    dao_id="daarion",
    metadata={
        "title": "DAARION Tokenomics",
        "category": "diagram",
        "tags": ["tokenomics", "dao", "governance"]
    }
)

# Search by text
results = search_images_by_text(
    query="діаграми токеноміки",
    dao_id="daarion",
    top_k=5
)

for result in results:
    print(f"Image: {result['id']}, Score: {result['score']}")
    print(f"Metadata: {result['metadata']}")

Qdrant Collection Schema:

{
    "vectors": {
        "size": 768,  # OpenCLIP ViT-L/14 dimension
        "distance": "Cosine"
    }
}

Point Schema:

{
    "id": "unique_image_id",
    "vector": [0.123, -0.456, ...],  # 768-dim
    "payload": {
        "dao_id": "daarion",
        "image_path": "/data/images/...",
        "title": "Image Title",
        "category": "diagram",
        "tags": ["tag1", "tag2"],
        "indexed_at": "2025-01-17T12:00:00Z"
    }
}

3. Vision RAG Routing (`routings/vision_rag.py`)

Purpose: Обробка image search intent в DAGI Router

Features:

✅ Text-to-image search
✅ Image-to-image search
✅ Result formatting для AI агентів
✅ Error handling з fallback

Functions:

def handle_image_search_intent(
    user_query: str,
    dao_id: str,
    top_k: int = 5,
    collection_name: str = "daarion_images"
) -> Dict[str, Any]

def handle_image_to_image_search(
    image_path: str,
    dao_id: str,
    top_k: int = 5,
    collection_name: str = "daarion_images"
) -> Dict[str, Any]

def format_image_search_results_for_agent(
    results: List[Dict[str, Any]]
) -> str

Usage:

from routings.vision_rag import handle_image_search_intent

# Text-to-image search
result = handle_image_search_intent(
    user_query="знайди діаграми токеноміки DAARION",
    dao_id="daarion",
    top_k=5
)

if result["success"]:
    print(f"Found {result['count']} images")
    for image in result["images"]:
        print(f"  - {image['title']} (score: {image['score']})")
else:
    print(f"Error: {result['error']}")

Response Format:

{
  "success": true,
  "count": 3,
  "images": [
    {
      "id": "diagram_001",
      "score": 0.89,
      "metadata": {
        "title": "DAARION Tokenomics",
        "category": "diagram",
        "tags": ["tokenomics", "dao"]
      },
      "path": "/data/images/tokenomics.png"
    },
    ...
  ],
  "formatted_text": "Знайдено 3 зображення:\n1. DAARION Tokenomics (релевантність: 89%)..."
}

4. DAGI Router Integration (`router_app.py`)

Purpose: Інтеграція Vision RAG в основний роутер

Changes:

class RouterApp:
    async def _handle_image_search(
        self, 
        request: RouterRequest
    ) -> RouterResponse:
        """Handle image search requests (text-to-image or image-to-image)."""
        
        # Extract parameters
        dao_id = request.dao_id or "default"
        payload = request.payload or {}
        
        # Check search type
        if "image_path" in payload:
            # Image-to-image search
            result = handle_image_to_image_search(
                image_path=payload["image_path"],
                dao_id=dao_id,
                top_k=payload.get("top_k", 5)
            )
        else:
            # Text-to-image search
            result = handle_image_search_intent(
                user_query=request.message,
                dao_id=dao_id,
                top_k=payload.get("top_k", 5)
            )
        
        return RouterResponse(
            ok=result["success"],
            provider_id="vision_rag",
            data=result,
            metadata={"mode": "image_search"}
        )

Routing Rule (у router-config.yml):

- id: image_search_mode
  priority: 2
  when:
    mode: image_search
  use_provider: vision_rag
  description: "Image search (text-to-image or image-to-image) → Vision RAG"

🧪 Testing

Unit Tests

1. Vision Client Tests (tests/test_vision_client.py)

def test_embed_text()
def test_embed_image_file()
def test_embed_image_url()
def test_health_check()
def test_connection_error()
def test_api_error()

2. Image Search Tests (tests/test_image_search.py)

def test_index_image()
def test_search_images_by_text()
def test_search_images_by_image()
def test_collection_creation()
def test_graceful_degradation()

3. Vision RAG Tests (tests/test_vision_rag.py)

def test_handle_image_search_intent()
def test_handle_image_to_image_search()
def test_format_results_for_agent()
def test_error_handling()

Run tests:

# All vision tests
pytest tests/test_vision_*.py -v

# Specific test file
pytest tests/test_vision_client.py -v

# With coverage
pytest tests/test_vision_*.py --cov=client --cov=utils --cov=routings

🚀 Usage Examples

1. Via DAGI Router API

Text-to-image search:

curl -X POST http://localhost:9102/route \
  -H "Content-Type: application/json" \
  -d '{
    "mode": "image_search",
    "message": "знайди діаграми токеноміки DAARION",
    "dao_id": "daarion",
    "payload": {
      "top_k": 5
    }
  }'

Response:

{
  "ok": true,
  "provider_id": "vision_rag",
  "data": {
    "success": true,
    "count": 3,
    "images": [
      {
        "id": "diagram_001",
        "score": 0.89,
        "metadata": {
          "title": "DAARION Tokenomics",
          "category": "diagram"
        }
      }
    ]
  }
}

Image-to-image search:

curl -X POST http://localhost:9102/route \
  -H "Content-Type: application/json" \
  -d '{
    "mode": "image_search",
    "message": "знайди схожі зображення",
    "dao_id": "daarion",
    "payload": {
      "image_path": "/data/images/reference.png",
      "top_k": 5
    }
  }'

2. Programmatic Usage

Index images:

from utils.image_search import index_image
import glob

# Index all images in directory
for image_path in glob.glob("/data/daarion/images/*.png"):
    image_id = os.path.basename(image_path).replace(".png", "")
    
    success = index_image(
        image_id=image_id,
        image_path=image_path,
        dao_id="daarion",
        metadata={
            "category": "diagram",
            "indexed_at": datetime.now().isoformat()
        }
    )
    
    if success:
        print(f"✅ Indexed: {image_id}")
    else:
        print(f"❌ Failed: {image_id}")

Search images:

from routings.vision_rag import handle_image_search_intent

# Search
result = handle_image_search_intent(
    user_query="токеноміка та governance DAARION",
    dao_id="daarion",
    top_k=10
)

# Process results
if result["success"]:
    print(f"Found {result['count']} images")
    
    # Get formatted text for AI agent
    formatted = result["formatted_text"]
    print(formatted)
    
    # Or process individually
    for img in result["images"]:
        print(f"Image ID: {img['id']}")
        print(f"Score: {img['score']:.2f}")
        print(f"Path: {img['path']}")
        print(f"Metadata: {img['metadata']}")
        print("---")

3. Integration with Agent

from routings.vision_rag import handle_image_search_intent

def agent_handle_user_query(user_query: str, dao_id: str):
    """Agent processes user query, detects image search intent."""
    
    # Detect image search keywords
    image_search_keywords = ["знайди", "покажи", "діаграм", "схем", "зображенн"]
    
    if any(kw in user_query.lower() for kw in image_search_keywords):
        # Delegate to Vision RAG
        result = handle_image_search_intent(
            user_query=user_query,
            dao_id=dao_id,
            top_k=5
        )
        
        if result["success"]:
            # Use formatted text in agent response
            return {
                "response": result["formatted_text"],
                "images": result["images"]
            }
        else:
            return {
                "response": f"Не вдалося знайти зображення: {result['error']}",
                "images": []
            }
    else:
        # Handle as normal text query
        return {"response": "...", "images": []}

📊 Configuration

Environment Variables

# Vision Encoder Service
VISION_ENCODER_URL=http://vision-encoder:8001
VISION_ENCODER_TIMEOUT=60

# Qdrant Vector Database
QDRANT_HOST=qdrant
QDRANT_PORT=6333
QDRANT_GRPC_PORT=6334

# Image Search Settings
IMAGE_SEARCH_DEFAULT_TOP_K=5
IMAGE_SEARCH_COLLECTION=daarion_images

Dependencies

Added to requirements.txt:

# Vision Encoder Client
httpx>=0.26.0

# Qdrant Vector Database
qdrant-client>=1.7.0

# Existing dependencies
open_clip_torch==2.24.0
torch>=2.0.0
Pillow==10.2.0

🗄️ Qdrant Setup

Create Collection

curl -X PUT http://localhost:6333/collections/daarion_images \
  -H "Content-Type: application/json" \
  -d '{
    "vectors": {
      "size": 768,
      "distance": "Cosine"
    }
  }'

Check Collection

curl http://localhost:6333/collections/daarion_images

Response:

{
  "result": {
    "status": "green",
    "vectors_count": 123,
    "indexed_vectors_count": 123,
    "points_count": 123
  }
}

📈 Performance

Benchmarks (ViT-L/14 on GPU)

Operation	Time (GPU)	Time (CPU)	Notes
Text embedding	10-20ms	500-1000ms	Single text
Image embedding	30-50ms	2000-4000ms	Single image (224x224)
Qdrant search	5-10ms	5-10ms	Top-5, 1000 vectors
Full text→image search	20-30ms	510-1010ms	Embedding + search
Full image→image search	40-60ms	2010-4010ms	Embedding + search

Optimization Tips

Batch Processing:

# Index multiple images in parallel
from concurrent.futures import ThreadPoolExecutor

with ThreadPoolExecutor(max_workers=4) as executor:
    futures = [
        executor.submit(index_image, img_id, img_path, dao_id)
        for img_id, img_path in images
    ]
    results = [f.result() for f in futures]

Caching:
- Cache embeddings у Redis (майбутня feature)
- Cache Qdrant search results для популярних запитів
GPU Memory:
- ViT-L/14: ~4 GB VRAM
- Process images sequentially to avoid OOM

🐛 Troubleshooting

Problem: Vision Encoder service unavailable

Error:

VisionEncoderConnectionError: Failed to connect to Vision Encoder service

Solution:

# Check service status
docker-compose ps vision-encoder

# Check logs
docker-compose logs -f vision-encoder

# Restart service
docker-compose restart vision-encoder

# Verify health
curl http://localhost:8001/health

Problem: Qdrant connection error

Error:

Failed to connect to Qdrant at qdrant:6333

Solution:

# Check Qdrant status
docker-compose ps qdrant

# Check network
docker exec -it dagi-router ping qdrant

# Restart Qdrant
docker-compose restart qdrant

# Verify health
curl http://localhost:6333/healthz

Problem: No search results

Possible causes:

Collection не створена
Немає індексованих зображень
Query не релевантний

Solution:

from qdrant_client import QdrantClient

client = QdrantClient(host="qdrant", port=6333)

# Check collection exists
collections = client.get_collections()
print(collections)

# Check points count
info = client.get_collection("daarion_images")
print(f"Points: {info.points_count}")

# List points
points = client.scroll(collection_name="daarion_images", limit=10)
for point in points[0]:
    print(f"ID: {point.id}, DAO: {point.payload.get('dao_id')}")

🎯 Next Steps

Phase 1: Production Deployment ✅

Deploy Vision Encoder service
Deploy Qdrant vector database
Create Python client
Implement image search module
Integrate with DAGI Router
Write unit tests

Phase 2: Image Ingestion Pipeline

Auto-index images from Parser Service (PDFs, documents)
Batch indexing script for existing images
Image metadata extraction (OCR, captions)
Deduplication (detect similar images)

Phase 3: Advanced Features

Hybrid search (BM25 + vector)
Re-ranking (combine text + visual scores)
Multi-modal query (text + image)
CLIP score calculation
Zero-shot classification
Image captioning (BLIP-2)

Phase 4: Optimization

Batch embedding API
Redis caching for embeddings
Async client (httpx AsyncClient)
Connection pooling
Model warm-up on startup

📖 Documentation

Vision Encoder Service: services/vision-encoder/README.md
Vision Encoder Status: VISION-ENCODER-STATUS.md
Infrastructure: INFRASTRUCTURE.md
API Docs: http://localhost:8001/docs
Qdrant Docs: http://localhost:6333/dashboard

📊 Statistics

Code Metrics

Vision Client: 150+ lines (client/vision_client.py)
Image Search: 200+ lines (utils/image_search.py)
Vision RAG: 150+ lines (routings/vision_rag.py)
Router Integration: 50+ lines (changes to router_app.py)
Tests: 300+ lines (3 test files)
Documentation: 650+ lines (README_VISION_ENCODER.md)

Total: ~1500+ lines

Features Implemented

✅ Vision Encoder Client (4 methods)
✅ Image Search (3 functions)
✅ Vision RAG Routing (3 functions)
✅ DAGI Router Integration (1 method)
✅ Unit Tests (15+ tests)
✅ Error Handling (graceful degradation)

✅ Acceptance Criteria

✅ Python Client:

Клієнт для Vision Encoder API
Type hints + Pydantic models
Error handling з винятками
Health check з таймаутом

✅ Image Search:

Індексація зображень у Qdrant
Text-to-image search
Image-to-image search
Автоматичне створення колекції
Graceful degradation

✅ Vision RAG Routing:

Обробка image search intent
Форматування результатів для агента
Error handling з fallback

✅ DAGI Router Integration:

Підтримка mode="image_search"
Text-to-image пошук
Image-to-image пошук
Структуровані результати

✅ Testing:

Unit tests для клієнта
Unit tests для image search
Unit tests для Vision RAG

✅ Documentation:

README з прикладами
API usage examples
Troubleshooting guide
Dependencies documented

Status: ✅ PRODUCTION READY
Last Updated: 2025-01-17
Maintained by: Ivan Tytar & DAARION Team

19 KiB Raw Blame History Unescape Escape

🎨 Vision RAG Implementation — Complete

📊 Implementation Summary

Status: COMPLETE ✅

🏗️ Architecture Overview

📂 New Components

1. Vision Encoder Client (client/vision_client.py)

2. Image Search Module (utils/image_search.py)

3. Vision RAG Routing (routings/vision_rag.py)

4. DAGI Router Integration (router_app.py)

🧪 Testing

Unit Tests

🚀 Usage Examples

1. Via DAGI Router API

2. Programmatic Usage

3. Integration with Agent

📊 Configuration

Environment Variables

Dependencies

🗄️ Qdrant Setup

Create Collection

Check Collection

📈 Performance

Benchmarks (ViT-L/14 on GPU)

Optimization Tips

🐛 Troubleshooting

Problem: Vision Encoder service unavailable

Problem: Qdrant connection error

Problem: No search results

🎯 Next Steps

Phase 1: Production Deployment ✅

Phase 2: Image Ingestion Pipeline

Phase 3: Advanced Features

Phase 4: Optimization

📖 Documentation

📊 Statistics

Code Metrics

Features Implemented

✅ Acceptance Criteria

19 KiB

Raw Blame History

1. Vision Encoder Client (`client/vision_client.py`)

2. Image Search Module (`utils/image_search.py`)

3. Vision RAG Routing (`routings/vision_rag.py`)

4. DAGI Router Integration (`router_app.py`)