microdao-daarion/OLLAMA-OPTIMIZATION.md

# Ollama Performance Optimization

## Проблема
Qwen3:8b генерує відповідь 25-30 секунд, що занадто повільно для чат-бота.

## Швидкі рішення

### 1. Збільшити timeout (✅ зроблено)
```python
# providers/llm_provider.py
timeout_s: int = 60  # було 30
```

### 2. Keep model loaded (рекомендовано)
```bash
# Встановити keep_alive щоб модель не вивантажувалась
curl http://localhost:11434/api/generate -d '{
  "model": "qwen3:8b",
  "prompt": "warmup",
  "keep_alive": "24h"
}'
```

Або в systemd override:
```ini
[Service]
Environment="OLLAMA_KEEP_ALIVE=24h"
```

### 3. Використати легшу модель
```bash
# Завантажити qwen2.5:3b (швидша, але менш "розумна")
ollama pull qwen2.5:3b
```

Оновити `router-config.yml`:
```yaml
llm_profiles:
  - profile_id: "local_qwen_fast"
    provider_id: "llm_local_qwen"
    model: "qwen2.5:3b"  # замість qwen3:8b
```

### 4. GPU acceleration (якщо є GPU)
Ollama автоматично використовує GPU якщо є CUDA/ROCm.

Перевірка:
```bash
ollama ps  # покаже чи використовує GPU
nvidia-smi  # для NVIDIA GPU
```

## Довгострокові рішення

### Option A: Віддалений LLM (швидко, але платно)
```yaml
llm_profiles:
  - profile_id: "production_fast"
    provider_id: "openai_remote"
    model: "gpt-4o-mini"
    base_url: "https://api.openai.com/v1"
    api_key_env: "OPENAI_API_KEY"
```

### Option B: Більш потужний сервер
- CPU: 8+ cores
- RAM: 32GB+ (для 8B моделі)
- GPU: RTX 3060+ (12GB VRAM)

## Моніторинг

```bash
# Час генерації
docker compose logs router | grep "Request timeout"

# Завантаженість Ollama
curl http://localhost:11434/api/ps

# Системні ресурси
htop
```

## Рекомендації для DAARWIZZ

1. ✅ **Зараз**: timeout 60s, працює але повільно
2. 🔄 **Наступний крок**: `OLLAMA_KEEP_ALIVE=24h` щоб модель не вивантажувалась
3. 🚀 **Production**: віддалений LLM (OpenAI/Anthropic) або потужніший сервер з GPU

---

**Статус**: DAARWIZZ працює, але відповідає за ~30-40 секунд. Для комфорту потрібно <5 секунд.