microdao-daarion/ops/node2_models_inventory_20260227.md

# NODA2 Full Model Inventory
**MacBook Pro M4 Max — 64GB unified memory**
**Date:** 2026-02-27
**Status:** Read-only audit, no changes applied

---

## Загальна статистика

| Параметр | Значення |
|----------|---------|
| Всього моделей (унікальних) | **20+** |
| Реально використовуються зараз | **3** (qwen3.5 via Ollama/llama-server, llava:13b via Swapper) |
| Встановлені але невикористовувані | **12** (whisper, kokoro, MiniCPM-V, ComfyUI stack, FLUX, ...) |
| Дублюються | **2** (Qwen3.5-35B in Ollama + llama-server; GLM-4.7-flash:32k + :q4_K_M) |
| Налаштовані в swapper, але відсутні в Ollama | **2** (gemma2:27b, qwen2.5-coder:32b) |
| Є VL/vision-capable | **3** (llava:13b active, MiniCPM-V-4_5 idle, Qwen3-VL-32B not downloaded) |
| Можна перейти на single-model policy | **Частково** (64GB дозволяє тримати 1-2 великих моделі) |
| Потенційна економія диска (cleanup) | **~149 GB** |
| Негайна економія (P1 llama-server) | **~20 GB** |

---

## A. Система

| Параметр | Значення |
|----------|---------|
| CPU | Apple M4 Max |
| RAM | 64 GB unified |
| OS | macOS 26.3 (Darwin arm64) |
| Storage free | 634 GB |
| Ollama | v0.17.1 |
| Docker | 29.2.1 / Compose v5.0.2 |

---

## B. Backends (активні)

| Backend | Port | Статус | Модель |
|---------|------|--------|--------|
| Ollama (native) | 11434 | ✅ Running | 12 моделей, жодна не завантажена |
| llama-server (llama.cpp) | 11435 | ✅ Running | Qwen3.5-35B-A3B-Q4_K_M.gguf |
| Swapper (Docker) | 8890 | ✅ Healthy | active_model=null |
| open-webui (Docker) | 8080 | ✅ Healthy | Whisper-base (STT, CPU) |
| memory-service (uvicorn) | 8000 | ✅ Running | — |
| ComfyUI | — | ❌ Not running | — (offline) |

---

## C. Ollama Models (12 шт.)

| Модель | Розмір | Тип | GPU | Swapper | Рекомендація |
|--------|--------|-----|-----|---------|--------------|
| qwen3.5:35b-a3b | 9.3 GB | LLM (MoE) | Metal | ✅ так | 🟢 PRIMARY |
| qwen3:14b | 9.3 GB | LLM | Metal | ✅ так | 🟢 Keep |
| gemma3:latest | 3.3 GB | LLM (small) | Metal | ❌ не | 🟢 Add to swapper |
| glm-4.7-flash:32k | 19 GB | LLM | Metal | ✅ так | 🟡 Keep 1, remove other |
| glm-4.7-flash:q4_K_M | 19 GB | LLM | Metal | ❌ не | 🔴 DUPLICATE → видалити |
| **llava:13b** | 8.0 GB | **Vision** | Metal | ✅ так | 🟡 P0 fallback, замінити |
| mistral-nemo:12b | 7.1 GB | LLM | Metal | ❌ не | 🔴 Old → видалити |
| deepseek-coder:33b | 18 GB | Code | Metal | ✅ так | 🟡 Heavy, keep if needed |
| deepseek-r1:70b | 42 GB | LLM | Metal | ✅ так | 🟡 Very heavy, on-demand |
| starcoder2:3b | 1.7 GB | Code | Metal | ❌ не | 🟡 Keep for fast code |
| phi3:latest | 2.2 GB | LLM | Metal | ✅ так | 🟡 Replace with gemma3 |
| gpt-oss:latest | 13 GB | LLM | Metal | ✅ так | 🔴 Old → видалити |

---

## D. llama-server (Дублікат!)

| Параметр | Значення |
|----------|---------|
| Процес | `llama-server -m .../Qwen3.5-35B-A3B-Q4_K_M.gguf --port 11435` |
| Файл | `~/Library/Application Support/llama.cpp/models/Qwen3.5-35B-A3B-Q4_K_M.gguf` |
| Розмір | **20 GB** |
| Тип | Ідентична модель до `qwen3.5:35b-a3b` в Ollama |
| Проблема | DUP-01: 20 GB дублювання + плутає `router-config.node2.yml` |
| Рекомендація | 🔴 **P1: Зупинити + видалити файл. Savings: 20 GB** |

---

## E. Swapper (swapper_config_node2.yaml)

| Параметр | Значення |
|----------|---------|
| Status | ✅ healthy |
| active_model | null |
| ollama.url | http://host.docker.internal:11434 ✅ (виправлено P1) |
| GPU | Metal enabled |
| LLM моделей | 9 (2 не встановлені в Ollama!) |
| Vision моделей | 1 (llava-13b) ✅ після P0 |
| STT моделей | 0 ❌ (whisper є, але не підключений) |
| TTS моделей | 0 ❌ (kokoro є, але не підключений) |

---

## F. HuggingFace Cache — встановлені, але невикористовувані

| Модель | Тип | Розмір | Стан | Пріоритет |
|--------|-----|--------|------|-----------|
| whisper-large-v3-turbo-asr-fp16 (MLX) | STT | 1.5 GB | ✅ Installed | P2 integrate |
| Kokoro-82M-bf16 (MLX) | TTS | 0.35 GB | ✅ Installed | P2 integrate |
| MiniCPM-V-4_5 | Vision | 16 GB | ✅ Installed | P2 integrate |
| Qwen2.5-7B-Instruct | LLM | 14 GB | ✅ Installed | P3 cleanup |
| Qwen2.5-1.5B-Instruct | LLM | 2.9 GB | ✅ Installed | P3 cleanup |
| Qwen3-VL-32B-Instruct | Vision | 4 KB | ❌ Only refs | — |
| Aquiles-ai/FLUX.2-dev | Image gen | 105 GB | ✅ Installed | P3 ComfyUI |

---

## G. ComfyUI Stack (offline, не інтегрований)

| Модель | Тип | Розмір | Якість |
|--------|-----|--------|--------|
| flux2-dev-Q8_0.gguf | Image gen | 33 GB | Very high |
| ltx-2-19b-distilled-fp8 | **Video gen** | 25 GB | Very high |
| z_image_turbo_bf16 | Image gen | 11 GB | High |
| SDXL-base-1.0 (hf_models) | Image gen | 72 GB | Medium (old) |
| sdxl_sofia_lora_v1 | LoRA (image) | 0.08 GB | — |

**Загальний розмір ComfyUI + linked:** ~200+ GB
**Інтеграція з платформою:** ❌ Немає REST API wrapper

---

## H. Gaps Summary

### 🔴 P1 — Негайно
| ID | Проблема | Дія |
|----|----------|-----|
| DUP-01 | llama-server дублює Ollama (20 GB) | Зупинити процес, видалити файл |

### 🟡 P2 — Цього тижня
| ID | Проблема | Дія |
|----|----------|-----|
| GAP-01 | whisper-large-v3-turbo встановлений, не інтегрований | Додати STT endpoint |
| GAP-02 | Kokoro TTS встановлений, не інтегрований | Додати TTS endpoint |
| GAP-03 | MiniCPM-V-4_5 встановлений, не інтегрований | Замінити llava:13b в swapper |
| SW-01 | gemma2:27b в swapper config, не встановлений | Видалити з config |
| SW-02 | qwen2.5-coder:32b в swapper config, не встановлений | Видалити з config |
| DUP-02 | glm-4.7-flash два однакові варіанти (38 GB) | Залишити тільки :32k |

### 🔵 P3 — Наступний спринт
| ID | Проблема | Дія |
|----|----------|-----|
| GAP-04/05 | Qwen2.5 HF weights (17 GB) idle | Cleanup або конвертація |
| RED-02 | open-webui whisper-base vs MLX whisper | Upgrade |
| GAP-06 | ComfyUI не має API wrapper | Integrate або leave as manual |
| — | SDXL-base-1.0 (72 GB) якщо не потрібно | Cleanup |

---

## I. Executive Summary (15 bullets)

1. **12 моделей в Ollama** — жодна не завантажена зараз; hot-start за 2-5с при запиті
2. **llama-server дублює Ollama** — 20 GB зайвого диску і плутання портів (11434 vs 11435) → P1 cleanup
3. **Vision ВІДНОВЛЕНО (P0)** — `llava:13b` активна в Swapper, inference ~3.5s через GPU
4. **MiniCPM-V-4_5 (16 GB) встановлений але не підключений** — значно краще llava:13b → P2 upgrade
5. **Whisper-large-v3-turbo (MLX, 1.5 GB) готовий** — STT відсутній в стеку → P2 integrate
6. **Kokoro TTS (MLX, 0.35 GB) готовий** — TTS відсутній в стеку → P2 integrate
7. **2 моделі в swapper config але відсутні в Ollama** — gemma2:27b, qwen2.5-coder:32b → видалити з config
8. **GLM-4.7-flash дублюється** — два варіанти одного 19GB моделі → 19 GB зайвого
9. **ComfyUI stack (200+ GB)** — FLUX.2-dev + LTX-2 video + SDXL — offline, немає API; величезні можливості без інтеграції
10. **open-webui** запущений з whisper-base (CPU, низька якість) + embeddings — декількі неузгодженості
11. **STT та TTS в Swapper порожні** — обидва /stt/models і /tts/models повертають `[]`
12. **Qwen3.5-35B-A3B є рекомендованою основною моделлю** — MoE, 9.3 GB, fast на M4 Max
13. **gemma3:latest (3.3 GB) не в Swapper** — найкращий "small fast" кандидат для швидких задач
14. **Single-model policy** — на 64GB RAM менш критична ніж на NODA1 (20GB), але все одно рекомендована для порядку
15. **Потенційна економія диску: 149 GB** (20 GB негайно); без втрати можливостей

---

## Рекомендована мінімальна конфігурація (якщо йти на оптимізацію)

```
Primary LLM:    qwen3.5:35b-a3b (Ollama)         — 9.3 GB
Small/fast LLM: gemma3:latest (Ollama)             — 3.3 GB
Vision:         MiniCPM-V-4_5 (HF → integrate)    — 16 GB
STT:            whisper-large-v3-turbo (MLX)       — 1.5 GB
TTS:            Kokoro-82M-bf16 (MLX)              — 0.35 GB
Code:           deepseek-coder:33b (on-demand)     — 18 GB
Image gen:      flux2-dev via ComfyUI (manual)     — 33 GB
Video gen:      ltx-2 via ComfyUI (manual)         — 25 GB
─────────────────────────────────────────────────────────
Total active: ~30 GB (primary use case, fits in 64 GB RAM)
```

Це покрило б: text, vision, STT, TTS, code — в одному ноуті, без NODA1.