Files
microdao-daarion/ops/node2_models_inventory_20260227.md
Apple 3965f68fac node2: full model inventory audit 2026-02-27
Read-only audit of all installed models on NODA2 (MacBook M4 Max):
- 12 Ollama models, 1 llama-server duplicate, 16 HF cache models
- ComfyUI stack (200+ GB): FLUX.2-dev, LTX-2 video, SDXL
- Whisper-large-v3-turbo (MLX, 1.5GB) + Kokoro TTS (MLX, 0.35GB) installed but unused
- MiniCPM-V-4_5 (16GB) installed but not in Swapper (better than llava:13b)
- Key finding: 149GB cleanup potential; llama-server duplicates Ollama (P1, 20GB)

Artifacts:
- ops/node2_models_inventory_20260227.json
- ops/node2_models_inventory_20260227.md
- ops/node2_model_capabilities.yml
- ops/node2_model_gaps.yml

Made-with: Cursor
2026-02-27 01:44:26 -08:00

189 lines
9.8 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# NODA2 Full Model Inventory
**MacBook Pro M4 Max — 64GB unified memory**
**Date:** 2026-02-27
**Status:** Read-only audit, no changes applied
---
## Загальна статистика
| Параметр | Значення |
|----------|---------|
| Всього моделей (унікальних) | **20+** |
| Реально використовуються зараз | **3** (qwen3.5 via Ollama/llama-server, llava:13b via Swapper) |
| Встановлені але невикористовувані | **12** (whisper, kokoro, MiniCPM-V, ComfyUI stack, FLUX, ...) |
| Дублюються | **2** (Qwen3.5-35B in Ollama + llama-server; GLM-4.7-flash:32k + :q4_K_M) |
| Налаштовані в swapper, але відсутні в Ollama | **2** (gemma2:27b, qwen2.5-coder:32b) |
| Є VL/vision-capable | **3** (llava:13b active, MiniCPM-V-4_5 idle, Qwen3-VL-32B not downloaded) |
| Можна перейти на single-model policy | **Частково** (64GB дозволяє тримати 1-2 великих моделі) |
| Потенційна економія диска (cleanup) | **~149 GB** |
| Негайна економія (P1 llama-server) | **~20 GB** |
---
## A. Система
| Параметр | Значення |
|----------|---------|
| CPU | Apple M4 Max |
| RAM | 64 GB unified |
| OS | macOS 26.3 (Darwin arm64) |
| Storage free | 634 GB |
| Ollama | v0.17.1 |
| Docker | 29.2.1 / Compose v5.0.2 |
---
## B. Backends (активні)
| Backend | Port | Статус | Модель |
|---------|------|--------|--------|
| Ollama (native) | 11434 | ✅ Running | 12 моделей, жодна не завантажена |
| llama-server (llama.cpp) | 11435 | ✅ Running | Qwen3.5-35B-A3B-Q4_K_M.gguf |
| Swapper (Docker) | 8890 | ✅ Healthy | active_model=null |
| open-webui (Docker) | 8080 | ✅ Healthy | Whisper-base (STT, CPU) |
| memory-service (uvicorn) | 8000 | ✅ Running | — |
| ComfyUI | — | ❌ Not running | — (offline) |
---
## C. Ollama Models (12 шт.)
| Модель | Розмір | Тип | GPU | Swapper | Рекомендація |
|--------|--------|-----|-----|---------|--------------|
| qwen3.5:35b-a3b | 9.3 GB | LLM (MoE) | Metal | ✅ так | 🟢 PRIMARY |
| qwen3:14b | 9.3 GB | LLM | Metal | ✅ так | 🟢 Keep |
| gemma3:latest | 3.3 GB | LLM (small) | Metal | ❌ не | 🟢 Add to swapper |
| glm-4.7-flash:32k | 19 GB | LLM | Metal | ✅ так | 🟡 Keep 1, remove other |
| glm-4.7-flash:q4_K_M | 19 GB | LLM | Metal | ❌ не | 🔴 DUPLICATE → видалити |
| **llava:13b** | 8.0 GB | **Vision** | Metal | ✅ так | 🟡 P0 fallback, замінити |
| mistral-nemo:12b | 7.1 GB | LLM | Metal | ❌ не | 🔴 Old → видалити |
| deepseek-coder:33b | 18 GB | Code | Metal | ✅ так | 🟡 Heavy, keep if needed |
| deepseek-r1:70b | 42 GB | LLM | Metal | ✅ так | 🟡 Very heavy, on-demand |
| starcoder2:3b | 1.7 GB | Code | Metal | ❌ не | 🟡 Keep for fast code |
| phi3:latest | 2.2 GB | LLM | Metal | ✅ так | 🟡 Replace with gemma3 |
| gpt-oss:latest | 13 GB | LLM | Metal | ✅ так | 🔴 Old → видалити |
---
## D. llama-server (Дублікат!)
| Параметр | Значення |
|----------|---------|
| Процес | `llama-server -m .../Qwen3.5-35B-A3B-Q4_K_M.gguf --port 11435` |
| Файл | `~/Library/Application Support/llama.cpp/models/Qwen3.5-35B-A3B-Q4_K_M.gguf` |
| Розмір | **20 GB** |
| Тип | Ідентична модель до `qwen3.5:35b-a3b` в Ollama |
| Проблема | DUP-01: 20 GB дублювання + плутає `router-config.node2.yml` |
| Рекомендація | 🔴 **P1: Зупинити + видалити файл. Savings: 20 GB** |
---
## E. Swapper (swapper_config_node2.yaml)
| Параметр | Значення |
|----------|---------|
| Status | ✅ healthy |
| active_model | null |
| ollama.url | http://host.docker.internal:11434 ✅ (виправлено P1) |
| GPU | Metal enabled |
| LLM моделей | 9 (2 не встановлені в Ollama!) |
| Vision моделей | 1 (llava-13b) ✅ після P0 |
| STT моделей | 0 ❌ (whisper є, але не підключений) |
| TTS моделей | 0 ❌ (kokoro є, але не підключений) |
---
## F. HuggingFace Cache — встановлені, але невикористовувані
| Модель | Тип | Розмір | Стан | Пріоритет |
|--------|-----|--------|------|-----------|
| whisper-large-v3-turbo-asr-fp16 (MLX) | STT | 1.5 GB | ✅ Installed | P2 integrate |
| Kokoro-82M-bf16 (MLX) | TTS | 0.35 GB | ✅ Installed | P2 integrate |
| MiniCPM-V-4_5 | Vision | 16 GB | ✅ Installed | P2 integrate |
| Qwen2.5-7B-Instruct | LLM | 14 GB | ✅ Installed | P3 cleanup |
| Qwen2.5-1.5B-Instruct | LLM | 2.9 GB | ✅ Installed | P3 cleanup |
| Qwen3-VL-32B-Instruct | Vision | 4 KB | ❌ Only refs | — |
| Aquiles-ai/FLUX.2-dev | Image gen | 105 GB | ✅ Installed | P3 ComfyUI |
---
## G. ComfyUI Stack (offline, не інтегрований)
| Модель | Тип | Розмір | Якість |
|--------|-----|--------|--------|
| flux2-dev-Q8_0.gguf | Image gen | 33 GB | Very high |
| ltx-2-19b-distilled-fp8 | **Video gen** | 25 GB | Very high |
| z_image_turbo_bf16 | Image gen | 11 GB | High |
| SDXL-base-1.0 (hf_models) | Image gen | 72 GB | Medium (old) |
| sdxl_sofia_lora_v1 | LoRA (image) | 0.08 GB | — |
**Загальний розмір ComfyUI + linked:** ~200+ GB
**Інтеграція з платформою:** ❌ Немає REST API wrapper
---
## H. Gaps Summary
### 🔴 P1 — Негайно
| ID | Проблема | Дія |
|----|----------|-----|
| DUP-01 | llama-server дублює Ollama (20 GB) | Зупинити процес, видалити файл |
### 🟡 P2 — Цього тижня
| ID | Проблема | Дія |
|----|----------|-----|
| GAP-01 | whisper-large-v3-turbo встановлений, не інтегрований | Додати STT endpoint |
| GAP-02 | Kokoro TTS встановлений, не інтегрований | Додати TTS endpoint |
| GAP-03 | MiniCPM-V-4_5 встановлений, не інтегрований | Замінити llava:13b в swapper |
| SW-01 | gemma2:27b в swapper config, не встановлений | Видалити з config |
| SW-02 | qwen2.5-coder:32b в swapper config, не встановлений | Видалити з config |
| DUP-02 | glm-4.7-flash два однакові варіанти (38 GB) | Залишити тільки :32k |
### 🔵 P3 — Наступний спринт
| ID | Проблема | Дія |
|----|----------|-----|
| GAP-04/05 | Qwen2.5 HF weights (17 GB) idle | Cleanup або конвертація |
| RED-02 | open-webui whisper-base vs MLX whisper | Upgrade |
| GAP-06 | ComfyUI не має API wrapper | Integrate або leave as manual |
| — | SDXL-base-1.0 (72 GB) якщо не потрібно | Cleanup |
---
## I. Executive Summary (15 bullets)
1. **12 моделей в Ollama** — жодна не завантажена зараз; hot-start за 2-5с при запиті
2. **llama-server дублює Ollama** — 20 GB зайвого диску і плутання портів (11434 vs 11435) → P1 cleanup
3. **Vision ВІДНОВЛЕНО (P0)**`llava:13b` активна в Swapper, inference ~3.5s через GPU
4. **MiniCPM-V-4_5 (16 GB) встановлений але не підключений** — значно краще llava:13b → P2 upgrade
5. **Whisper-large-v3-turbo (MLX, 1.5 GB) готовий** — STT відсутній в стеку → P2 integrate
6. **Kokoro TTS (MLX, 0.35 GB) готовий** — TTS відсутній в стеку → P2 integrate
7. **2 моделі в swapper config але відсутні в Ollama** — gemma2:27b, qwen2.5-coder:32b → видалити з config
8. **GLM-4.7-flash дублюється** — два варіанти одного 19GB моделі → 19 GB зайвого
9. **ComfyUI stack (200+ GB)** — FLUX.2-dev + LTX-2 video + SDXL — offline, немає API; величезні можливості без інтеграції
10. **open-webui** запущений з whisper-base (CPU, низька якість) + embeddings — декількі неузгодженості
11. **STT та TTS в Swapper порожні** — обидва /stt/models і /tts/models повертають `[]`
12. **Qwen3.5-35B-A3B є рекомендованою основною моделлю** — MoE, 9.3 GB, fast на M4 Max
13. **gemma3:latest (3.3 GB) не в Swapper** — найкращий "small fast" кандидат для швидких задач
14. **Single-model policy** — на 64GB RAM менш критична ніж на NODA1 (20GB), але все одно рекомендована для порядку
15. **Потенційна економія диску: 149 GB** (20 GB негайно); без втрати можливостей
---
## Рекомендована мінімальна конфігурація (якщо йти на оптимізацію)
```
Primary LLM: qwen3.5:35b-a3b (Ollama) — 9.3 GB
Small/fast LLM: gemma3:latest (Ollama) — 3.3 GB
Vision: MiniCPM-V-4_5 (HF → integrate) — 16 GB
STT: whisper-large-v3-turbo (MLX) — 1.5 GB
TTS: Kokoro-82M-bf16 (MLX) — 0.35 GB
Code: deepseek-coder:33b (on-demand) — 18 GB
Image gen: flux2-dev via ComfyUI (manual) — 33 GB
Video gen: ltx-2 via ComfyUI (manual) — 25 GB
─────────────────────────────────────────────────────────
Total active: ~30 GB (primary use case, fits in 64 GB RAM)
```
Це покрило б: text, vision, STT, TTS, code — в одному ноуті, без NODA1.