Files
microdao-daarion/ops/node2_models_inventory_20260227.md
Apple 3965f68fac node2: full model inventory audit 2026-02-27
Read-only audit of all installed models on NODA2 (MacBook M4 Max):
- 12 Ollama models, 1 llama-server duplicate, 16 HF cache models
- ComfyUI stack (200+ GB): FLUX.2-dev, LTX-2 video, SDXL
- Whisper-large-v3-turbo (MLX, 1.5GB) + Kokoro TTS (MLX, 0.35GB) installed but unused
- MiniCPM-V-4_5 (16GB) installed but not in Swapper (better than llava:13b)
- Key finding: 149GB cleanup potential; llama-server duplicates Ollama (P1, 20GB)

Artifacts:
- ops/node2_models_inventory_20260227.json
- ops/node2_models_inventory_20260227.md
- ops/node2_model_capabilities.yml
- ops/node2_model_gaps.yml

Made-with: Cursor
2026-02-27 01:44:26 -08:00

9.8 KiB
Raw Permalink Blame History

NODA2 Full Model Inventory

MacBook Pro M4 Max — 64GB unified memory
Date: 2026-02-27
Status: Read-only audit, no changes applied


Загальна статистика

Параметр Значення
Всього моделей (унікальних) 20+
Реально використовуються зараз 3 (qwen3.5 via Ollama/llama-server, llava:13b via Swapper)
Встановлені але невикористовувані 12 (whisper, kokoro, MiniCPM-V, ComfyUI stack, FLUX, ...)
Дублюються 2 (Qwen3.5-35B in Ollama + llama-server; GLM-4.7-flash:32k + :q4_K_M)
Налаштовані в swapper, але відсутні в Ollama 2 (gemma2:27b, qwen2.5-coder:32b)
Є VL/vision-capable 3 (llava:13b active, MiniCPM-V-4_5 idle, Qwen3-VL-32B not downloaded)
Можна перейти на single-model policy Частково (64GB дозволяє тримати 1-2 великих моделі)
Потенційна економія диска (cleanup) ~149 GB
Негайна економія (P1 llama-server) ~20 GB

A. Система

Параметр Значення
CPU Apple M4 Max
RAM 64 GB unified
OS macOS 26.3 (Darwin arm64)
Storage free 634 GB
Ollama v0.17.1
Docker 29.2.1 / Compose v5.0.2

B. Backends (активні)

Backend Port Статус Модель
Ollama (native) 11434 Running 12 моделей, жодна не завантажена
llama-server (llama.cpp) 11435 Running Qwen3.5-35B-A3B-Q4_K_M.gguf
Swapper (Docker) 8890 Healthy active_model=null
open-webui (Docker) 8080 Healthy Whisper-base (STT, CPU)
memory-service (uvicorn) 8000 Running
ComfyUI Not running — (offline)

C. Ollama Models (12 шт.)

Модель Розмір Тип GPU Swapper Рекомендація
qwen3.5:35b-a3b 9.3 GB LLM (MoE) Metal так 🟢 PRIMARY
qwen3:14b 9.3 GB LLM Metal так 🟢 Keep
gemma3:latest 3.3 GB LLM (small) Metal не 🟢 Add to swapper
glm-4.7-flash:32k 19 GB LLM Metal так 🟡 Keep 1, remove other
glm-4.7-flash:q4_K_M 19 GB LLM Metal не 🔴 DUPLICATE → видалити
llava:13b 8.0 GB Vision Metal так 🟡 P0 fallback, замінити
mistral-nemo:12b 7.1 GB LLM Metal не 🔴 Old → видалити
deepseek-coder:33b 18 GB Code Metal так 🟡 Heavy, keep if needed
deepseek-r1:70b 42 GB LLM Metal так 🟡 Very heavy, on-demand
starcoder2:3b 1.7 GB Code Metal не 🟡 Keep for fast code
phi3:latest 2.2 GB LLM Metal так 🟡 Replace with gemma3
gpt-oss:latest 13 GB LLM Metal так 🔴 Old → видалити

D. llama-server (Дублікат!)

Параметр Значення
Процес llama-server -m .../Qwen3.5-35B-A3B-Q4_K_M.gguf --port 11435
Файл ~/Library/Application Support/llama.cpp/models/Qwen3.5-35B-A3B-Q4_K_M.gguf
Розмір 20 GB
Тип Ідентична модель до qwen3.5:35b-a3b в Ollama
Проблема DUP-01: 20 GB дублювання + плутає router-config.node2.yml
Рекомендація 🔴 P1: Зупинити + видалити файл. Savings: 20 GB

E. Swapper (swapper_config_node2.yaml)

Параметр Значення
Status healthy
active_model null
ollama.url http://host.docker.internal:11434 (виправлено P1)
GPU Metal enabled
LLM моделей 9 (2 не встановлені в Ollama!)
Vision моделей 1 (llava-13b) після P0
STT моделей 0 (whisper є, але не підключений)
TTS моделей 0 (kokoro є, але не підключений)

F. HuggingFace Cache — встановлені, але невикористовувані

Модель Тип Розмір Стан Пріоритет
whisper-large-v3-turbo-asr-fp16 (MLX) STT 1.5 GB Installed P2 integrate
Kokoro-82M-bf16 (MLX) TTS 0.35 GB Installed P2 integrate
MiniCPM-V-4_5 Vision 16 GB Installed P2 integrate
Qwen2.5-7B-Instruct LLM 14 GB Installed P3 cleanup
Qwen2.5-1.5B-Instruct LLM 2.9 GB Installed P3 cleanup
Qwen3-VL-32B-Instruct Vision 4 KB Only refs
Aquiles-ai/FLUX.2-dev Image gen 105 GB Installed P3 ComfyUI

G. ComfyUI Stack (offline, не інтегрований)

Модель Тип Розмір Якість
flux2-dev-Q8_0.gguf Image gen 33 GB Very high
ltx-2-19b-distilled-fp8 Video gen 25 GB Very high
z_image_turbo_bf16 Image gen 11 GB High
SDXL-base-1.0 (hf_models) Image gen 72 GB Medium (old)
sdxl_sofia_lora_v1 LoRA (image) 0.08 GB

Загальний розмір ComfyUI + linked: ~200+ GB
Інтеграція з платформою: Немає REST API wrapper


H. Gaps Summary

🔴 P1 — Негайно

ID Проблема Дія
DUP-01 llama-server дублює Ollama (20 GB) Зупинити процес, видалити файл

🟡 P2 — Цього тижня

ID Проблема Дія
GAP-01 whisper-large-v3-turbo встановлений, не інтегрований Додати STT endpoint
GAP-02 Kokoro TTS встановлений, не інтегрований Додати TTS endpoint
GAP-03 MiniCPM-V-4_5 встановлений, не інтегрований Замінити llava:13b в swapper
SW-01 gemma2:27b в swapper config, не встановлений Видалити з config
SW-02 qwen2.5-coder:32b в swapper config, не встановлений Видалити з config
DUP-02 glm-4.7-flash два однакові варіанти (38 GB) Залишити тільки :32k

🔵 P3 — Наступний спринт

ID Проблема Дія
GAP-04/05 Qwen2.5 HF weights (17 GB) idle Cleanup або конвертація
RED-02 open-webui whisper-base vs MLX whisper Upgrade
GAP-06 ComfyUI не має API wrapper Integrate або leave as manual
SDXL-base-1.0 (72 GB) якщо не потрібно Cleanup

I. Executive Summary (15 bullets)

  1. 12 моделей в Ollama — жодна не завантажена зараз; hot-start за 2-5с при запиті
  2. llama-server дублює Ollama — 20 GB зайвого диску і плутання портів (11434 vs 11435) → P1 cleanup
  3. Vision ВІДНОВЛЕНО (P0)llava:13b активна в Swapper, inference ~3.5s через GPU
  4. MiniCPM-V-4_5 (16 GB) встановлений але не підключений — значно краще llava:13b → P2 upgrade
  5. Whisper-large-v3-turbo (MLX, 1.5 GB) готовий — STT відсутній в стеку → P2 integrate
  6. Kokoro TTS (MLX, 0.35 GB) готовий — TTS відсутній в стеку → P2 integrate
  7. 2 моделі в swapper config але відсутні в Ollama — gemma2:27b, qwen2.5-coder:32b → видалити з config
  8. GLM-4.7-flash дублюється — два варіанти одного 19GB моделі → 19 GB зайвого
  9. ComfyUI stack (200+ GB) — FLUX.2-dev + LTX-2 video + SDXL — offline, немає API; величезні можливості без інтеграції
  10. open-webui запущений з whisper-base (CPU, низька якість) + embeddings — декількі неузгодженості
  11. STT та TTS в Swapper порожні — обидва /stt/models і /tts/models повертають []
  12. Qwen3.5-35B-A3B є рекомендованою основною моделлю — MoE, 9.3 GB, fast на M4 Max
  13. gemma3:latest (3.3 GB) не в Swapper — найкращий "small fast" кандидат для швидких задач
  14. Single-model policy — на 64GB RAM менш критична ніж на NODA1 (20GB), але все одно рекомендована для порядку
  15. Потенційна економія диску: 149 GB (20 GB негайно); без втрати можливостей

Рекомендована мінімальна конфігурація (якщо йти на оптимізацію)

Primary LLM:    qwen3.5:35b-a3b (Ollama)         — 9.3 GB
Small/fast LLM: gemma3:latest (Ollama)             — 3.3 GB
Vision:         MiniCPM-V-4_5 (HF → integrate)    — 16 GB
STT:            whisper-large-v3-turbo (MLX)       — 1.5 GB
TTS:            Kokoro-82M-bf16 (MLX)              — 0.35 GB
Code:           deepseek-coder:33b (on-demand)     — 18 GB
Image gen:      flux2-dev via ComfyUI (manual)     — 33 GB
Video gen:      ltx-2 via ComfyUI (manual)         — 25 GB
─────────────────────────────────────────────────────────
Total active: ~30 GB (primary use case, fits in 64 GB RAM)

Це покрило б: text, vision, STT, TTS, code — в одному ноуті, без NODA1.