Files

Apple 3965f68fac node2: full model inventory audit 2026-02-27

Read-only audit of all installed models on NODA2 (MacBook M4 Max):
- 12 Ollama models, 1 llama-server duplicate, 16 HF cache models
- ComfyUI stack (200+ GB): FLUX.2-dev, LTX-2 video, SDXL
- Whisper-large-v3-turbo (MLX, 1.5GB) + Kokoro TTS (MLX, 0.35GB) installed but unused
- MiniCPM-V-4_5 (16GB) installed but not in Swapper (better than llava:13b)
- Key finding: 149GB cleanup potential; llama-server duplicates Ollama (P1, 20GB)

Artifacts:
- ops/node2_models_inventory_20260227.json
- ops/node2_models_inventory_20260227.md
- ops/node2_model_capabilities.yml
- ops/node2_model_gaps.yml

Made-with: Cursor

2026-02-27 01:44:26 -08:00

9.8 KiB

Raw Blame History

NODA2 Full Model Inventory

MacBook Pro M4 Max — 64GB unified memory
Date: 2026-02-27
Status: Read-only audit, no changes applied

Загальна статистика

Параметр	Значення
Всього моделей (унікальних)	20+
Реально використовуються зараз	3 (qwen3.5 via Ollama/llama-server, llava:13b via Swapper)
Встановлені але невикористовувані	12 (whisper, kokoro, MiniCPM-V, ComfyUI stack, FLUX, ...)
Дублюються	2 (Qwen3.5-35B in Ollama + llama-server; GLM-4.7-flash:32k + :q4_K_M)
Налаштовані в swapper, але відсутні в Ollama	2 (gemma2:27b, qwen2.5-coder:32b)
Є VL/vision-capable	3 (llava:13b active, MiniCPM-V-4_5 idle, Qwen3-VL-32B not downloaded)
Можна перейти на single-model policy	Частково (64GB дозволяє тримати 1-2 великих моделі)
Потенційна економія диска (cleanup)	~149 GB
Негайна економія (P1 llama-server)	~20 GB

A. Система

Параметр	Значення
CPU	Apple M4 Max
RAM	64 GB unified
OS	macOS 26.3 (Darwin arm64)
Storage free	634 GB
Ollama	v0.17.1
Docker	29.2.1 / Compose v5.0.2

B. Backends (активні)

Backend	Port	Статус	Модель
Ollama (native)	11434	✅ Running	12 моделей, жодна не завантажена
llama-server (llama.cpp)	11435	✅ Running	Qwen3.5-35B-A3B-Q4_K_M.gguf
Swapper (Docker)	8890	✅ Healthy	active_model=null
open-webui (Docker)	8080	✅ Healthy	Whisper-base (STT, CPU)
memory-service (uvicorn)	8000	✅ Running	—
ComfyUI	—	❌ Not running	— (offline)

C. Ollama Models (12 шт.)

Модель	Розмір	Тип	GPU	Swapper	Рекомендація
qwen3.5:35b-a3b	9.3 GB	LLM (MoE)	Metal	✅ так	🟢 PRIMARY
qwen3:14b	9.3 GB	LLM	Metal	✅ так	🟢 Keep
gemma3:latest	3.3 GB	LLM (small)	Metal	❌ не	🟢 Add to swapper
glm-4.7-flash:32k	19 GB	LLM	Metal	✅ так	🟡 Keep 1, remove other
glm-4.7-flash:q4_K_M	19 GB	LLM	Metal	❌ не	🔴 DUPLICATE → видалити
llava:13b	8.0 GB	Vision	Metal	✅ так	🟡 P0 fallback, замінити
mistral-nemo:12b	7.1 GB	LLM	Metal	❌ не	🔴 Old → видалити
deepseek-coder:33b	18 GB	Code	Metal	✅ так	🟡 Heavy, keep if needed
deepseek-r1:70b	42 GB	LLM	Metal	✅ так	🟡 Very heavy, on-demand
starcoder2:3b	1.7 GB	Code	Metal	❌ не	🟡 Keep for fast code
phi3:latest	2.2 GB	LLM	Metal	✅ так	🟡 Replace with gemma3
gpt-oss:latest	13 GB	LLM	Metal	✅ так	🔴 Old → видалити

D. llama-server (Дублікат!)

Параметр	Значення
Процес	`llama-server -m .../Qwen3.5-35B-A3B-Q4_K_M.gguf --port 11435`
Файл	`~/Library/Application Support/llama.cpp/models/Qwen3.5-35B-A3B-Q4_K_M.gguf`
Розмір	20 GB
Тип	Ідентична модель до `qwen3.5:35b-a3b` в Ollama
Проблема	DUP-01: 20 GB дублювання + плутає `router-config.node2.yml`
Рекомендація	🔴 P1: Зупинити + видалити файл. Savings: 20 GB

E. Swapper (swapper_config_node2.yaml)

Параметр	Значення
Status	✅ healthy
active_model	null
ollama.url	http://host.docker.internal:11434 ✅ (виправлено P1)
GPU	Metal enabled
LLM моделей	9 (2 не встановлені в Ollama!)
Vision моделей	1 (llava-13b) ✅ після P0
STT моделей	0 ❌ (whisper є, але не підключений)
TTS моделей	0 ❌ (kokoro є, але не підключений)

F. HuggingFace Cache — встановлені, але невикористовувані

Модель	Тип	Розмір	Стан	Пріоритет
whisper-large-v3-turbo-asr-fp16 (MLX)	STT	1.5 GB	✅ Installed	P2 integrate
Kokoro-82M-bf16 (MLX)	TTS	0.35 GB	✅ Installed	P2 integrate
MiniCPM-V-4_5	Vision	16 GB	✅ Installed	P2 integrate
Qwen2.5-7B-Instruct	LLM	14 GB	✅ Installed	P3 cleanup
Qwen2.5-1.5B-Instruct	LLM	2.9 GB	✅ Installed	P3 cleanup
Qwen3-VL-32B-Instruct	Vision	4 KB	❌ Only refs	—
Aquiles-ai/FLUX.2-dev	Image gen	105 GB	✅ Installed	P3 ComfyUI

G. ComfyUI Stack (offline, не інтегрований)

Модель	Тип	Розмір	Якість
flux2-dev-Q8_0.gguf	Image gen	33 GB	Very high
ltx-2-19b-distilled-fp8	Video gen	25 GB	Very high
z_image_turbo_bf16	Image gen	11 GB	High
SDXL-base-1.0 (hf_models)	Image gen	72 GB	Medium (old)
sdxl_sofia_lora_v1	LoRA (image)	0.08 GB	—

Загальний розмір ComfyUI + linked: ~200+ GB
Інтеграція з платформою: ❌ Немає REST API wrapper

H. Gaps Summary

🔴 P1 — Негайно

ID	Проблема	Дія
DUP-01	llama-server дублює Ollama (20 GB)	Зупинити процес, видалити файл

🟡 P2 — Цього тижня

ID	Проблема	Дія
GAP-01	whisper-large-v3-turbo встановлений, не інтегрований	Додати STT endpoint
GAP-02	Kokoro TTS встановлений, не інтегрований	Додати TTS endpoint
GAP-03	MiniCPM-V-4_5 встановлений, не інтегрований	Замінити llava:13b в swapper
SW-01	gemma2:27b в swapper config, не встановлений	Видалити з config
SW-02	qwen2.5-coder:32b в swapper config, не встановлений	Видалити з config
DUP-02	glm-4.7-flash два однакові варіанти (38 GB)	Залишити тільки :32k

🔵 P3 — Наступний спринт

ID	Проблема	Дія
GAP-04/05	Qwen2.5 HF weights (17 GB) idle	Cleanup або конвертація
RED-02	open-webui whisper-base vs MLX whisper	Upgrade
GAP-06	ComfyUI не має API wrapper	Integrate або leave as manual
—	SDXL-base-1.0 (72 GB) якщо не потрібно	Cleanup

I. Executive Summary (15 bullets)

12 моделей в Ollama — жодна не завантажена зараз; hot-start за 2-5с при запиті
llama-server дублює Ollama — 20 GB зайвого диску і плутання портів (11434 vs 11435) → P1 cleanup
Vision ВІДНОВЛЕНО (P0) — llava:13b активна в Swapper, inference ~3.5s через GPU
MiniCPM-V-4_5 (16 GB) встановлений але не підключений — значно краще llava:13b → P2 upgrade
Whisper-large-v3-turbo (MLX, 1.5 GB) готовий — STT відсутній в стеку → P2 integrate
Kokoro TTS (MLX, 0.35 GB) готовий — TTS відсутній в стеку → P2 integrate
2 моделі в swapper config але відсутні в Ollama — gemma2:27b, qwen2.5-coder:32b → видалити з config
GLM-4.7-flash дублюється — два варіанти одного 19GB моделі → 19 GB зайвого
ComfyUI stack (200+ GB) — FLUX.2-dev + LTX-2 video + SDXL — offline, немає API; величезні можливості без інтеграції
open-webui запущений з whisper-base (CPU, низька якість) + embeddings — декількі неузгодженості
STT та TTS в Swapper порожні — обидва /stt/models і /tts/models повертають []
Qwen3.5-35B-A3B є рекомендованою основною моделлю — MoE, 9.3 GB, fast на M4 Max
gemma3:latest (3.3 GB) не в Swapper — найкращий "small fast" кандидат для швидких задач
Single-model policy — на 64GB RAM менш критична ніж на NODA1 (20GB), але все одно рекомендована для порядку
Потенційна економія диску: 149 GB (20 GB негайно); без втрати можливостей

9.8 KiB Raw Blame History Unescape Escape