- Node-guardian running on MacBook and updating metrics - NODE2 agents (Atlas, Greeter, Oracle, Builder Bot) assigned to node-2-macbook-m4max - Swapper models displaying correctly (8 models) - DAGI Router agents showing with correct status (3 active, 1 stale) - Router health check using node_cache for remote nodes
3.2 KiB
3.2 KiB
✅ Успішно увімкнено GPU для Ollama на НОДА1!
Дата: 2025-01-27
Статус: ✅ УСПІШНО! GPU acceleration працює!
🎉 Результати
✅ GPU Acceleration працює!
Перевірка:
ollama ps
# NAME ID SIZE PROCESSOR CONTEXT UNTIL
# qwen3:8b 500a1f067a9f 6.0 GB 100% GPU 4096 24 hours from now
✅ Модель qwen3:8b завантажена на GPU (100% GPU)!
📊 GPU використання
До оптимізації:
- GPU memory: 2246 MiB (Python процес)
- GPU utilization: 0%
- Ollama на CPU: 1583% CPU
Після оптимізації:
- ✅ GPU memory: 7848 MiB (Ollama: 5600 MiB + Python: 2240 MiB)
- ✅ GPU utilization: 0% (idle, але модель на GPU)
- ✅ Ollama runner: 8.5% CPU (замість 1583%!)
- ✅ 37/37 шарів моделі на GPU (згідно з логами)
📝 Логи підтверджують GPU:
time=2025-11-23T11:59:21.521+01:00 level=INFO source=ggml.go:482 msg="offloading 36 repeating layers to GPU"
time=2025-11-23T11:59:21.521+01:00 level=INFO source=ggml.go:489 msg="offloading output layer to GPU"
time=2025-11-23T11:59:21.521+01:00 level=INFO source=ggml.go:494 msg="offloaded 37/37 layers to GPU"
✅ Всі 37 шарів моделі qwen3:8b завантажені на GPU!
🔧 Виконані дії
- ✅ Створено
/etc/systemd/system/ollama.service.d/override.conf - ✅ Додано GPU environment variables:
OLLAMA_NUM_GPU=1OLLAMA_GPU_LAYERS=35CUDA_VISIBLE_DEVICES=0OLLAMA_KEEP_ALIVE=24h
- ✅ Перезапущено Ollama service
- ✅ Модель qwen3:8b завантажена на GPU (100% GPU)
- ✅ Всі 37 шарів моделі на GPU
📊 Очікувані результати
CPU навантаження:
- До: 85.3% (Ollama: 1583% CPU)
- Після: Очікується 40-50% під час активної роботи
- Ollama CPU: 8.5% (замість 1583%!) ✅
Швидкість інференсу:
- До: Повільно (CPU)
- Після: +200-300% швидше (GPU) ✅
✅ Перевірка
# Перевірити завантажені моделі
ollama ps
# Перевірити GPU використання
nvidia-smi
# Перевірити Ollama процеси
ps aux | grep ollama
# Протестувати швидкість
time ollama run qwen3:8b "test"
🎯 Висновок
✅ GPU acceleration успішно увімкнено!
- Модель qwen3:8b працює на GPU (100% GPU)
- Всі 37 шарів моделі на GPU
- CPU навантаження Ollama знизилося з 1583% до 8.5%
- GPU memory використовується: 5600 MiB для Ollama
CPU навантаження має знизитися з 85.3% до 40-50% під час активної роботи з моделлю!
Last Updated: 2025-01-27
Status: ✅ Успішно виконано! GPU acceleration працює!