Files
microdao-daarion/NODE1-GPU-SUCCESS.md
Apple 3de3c8cb36 feat: Add presence heartbeat for Matrix online status
- matrix-gateway: POST /internal/matrix/presence/online endpoint
- usePresenceHeartbeat hook with activity tracking
- Auto away after 5 min inactivity
- Offline on page close/visibility change
- Integrated in MatrixChatRoom component
2025-11-27 00:19:40 -08:00

3.2 KiB
Raw Blame History

Успішно увімкнено GPU для Ollama на НОДА1!

Дата: 2025-01-27
Статус: УСПІШНО! GPU acceleration працює!


🎉 Результати

GPU Acceleration працює!

Перевірка:

ollama ps
# NAME        ID              SIZE      PROCESSOR    CONTEXT    UNTIL             
# qwen3:8b    500a1f067a9f    6.0 GB    100% GPU     4096       24 hours from now

Модель qwen3:8b завантажена на GPU (100% GPU)!

📊 GPU використання

До оптимізації:

  • GPU memory: 2246 MiB (Python процес)
  • GPU utilization: 0%
  • Ollama на CPU: 1583% CPU

Після оптимізації:

  • GPU memory: 7848 MiB (Ollama: 5600 MiB + Python: 2240 MiB)
  • GPU utilization: 0% (idle, але модель на GPU)
  • Ollama runner: 8.5% CPU (замість 1583%!)
  • 37/37 шарів моделі на GPU (згідно з логами)

📝 Логи підтверджують GPU:

time=2025-11-23T11:59:21.521+01:00 level=INFO source=ggml.go:482 msg="offloading 36 repeating layers to GPU"
time=2025-11-23T11:59:21.521+01:00 level=INFO source=ggml.go:489 msg="offloading output layer to GPU"
time=2025-11-23T11:59:21.521+01:00 level=INFO source=ggml.go:494 msg="offloaded 37/37 layers to GPU"

Всі 37 шарів моделі qwen3:8b завантажені на GPU!


🔧 Виконані дії

  1. Створено /etc/systemd/system/ollama.service.d/override.conf
  2. Додано GPU environment variables:
    • OLLAMA_NUM_GPU=1
    • OLLAMA_GPU_LAYERS=35
    • CUDA_VISIBLE_DEVICES=0
    • OLLAMA_KEEP_ALIVE=24h
  3. Перезапущено Ollama service
  4. Модель qwen3:8b завантажена на GPU (100% GPU)
  5. Всі 37 шарів моделі на GPU

📊 Очікувані результати

CPU навантаження:

  • До: 85.3% (Ollama: 1583% CPU)
  • Після: Очікується 40-50% під час активної роботи
  • Ollama CPU: 8.5% (замість 1583%!)

Швидкість інференсу:

  • До: Повільно (CPU)
  • Після: +200-300% швидше (GPU)

Перевірка

# Перевірити завантажені моделі
ollama ps

# Перевірити GPU використання
nvidia-smi

# Перевірити Ollama процеси
ps aux | grep ollama

# Протестувати швидкість
time ollama run qwen3:8b "test"

🎯 Висновок

GPU acceleration успішно увімкнено!

  • Модель qwen3:8b працює на GPU (100% GPU)
  • Всі 37 шарів моделі на GPU
  • CPU навантаження Ollama знизилося з 1583% до 8.5%
  • GPU memory використовується: 5600 MiB для Ollama

CPU навантаження має знизитися з 85.3% до 40-50% під час активної роботи з моделлю!


Last Updated: 2025-01-27
Status: Успішно виконано! GPU acceleration працює!