Files
microdao-daarion/NODE1-GPU-SUCCESS.md
Apple 744c149300
Some checks failed
Build and Deploy Docs / build-and-deploy (push) Has been cancelled
Add automated session logging system
- Created logs/ structure (sessions, operations, incidents)
- Added session-start/log/end scripts
- Installed Git hooks for auto-logging commits/pushes
- Added shell integration for zsh
- Created CHANGELOG.md
- Documented today's session (2026-01-10)
2026-01-10 04:53:17 -08:00

3.2 KiB
Raw Permalink Blame History

Успішно увімкнено GPU для Ollama на НОДА1!

Дата: 2025-01-27
Статус: УСПІШНО! GPU acceleration працює!


🎉 Результати

GPU Acceleration працює!

Перевірка:

ollama ps
# NAME        ID              SIZE      PROCESSOR    CONTEXT    UNTIL             
# qwen3:8b    500a1f067a9f    6.0 GB    100% GPU     4096       24 hours from now

Модель qwen3:8b завантажена на GPU (100% GPU)!

📊 GPU використання

До оптимізації:

  • GPU memory: 2246 MiB (Python процес)
  • GPU utilization: 0%
  • Ollama на CPU: 1583% CPU

Після оптимізації:

  • GPU memory: 7848 MiB (Ollama: 5600 MiB + Python: 2240 MiB)
  • GPU utilization: 0% (idle, але модель на GPU)
  • Ollama runner: 8.5% CPU (замість 1583%!)
  • 37/37 шарів моделі на GPU (згідно з логами)

📝 Логи підтверджують GPU:

time=2025-11-23T11:59:21.521+01:00 level=INFO source=ggml.go:482 msg="offloading 36 repeating layers to GPU"
time=2025-11-23T11:59:21.521+01:00 level=INFO source=ggml.go:489 msg="offloading output layer to GPU"
time=2025-11-23T11:59:21.521+01:00 level=INFO source=ggml.go:494 msg="offloaded 37/37 layers to GPU"

Всі 37 шарів моделі qwen3:8b завантажені на GPU!


🔧 Виконані дії

  1. Створено /etc/systemd/system/ollama.service.d/override.conf
  2. Додано GPU environment variables:
    • OLLAMA_NUM_GPU=1
    • OLLAMA_GPU_LAYERS=35
    • CUDA_VISIBLE_DEVICES=0
    • OLLAMA_KEEP_ALIVE=24h
  3. Перезапущено Ollama service
  4. Модель qwen3:8b завантажена на GPU (100% GPU)
  5. Всі 37 шарів моделі на GPU

📊 Очікувані результати

CPU навантаження:

  • До: 85.3% (Ollama: 1583% CPU)
  • Після: Очікується 40-50% під час активної роботи
  • Ollama CPU: 8.5% (замість 1583%!)

Швидкість інференсу:

  • До: Повільно (CPU)
  • Після: +200-300% швидше (GPU)

Перевірка

# Перевірити завантажені моделі
ollama ps

# Перевірити GPU використання
nvidia-smi

# Перевірити Ollama процеси
ps aux | grep ollama

# Протестувати швидкість
time ollama run qwen3:8b "test"

🎯 Висновок

GPU acceleration успішно увімкнено!

  • Модель qwen3:8b працює на GPU (100% GPU)
  • Всі 37 шарів моделі на GPU
  • CPU навантаження Ollama знизилося з 1583% до 8.5%
  • GPU memory використовується: 5600 MiB для Ollama

CPU навантаження має знизитися з 85.3% до 40-50% під час активної роботи з моделлю!


Last Updated: 2025-01-27
Status: Успішно виконано! GPU acceleration працює!