Files

Build and Deploy Docs / build-and-deploy (push) Has been cancelled

Details

- Created logs/ structure (sessions, operations, incidents)
- Added session-start/log/end scripts
- Installed Git hooks for auto-logging commits/pushes
- Added shell integration for zsh
- Created CHANGELOG.md
- Documented today's session (2026-01-10)

2026-01-10 04:53:17 -08:00

3.2 KiB

Raw Permalink Blame History

✅ Успішно увімкнено GPU для Ollama на НОДА1!

Дата: 2025-01-27
Статус: ✅ УСПІШНО! GPU acceleration працює!

🎉 Результати

✅ GPU Acceleration працює!

Перевірка:

ollama ps
# NAME        ID              SIZE      PROCESSOR    CONTEXT    UNTIL             
# qwen3:8b    500a1f067a9f    6.0 GB    100% GPU     4096       24 hours from now

✅ Модель qwen3:8b завантажена на GPU (100% GPU)!

📊 GPU використання

До оптимізації:

GPU memory: 2246 MiB (Python процес)
GPU utilization: 0%
Ollama на CPU: 1583% CPU

Після оптимізації:

✅ GPU memory: 7848 MiB (Ollama: 5600 MiB + Python: 2240 MiB)
✅ GPU utilization: 0% (idle, але модель на GPU)
✅ Ollama runner: 8.5% CPU (замість 1583%!)
✅ 37/37 шарів моделі на GPU (згідно з логами)

📝 Логи підтверджують GPU:

time=2025-11-23T11:59:21.521+01:00 level=INFO source=ggml.go:482 msg="offloading 36 repeating layers to GPU"
time=2025-11-23T11:59:21.521+01:00 level=INFO source=ggml.go:489 msg="offloading output layer to GPU"
time=2025-11-23T11:59:21.521+01:00 level=INFO source=ggml.go:494 msg="offloaded 37/37 layers to GPU"

✅ Всі 37 шарів моделі qwen3:8b завантажені на GPU!

🔧 Виконані дії

✅ Створено /etc/systemd/system/ollama.service.d/override.conf
✅ Додано GPU environment variables:
- OLLAMA_NUM_GPU=1
- OLLAMA_GPU_LAYERS=35
- CUDA_VISIBLE_DEVICES=0
- OLLAMA_KEEP_ALIVE=24h
✅ Перезапущено Ollama service
✅ Модель qwen3:8b завантажена на GPU (100% GPU)
✅ Всі 37 шарів моделі на GPU

📊 Очікувані результати

CPU навантаження:

До: 85.3% (Ollama: 1583% CPU)
Після: Очікується 40-50% під час активної роботи
Ollama CPU: 8.5% (замість 1583%!) ✅

Швидкість інференсу:

До: Повільно (CPU)
Після: +200-300% швидше (GPU) ✅

✅ Перевірка

# Перевірити завантажені моделі
ollama ps

# Перевірити GPU використання
nvidia-smi

# Перевірити Ollama процеси
ps aux | grep ollama

# Протестувати швидкість
time ollama run qwen3:8b "test"

🎯 Висновок

✅ GPU acceleration успішно увімкнено!

Модель qwen3:8b працює на GPU (100% GPU)
Всі 37 шарів моделі на GPU
CPU навантаження Ollama знизилося з 1583% до 8.5%
GPU memory використовується: 5600 MiB для Ollama

CPU навантаження має знизитися з 85.3% до 40-50% під час активної роботи з моделлю!

Last Updated: 2025-01-27
Status: ✅ Успішно виконано! GPU acceleration працює!

3.2 KiB Raw Permalink Blame History Unescape Escape