Some checks failed
Build and Deploy Docs / build-and-deploy (push) Has been cancelled
- Created logs/ structure (sessions, operations, incidents) - Added session-start/log/end scripts - Installed Git hooks for auto-logging commits/pushes - Added shell integration for zsh - Created CHANGELOG.md - Documented today's session (2026-01-10)
122 lines
3.2 KiB
Markdown
122 lines
3.2 KiB
Markdown
# ✅ Успішно увімкнено GPU для Ollama на НОДА1!
|
||
|
||
**Дата:** 2025-01-27
|
||
**Статус:** ✅ **УСПІШНО!** GPU acceleration працює!
|
||
|
||
---
|
||
|
||
## 🎉 Результати
|
||
|
||
### ✅ GPU Acceleration працює!
|
||
|
||
**Перевірка:**
|
||
```bash
|
||
ollama ps
|
||
# NAME ID SIZE PROCESSOR CONTEXT UNTIL
|
||
# qwen3:8b 500a1f067a9f 6.0 GB 100% GPU 4096 24 hours from now
|
||
```
|
||
|
||
**✅ Модель qwen3:8b завантажена на GPU (100% GPU)!**
|
||
|
||
### 📊 GPU використання
|
||
|
||
**До оптимізації:**
|
||
- GPU memory: 2246 MiB (Python процес)
|
||
- GPU utilization: 0%
|
||
- Ollama на CPU: 1583% CPU
|
||
|
||
**Після оптимізації:**
|
||
- ✅ GPU memory: **7848 MiB** (Ollama: 5600 MiB + Python: 2240 MiB)
|
||
- ✅ GPU utilization: 0% (idle, але модель на GPU)
|
||
- ✅ Ollama runner: 8.5% CPU (замість 1583%!)
|
||
- ✅ **37/37 шарів моделі на GPU** (згідно з логами)
|
||
|
||
### 📝 Логи підтверджують GPU:
|
||
|
||
```
|
||
time=2025-11-23T11:59:21.521+01:00 level=INFO source=ggml.go:482 msg="offloading 36 repeating layers to GPU"
|
||
time=2025-11-23T11:59:21.521+01:00 level=INFO source=ggml.go:489 msg="offloading output layer to GPU"
|
||
time=2025-11-23T11:59:21.521+01:00 level=INFO source=ggml.go:494 msg="offloaded 37/37 layers to GPU"
|
||
```
|
||
|
||
**✅ Всі 37 шарів моделі qwen3:8b завантажені на GPU!**
|
||
|
||
---
|
||
|
||
## 🔧 Виконані дії
|
||
|
||
1. ✅ Створено `/etc/systemd/system/ollama.service.d/override.conf`
|
||
2. ✅ Додано GPU environment variables:
|
||
- `OLLAMA_NUM_GPU=1`
|
||
- `OLLAMA_GPU_LAYERS=35`
|
||
- `CUDA_VISIBLE_DEVICES=0`
|
||
- `OLLAMA_KEEP_ALIVE=24h`
|
||
3. ✅ Перезапущено Ollama service
|
||
4. ✅ Модель qwen3:8b завантажена на GPU (100% GPU)
|
||
5. ✅ Всі 37 шарів моделі на GPU
|
||
|
||
---
|
||
|
||
## 📊 Очікувані результати
|
||
|
||
### CPU навантаження:
|
||
- **До:** 85.3% (Ollama: 1583% CPU)
|
||
- **Після:** Очікується 40-50% під час активної роботи
|
||
- **Ollama CPU:** 8.5% (замість 1583%!) ✅
|
||
|
||
### Швидкість інференсу:
|
||
- **До:** Повільно (CPU)
|
||
- **Після:** +200-300% швидше (GPU) ✅
|
||
|
||
---
|
||
|
||
## ✅ Перевірка
|
||
|
||
```bash
|
||
# Перевірити завантажені моделі
|
||
ollama ps
|
||
|
||
# Перевірити GPU використання
|
||
nvidia-smi
|
||
|
||
# Перевірити Ollama процеси
|
||
ps aux | grep ollama
|
||
|
||
# Протестувати швидкість
|
||
time ollama run qwen3:8b "test"
|
||
```
|
||
|
||
---
|
||
|
||
## 🎯 Висновок
|
||
|
||
**✅ GPU acceleration успішно увімкнено!**
|
||
|
||
- Модель qwen3:8b працює на GPU (100% GPU)
|
||
- Всі 37 шарів моделі на GPU
|
||
- CPU навантаження Ollama знизилося з 1583% до 8.5%
|
||
- GPU memory використовується: 5600 MiB для Ollama
|
||
|
||
**CPU навантаження має знизитися з 85.3% до 40-50% під час активної роботи з моделлю!**
|
||
|
||
---
|
||
|
||
**Last Updated:** 2025-01-27
|
||
**Status:** ✅ Успішно виконано! GPU acceleration працює!
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|