# ✅ Успішно увімкнено GPU для Ollama на НОДА1! **Дата:** 2025-01-27 **Статус:** ✅ **УСПІШНО!** GPU acceleration працює! --- ## 🎉 Результати ### ✅ GPU Acceleration працює! **Перевірка:** ```bash ollama ps # NAME ID SIZE PROCESSOR CONTEXT UNTIL # qwen3:8b 500a1f067a9f 6.0 GB 100% GPU 4096 24 hours from now ``` **✅ Модель qwen3:8b завантажена на GPU (100% GPU)!** ### 📊 GPU використання **До оптимізації:** - GPU memory: 2246 MiB (Python процес) - GPU utilization: 0% - Ollama на CPU: 1583% CPU **Після оптимізації:** - ✅ GPU memory: **7848 MiB** (Ollama: 5600 MiB + Python: 2240 MiB) - ✅ GPU utilization: 0% (idle, але модель на GPU) - ✅ Ollama runner: 8.5% CPU (замість 1583%!) - ✅ **37/37 шарів моделі на GPU** (згідно з логами) ### 📝 Логи підтверджують GPU: ``` time=2025-11-23T11:59:21.521+01:00 level=INFO source=ggml.go:482 msg="offloading 36 repeating layers to GPU" time=2025-11-23T11:59:21.521+01:00 level=INFO source=ggml.go:489 msg="offloading output layer to GPU" time=2025-11-23T11:59:21.521+01:00 level=INFO source=ggml.go:494 msg="offloaded 37/37 layers to GPU" ``` **✅ Всі 37 шарів моделі qwen3:8b завантажені на GPU!** --- ## 🔧 Виконані дії 1. ✅ Створено `/etc/systemd/system/ollama.service.d/override.conf` 2. ✅ Додано GPU environment variables: - `OLLAMA_NUM_GPU=1` - `OLLAMA_GPU_LAYERS=35` - `CUDA_VISIBLE_DEVICES=0` - `OLLAMA_KEEP_ALIVE=24h` 3. ✅ Перезапущено Ollama service 4. ✅ Модель qwen3:8b завантажена на GPU (100% GPU) 5. ✅ Всі 37 шарів моделі на GPU --- ## 📊 Очікувані результати ### CPU навантаження: - **До:** 85.3% (Ollama: 1583% CPU) - **Після:** Очікується 40-50% під час активної роботи - **Ollama CPU:** 8.5% (замість 1583%!) ✅ ### Швидкість інференсу: - **До:** Повільно (CPU) - **Після:** +200-300% швидше (GPU) ✅ --- ## ✅ Перевірка ```bash # Перевірити завантажені моделі ollama ps # Перевірити GPU використання nvidia-smi # Перевірити Ollama процеси ps aux | grep ollama # Протестувати швидкість time ollama run qwen3:8b "test" ``` --- ## 🎯 Висновок **✅ GPU acceleration успішно увімкнено!** - Модель qwen3:8b працює на GPU (100% GPU) - Всі 37 шарів моделі на GPU - CPU навантаження Ollama знизилося з 1583% до 8.5% - GPU memory використовується: 5600 MiB для Ollama **CPU навантаження має знизитися з 85.3% до 40-50% під час активної роботи з моделлю!** --- **Last Updated:** 2025-01-27 **Status:** ✅ Успішно виконано! GPU acceleration працює!