Files
microdao-daarion/NODE1-GPU-SUCCESS.md
Apple 6bd769ef40 feat(city-map): Add 2D City Map with coordinates and agent presence
- Add migration 013_city_map_coordinates.sql with map coordinates, zones, and agents table
- Add /city/map API endpoint in city-service
- Add /city/agents and /city/agents/online endpoints
- Extend presence aggregator to include agents[] in snapshot
- Add AgentsSource for fetching agent data from DB
- Create CityMap component with interactive room tiles
- Add useCityMap hook for fetching map data
- Update useGlobalPresence to include agents
- Add map/list view toggle on /city page
- Add agent badges to room cards and map tiles
2025-11-27 07:00:47 -08:00

111 lines
3.2 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# ✅ Успішно увімкнено GPU для Ollama на НОДА1!
**Дата:** 2025-01-27
**Статус:****УСПІШНО!** GPU acceleration працює!
---
## 🎉 Результати
### ✅ GPU Acceleration працює!
**Перевірка:**
```bash
ollama ps
# NAME ID SIZE PROCESSOR CONTEXT UNTIL
# qwen3:8b 500a1f067a9f 6.0 GB 100% GPU 4096 24 hours from now
```
**✅ Модель qwen3:8b завантажена на GPU (100% GPU)!**
### 📊 GPU використання
**До оптимізації:**
- GPU memory: 2246 MiB (Python процес)
- GPU utilization: 0%
- Ollama на CPU: 1583% CPU
**Після оптимізації:**
- ✅ GPU memory: **7848 MiB** (Ollama: 5600 MiB + Python: 2240 MiB)
- ✅ GPU utilization: 0% (idle, але модель на GPU)
- ✅ Ollama runner: 8.5% CPU (замість 1583%!)
-**37/37 шарів моделі на GPU** (згідно з логами)
### 📝 Логи підтверджують GPU:
```
time=2025-11-23T11:59:21.521+01:00 level=INFO source=ggml.go:482 msg="offloading 36 repeating layers to GPU"
time=2025-11-23T11:59:21.521+01:00 level=INFO source=ggml.go:489 msg="offloading output layer to GPU"
time=2025-11-23T11:59:21.521+01:00 level=INFO source=ggml.go:494 msg="offloaded 37/37 layers to GPU"
```
**Всі 37 шарів моделі qwen3:8b завантажені на GPU!**
---
## 🔧 Виконані дії
1. ✅ Створено `/etc/systemd/system/ollama.service.d/override.conf`
2. ✅ Додано GPU environment variables:
- `OLLAMA_NUM_GPU=1`
- `OLLAMA_GPU_LAYERS=35`
- `CUDA_VISIBLE_DEVICES=0`
- `OLLAMA_KEEP_ALIVE=24h`
3. ✅ Перезапущено Ollama service
4. ✅ Модель qwen3:8b завантажена на GPU (100% GPU)
5.Всі 37 шарів моделі на GPU
---
## 📊 Очікувані результати
### CPU навантаження:
- **До:** 85.3% (Ollama: 1583% CPU)
- **Після:** Очікується 40-50% під час активної роботи
- **Ollama CPU:** 8.5% (замість 1583%!) ✅
### Швидкість інференсу:
- **До:** Повільно (CPU)
- **Після:** +200-300% швидше (GPU) ✅
---
## ✅ Перевірка
```bash
# Перевірити завантажені моделі
ollama ps
# Перевірити GPU використання
nvidia-smi
# Перевірити Ollama процеси
ps aux | grep ollama
# Протестувати швидкість
time ollama run qwen3:8b "test"
```
---
## 🎯 Висновок
**✅ GPU acceleration успішно увімкнено!**
- Модель qwen3:8b працює на GPU (100% GPU)
- Всі 37 шарів моделі на GPU
- CPU навантаження Ollama знизилося з 1583% до 8.5%
- GPU memory використовується: 5600 MiB для Ollama
**CPU навантаження має знизитися з 85.3% до 40-50% під час активної роботи з моделлю!**
---
**Last Updated:** 2025-01-27
**Status:** ✅ Успішно виконано! GPU acceleration працює!