- matrix-gateway: POST /internal/matrix/presence/online endpoint - usePresenceHeartbeat hook with activity tracking - Auto away after 5 min inactivity - Offline on page close/visibility change - Integrated in MatrixChatRoom component
86 lines
2.8 KiB
Markdown
86 lines
2.8 KiB
Markdown
# ✅ Увімкнення GPU для Ollama на НОДА1 - Завершено
|
||
|
||
**Дата:** 2025-01-27
|
||
**Статус:** ✅ Виконано
|
||
|
||
---
|
||
|
||
## 🎯 Виконані дії
|
||
|
||
### 1. Створено автоматичний скрипт
|
||
- ✅ `NODE1-OLLAMA-GPU-ENABLE.sh` - скрипт для увімкнення GPU
|
||
- ✅ Скопійовано на НОДА1: `/opt/microdao-daarion/`
|
||
|
||
### 2. Налаштовано GPU для Ollama
|
||
- ✅ Створено `/etc/systemd/system/ollama.service.d/override.conf`
|
||
- ✅ Додано environment variables:
|
||
- `OLLAMA_NUM_GPU=1`
|
||
- `OLLAMA_GPU_LAYERS=35`
|
||
- `CUDA_VISIBLE_DEVICES=0`
|
||
- `OLLAMA_KEEP_ALIVE=24h`
|
||
|
||
### 3. Перезапущено Ollama
|
||
- ✅ `systemctl daemon-reload`
|
||
- ✅ `systemctl restart ollama`
|
||
|
||
---
|
||
|
||
## 📊 Результати
|
||
|
||
### До оптимізації:
|
||
- **CPU:** 85.3%
|
||
- **GPU utilization:** 0%
|
||
- **Ollama CPU:** 1583% (multi-core)
|
||
|
||
### Після оптимізації:
|
||
- **CPU:** 85.6% (тимчасово високе, поки модель завантажується)
|
||
- **GPU utilization:** 0% (поки модель не завантажена)
|
||
- **GPU memory:** 7848 MiB / 20475 MiB (38%) - модель завантажується на GPU! ✅
|
||
- **Ollama CPU:** 0.4% (значно знизилося після перезапуску)
|
||
- **Ollama service:** ✅ Активний з GPU environment variables
|
||
|
||
---
|
||
|
||
## 🔍 Перевірка
|
||
|
||
### GPU статус:
|
||
```bash
|
||
nvidia-smi
|
||
# Має показувати Ollama процеси на GPU
|
||
```
|
||
|
||
### Ollama статус:
|
||
```bash
|
||
systemctl status ollama
|
||
curl http://localhost:11434/api/ps
|
||
```
|
||
|
||
### CPU навантаження:
|
||
```bash
|
||
top -bn1 | grep "Cpu(s)"
|
||
# Має знизитися з 85.3% до 40-50%
|
||
```
|
||
|
||
---
|
||
|
||
## ✅ Результати
|
||
|
||
### Виконано:
|
||
1. ✅ Створено `/etc/systemd/system/ollama.service.d/override.conf` з GPU налаштуваннями
|
||
2. ✅ Додано environment variables: `OLLAMA_NUM_GPU=1`, `OLLAMA_GPU_LAYERS=35`, `CUDA_VISIBLE_DEVICES=0`
|
||
3. ✅ Перезапущено Ollama service
|
||
4. ✅ GPU memory збільшилася з 2246 MiB до 7848 MiB (модель завантажується на GPU!)
|
||
|
||
### Наступні кроки:
|
||
1. Завантажити модель для тестування: `ollama run qwen3:8b "test"`
|
||
2. Перевірити GPU utilization під час роботи моделі
|
||
3. Моніторити CPU навантаження (має знизитися після завантаження моделі на GPU)
|
||
|
||
**Очікуваний результат:** Після завантаження моделі на GPU, CPU навантаження має знизитися з 85.3% до 40-50%
|
||
|
||
---
|
||
|
||
**Last Updated:** 2025-01-27
|
||
**Status:** ✅ Виконано, GPU налаштовано, модель завантажується на GPU
|
||
|