Files
microdao-daarion/NODE1-GPU-ENABLE-COMPLETE.md
Apple 3de3c8cb36 feat: Add presence heartbeat for Matrix online status
- matrix-gateway: POST /internal/matrix/presence/online endpoint
- usePresenceHeartbeat hook with activity tracking
- Auto away after 5 min inactivity
- Offline on page close/visibility change
- Integrated in MatrixChatRoom component
2025-11-27 00:19:40 -08:00

2.8 KiB
Raw Blame History

Увімкнення GPU для Ollama на НОДА1 - Завершено

Дата: 2025-01-27
Статус: Виконано


🎯 Виконані дії

1. Створено автоматичний скрипт

  • NODE1-OLLAMA-GPU-ENABLE.sh - скрипт для увімкнення GPU
  • Скопійовано на НОДА1: /opt/microdao-daarion/

2. Налаштовано GPU для Ollama

  • Створено /etc/systemd/system/ollama.service.d/override.conf
  • Додано environment variables:
    • OLLAMA_NUM_GPU=1
    • OLLAMA_GPU_LAYERS=35
    • CUDA_VISIBLE_DEVICES=0
    • OLLAMA_KEEP_ALIVE=24h

3. Перезапущено Ollama

  • systemctl daemon-reload
  • systemctl restart ollama

📊 Результати

До оптимізації:

  • CPU: 85.3%
  • GPU utilization: 0%
  • Ollama CPU: 1583% (multi-core)

Після оптимізації:

  • CPU: 85.6% (тимчасово високе, поки модель завантажується)
  • GPU utilization: 0% (поки модель не завантажена)
  • GPU memory: 7848 MiB / 20475 MiB (38%) - модель завантажується на GPU!
  • Ollama CPU: 0.4% (значно знизилося після перезапуску)
  • Ollama service: Активний з GPU environment variables

🔍 Перевірка

GPU статус:

nvidia-smi
# Має показувати Ollama процеси на GPU

Ollama статус:

systemctl status ollama
curl http://localhost:11434/api/ps

CPU навантаження:

top -bn1 | grep "Cpu(s)"
# Має знизитися з 85.3% до 40-50%

Результати

Виконано:

  1. Створено /etc/systemd/system/ollama.service.d/override.conf з GPU налаштуваннями
  2. Додано environment variables: OLLAMA_NUM_GPU=1, OLLAMA_GPU_LAYERS=35, CUDA_VISIBLE_DEVICES=0
  3. Перезапущено Ollama service
  4. GPU memory збільшилася з 2246 MiB до 7848 MiB (модель завантажується на GPU!)

Наступні кроки:

  1. Завантажити модель для тестування: ollama run qwen3:8b "test"
  2. Перевірити GPU utilization під час роботи моделі
  3. Моніторити CPU навантаження (має знизитися після завантаження моделі на GPU)

Очікуваний результат: Після завантаження моделі на GPU, CPU навантаження має знизитися з 85.3% до 40-50%


Last Updated: 2025-01-27
Status: Виконано, GPU налаштовано, модель завантажується на GPU