Similar presentations:
GPU (1)
1.
Подготовка инфраструктурыдля работы моделей
машинного обучения с
аппаратным ускорением
(GPU)
Опекунова Анна
Отдел технической экспертизы систем BPM
Управление технической экспертизы процессов кредитования и CRM
2.
Зачем нужны GPUПримеры использования:
• Модели машинного обучения, чат-боты
• Работа с медиаданными, GPT
• Парсинг и поиск вхождений в pdf-документах
Главное преимущество GPU - БЫСТРОДЕЙСТВИЕ
3.
Роль сопровождения и какие задачиперед нами ставят
• Доступность GPU в контейнере
• Освоение инструментов k8s для управления GPU
• Шеринг GPU между конкурентными процессами и пользователями
• Мониторинг
4.
K8S cluster with GPUУстановка
утилит tar make gcc gcc-toolset-11-gcc kernel-uek-devel
container toolkit
обязательное переключение версии компилятора
драйвера CUDA
Настройка containerd и проверка conf.toml
nvidia-ctk runtime configure --runtime=containerd
Проверка доступности видеокарты из контейнера
5.
Multi-instance GPU (MIG)Преимущества слайсинга
+ изоляция на уровне железа
+ нет проблем с OOM
+ простая настройка
Минусы
- работает на ограниченном количестве видеокарт
- видеокарту можно разделить максимум на семь партиций
6.
MIGДля конфигурирования MIG GPU-оператор использует
mig-manager
nvidia-device-plugin
Активация «разбивки» карты:
kubectl label node <node name> nvidia.com/mig.config=all-1g.5gb –overwrite
7.
MonitoringЗадачи из практики
Картинки из графаны
8.
МатериалыСсылка на конфлюинс с инструкциями