Similar presentations:
мультимода
1. «Мультимодальные модели в ИИ»
Подготовили Князев Артём и Софи ТирсиГруппа: о-Э24/ВД-01
2. Мультимодальность
Часто используемые модальностиТекст
Изображения
Видео
Аудио
3. Одна модальность/Несколько модальностей
Мультимодальность даёт ИИболее полное понимание мира
Нейросеть 1: Ха-ха
При мономодальности
упускается контекст
Нейросеть 2: Котики и шляпы
4. Как работает мультимодальная модель?
Результат:Промт: кот на велосипеде
(a cat on a cycle)
Нейросеть – FLUX.2 [dev]
5. Этап 1: Отдельная обработка данных
пушистоемягкое
сидит на
металлическое
твёрдое
большое
два колеса
6. Этап 2: Объединение в общем пространстве
· [Вектор_из_изображения_кота] и[Вектор_слова_"кот"] находятся рядом.
· [Вектор_из_изображения_велосипеда] и
[Вектор_слова_"велосипед"] находятся рядом.
· Сложный паттерн
[Векторы_отношений_на_картинке] (кот сидит
на) близок к паттерну
[Векторы_отношений_в_тексте].
7. Этап 3:
Кот is typing…8. Этап 4: Генерация ответа или декодирование
Если задача — сгенерироватькартинку по тексту, то работает
обратный процесс: текстовые векторы
направляют диффузионную модель,
чтобы она создала пиксели, чьи
векторы будут близки к векторам
текста.
Я кот на велосипеде и горжусь этим
9. Примеры мультимодальных моделей
• CLIP (OpenAI) – связь текста и изображения• DALL-E, Stable Diffusion, Midjourney – генераторы текстов в
изображения
• GPT-4 с мультимодальностью (GPT-4V, GPT-4o) – универсальный
ассистент
10. Сферы применения мультимодальных моделей:
• Здравоохранение и медицина• Образование и наука
• Творчество и дизайн
• Автономные системы и робототехника
• Вопросы гуманизма
11. Перспективы развития и вызовы:
Развитие мультимодального ИИ движется по несколькимключевым направлениям:
• Создание более компактных и оптимизированных моделей
• Превращение пассивных моделей в активных автономных
агентов.
• Создание персональных ИИ-компаньонов, которые глубоко знают
контекст, предпочтения и цели пользователя.
12. Перспективы развития и вызовы:
Несмотря на впечатляющий прогресс, путь развитиямультимодального ИИ сопряжен с серьёзными вызовами:
• Вычислительная сложность и стоимость
• Качество и смещение данных
• Этические риски и безопасность
• Интерпретируемость