«Мультимодальные модели в ИИ»
Мультимодальность
Одна модальность/Несколько модальностей
Как работает мультимодальная модель?
Этап 1: Отдельная обработка данных
Этап 2: Объединение в общем пространстве
Этап 3:
Этап 4: Генерация ответа или декодирование
Примеры мультимодальных моделей
Сферы применения мультимодальных моделей:
Перспективы развития и вызовы:
Перспективы развития и вызовы:
4.98M

мультимода

1. «Мультимодальные модели в ИИ»

Подготовили Князев Артём и Софи Тирси
Группа: о-Э24/ВД-01

2. Мультимодальность

Часто используемые модальности
Текст
Изображения
Видео
Аудио

3. Одна модальность/Несколько модальностей

Мультимодальность даёт ИИ
более полное понимание мира
Нейросеть 1: Ха-ха
При мономодальности
упускается контекст
Нейросеть 2: Котики и шляпы

4. Как работает мультимодальная модель?

Результат:
Промт: кот на велосипеде
(a cat on a cycle)
Нейросеть – FLUX.2 [dev]

5. Этап 1: Отдельная обработка данных

пушистое
мягкое
сидит на
металлическое
твёрдое
большое
два колеса

6. Этап 2: Объединение в общем пространстве

· [Вектор_из_изображения_кота] и
[Вектор_слова_"кот"] находятся рядом.
· [Вектор_из_изображения_велосипеда] и
[Вектор_слова_"велосипед"] находятся рядом.
· Сложный паттерн
[Векторы_отношений_на_картинке] (кот сидит
на) близок к паттерну
[Векторы_отношений_в_тексте].

7. Этап 3:

Кот is typing…

8. Этап 4: Генерация ответа или декодирование

Если задача — сгенерировать
картинку по тексту, то работает
обратный процесс: текстовые векторы
направляют диффузионную модель,
чтобы она создала пиксели, чьи
векторы будут близки к векторам
текста.
Я кот на велосипеде и горжусь этим

9. Примеры мультимодальных моделей

• CLIP (OpenAI) – связь текста и изображения
• DALL-E, Stable Diffusion, Midjourney – генераторы текстов в
изображения
• GPT-4 с мультимодальностью (GPT-4V, GPT-4o) – универсальный
ассистент

10. Сферы применения мультимодальных моделей:

• Здравоохранение и медицина
• Образование и наука
• Творчество и дизайн
• Автономные системы и робототехника
• Вопросы гуманизма

11. Перспективы развития и вызовы:

Развитие мультимодального ИИ движется по нескольким
ключевым направлениям:
• Создание более компактных и оптимизированных моделей
• Превращение пассивных моделей в активных автономных
агентов.
• Создание персональных ИИ-компаньонов, которые глубоко знают
контекст, предпочтения и цели пользователя.

12. Перспективы развития и вызовы:

Несмотря на впечатляющий прогресс, путь развития
мультимодального ИИ сопряжен с серьёзными вызовами:
• Вычислительная сложность и стоимость
• Качество и смещение данных
• Этические риски и безопасность
• Интерпретируемость
English     Русский Rules