2.90M

Презентация_Жайкбаев_В_В

1.

Институт радиоэлектроники и информатики
Кафедра телекоммуникаций
Выпускная квалификационная работа на тему:
Характеристики
моделей
искусственного
интеллекта
в
генерации изображений
Студент группы РИБО-04-22
Руководитель ВКР
Жайкбаев Владислав Владимирович
Кандидат технических наук, доцент
Смирнов А. В.
ВМЕСТЕ СОЗДАЁМ БУДУЩЕЕ

2.

Актуальность
Фотореализм генеративных моделей. DALL·E 3, Gemini, Grok,
Stable Diffusion создают изображения, практически неотличимые
от настоящих фотографий.
Уязвимость телевидения. Прямой эфир и большие объёмы
контента делают ТВ-индустрию мишенью для фейков и
дезинформации.
35%
средняя точность
распознавания ИИизображений человеком —
ниже случайного угадывания
12,5%
точность для
фотореалистичных портретов
(худшая серия эксперимента)
99,4%
точность лучшего
нейросетевого метода
обнаружения (DFDT) — по
данным исследований
Человек не справляется. Визуальная проверка ненадёжна —
необходимы автоматизированные нейросетевые методы
обнаружения.
ВМЕСТЕ СОЗДАЁМ БУДУЩЕЕ
2

3.

Цель и задачи ВКР
ЦЕЛЬ
Сформировать целостное понимание нейросетевых методов обнаружения синтетических изображений и
оценить их влияние на телевизионную индустрию.
1
Разобрать современные модели генерации
изображений (Grok, Seedream, Gemini, GPT
Image, DALL·E).
2
Выявить отличительные признаки
синтетических изображений в сравнении с
настоящими.
3
Сопоставить методы обнаружения по
точности, скорости и применимости в ТВиндустрии.
4
Разработать практические рекомендации для
телевизионной индустрии.
ВМЕСТЕ СОЗДАЁМ БУДУЩЕЕ
3

4.

Модели генерации ИИ-изображений
Таблица 1.1 — характеристики современных генеративных моделей
Модель
Разработчик
Архитектура
Ключевая особенность
DALL·E 3
OpenAI
Авторегр. трансформер + диффузия
Интеграция с GPT-4, точность по
тексту
Gemini / Imagen
Google
Мультимодальная диффузия
Единая система «текст +
изображение»
Imagen 4
Google
Диффузионная
Высокий фотореализм
xAI
Авторегрессивная
Генерация прямо в диалоге
Stability AI
Латентная диффузия
Открытый код, кастомизация
Black Forest Labs
Гибридная диффузия
Гиперреализм деталей
Grok
Stable Diffusion
Flux
ВМЕСТЕ СОЗДАЁМ БУДУЩЕЕ
4

5.

Нейросетевые методы обнаружения
Таблица 1.2 — точность, скорость и обобщающая способность
Метод
Точность
Скорость
Генерализация
CNN + FFT
93,3%
Быстрая
Умеренная
Vision Transformer (ViT)
96,3%
Средняя
Хорошая
DFDT
99,4%
Медленная
Отличная
Капсульные сети
94,1%
Средняя
Хорошая
Гибрид CNN-ViT
95,1%
Средняя
Очень хорошая
Вывод: DFDT даёт максимальную точность (99,4%), но гибрид CNN-ViT — лучший баланс точности, скорости и
обобщения для реальных задач ТВ.
ВМЕСТЕ СОЗДАЁМ БУДУЩЕЕ
5

6.

Сравнение существующих подходов
Таблица 1.3 — обобщённые группы методов обнаружения
Подход
Точность
Скорость
Развёртывание
Судебный (форензический) анализ
60–70%
чень высокая
Простое
Свёрточные сети (CNN)
85–93%
Высокая
Умеренное
Трансформеры
90–99%
Низкая
Сложное
Гибридные методы
92–96%
Средняя
Умеренное
Вывод: для телевидения оптимальны гибридные методы — они сочетают приемлемую точность, разумную
скорость и реалистичную сложность развёртывания.
ВМЕСТЕ СОЗДАЁМ БУДУЩЕЕ
6

7.

Инструменты и экономика внедрения ИИ
Генераторы изображений
DALL·E 3 OpenAI
Экономика ИИ в телевидении
Малые каналы ИИ-графика, монтаж и синтез дикторов
— качественный контент без больших команд
Gemini (Imagen 4) Google
Средние каналы автоматизация рутины и
Grok xAI
персонализация — больше эфира при том же бюджете
Seedream 5.0 Lite
Крупные каналы ИИ-аватары и вещание 24/7 снижают
издержки производства
GPT Image (gpt-image-1.5)
−10…30% потенциальное снижение затрат в ТВ и кино за
Stable Diffusion 3.5 Large
ВМЕСТЕ СОЗДАЁМ БУДУЩЕЕ
счёт генеративного ИИ
7

8.

Методика проведения экспериментов
Этап 1
Этап 2
Этап 3
Генерация
Подготовка слепого теста
Экспертная оценка
5 пар изображений (настоящее +
ИИ) по 5 тематикам: город, чат,
храм, селфи, телеведущий.
➜
Формирование пар «настоящее +
ИИ», рандомизация и
анонимизация источника
изображений.
➜
8 экспертов разного уровня
компетенции, 40 ответов — слепое
сравнение пар.
10
5
8
5
изображений
пар «настоящее + ИИ»
экспертов
тематик
ВМЕСТЕ СОЗДАЁМ БУДУЩЕЕ
8

9.

Результаты экспертного распознавания
Таблица 2.7 — точность экспертов по сериям экспериментов
60
50,0%
35%
50,0%
50
средняя точность экспертов (14 из 40) —
ниже случайного угадывания (50%)
37,5%
40
30
25,0%
20
12,5%
С1 — Европейский городок (DALL·E 3)
С2 — Discord-чат (GPT Image)
С3 — Японский храм (Gemini Imagen)
С4 — Селфи у Белого дома (Seedream)
С5 — Телеведущий (Grok)
10
0
С1
ВМЕСТЕ СОЗДАЁМ БУДУЩЕЕ
С2
С3
С4
С5
9

10.

ИИ в телевидении: мировая практика
Как генеративный ИИ уже меняет телеиндустрию
Первый канал · Россия
ИИ уже в эфире: анонсированы
проекты с ИИ-воссозданием
образов артистов. При этом К.
Эрнст подчёркивает: будущее — за
человеческим талантом, а не за
ИИ.
CNN · США
Расследование CNN: сеть
синтетических «ведущих» в
кампаниях дезинформации.
Зрители не отличают ИИ-дикторов
от настоящих — наглядно, как
легко обмануть массы.
Xinhua · MBN · Азия
Китай (Xinhua, с 2018) и Южная
Корея (MBN, 2020) запустили ИИаватаров реальных ведущих. Они
ведут новости 24/7, снижая
издержки производства.
ИИ-ведущие и синтетический контент уже выходят в эфир — отличить их всё труднее, что повышает риск
дезинформации массовой аудитории.
Источники: Первый канал (1tv.ru) · CNN Business · NPR (Xinhua) · Korea JoongAng Daily (MBN)
ВМЕСТЕ СОЗДАЁМ БУДУЩЕЕ
10

11.

Влияние компетенции эксперта
Рисунок — зависимость точности распознавания от уровня эксперта
90
80%
80
70
60%
60
Разрыв в 8 раз
50
Точность напрямую зависит от опыта
и компетенции эксперта: от 80% у
профессионалов до 10% у новичков.
Это подтверждает ненадёжность
ручной проверки.
40
30
20%
20
10%
10
0
Высокий
ВМЕСТЕ СОЗДАЁМ БУДУЩЕЕ
Средний
Удовлетвор.
Низкий
11

12.

Примеры изображений: настоящее или ИИ?
Приложение — пары «оригинал / сгенерировано нейросетью»
Телеведущий (Grok)
НАСТОЯЩЕЕ
ИИ-ГЕНЕРАЦИЯ
Селфи у Белого дома (Seedream)
НАСТОЯЩЕЕ
ВМЕСТЕ СОЗДАЁМ БУДУЩЕЕ
ИИ-ГЕНЕРАЦИЯ
12

13.

Выводы
1
Человек не справляется с распознаванием: средняя точность 35%, для портретов
12,5–25% — необходимы автоматизированные системы.
2
Точность обнаружения зависит от генеративной архитектуры — детекторы нужно
обучать на разнообразных данных.
3
Телевидение требует решений для прямого эфира и больших объёмов контента в
реальном времени.
4
Гибридные нейросетевые методы (CNN-ViT) обеспечивают лучший баланс точности
и применимости.
ВМЕСТЕ СОЗДАЁМ БУДУЩЕЕ
Прототип детектора
94,2%
точность · работа в
реальном времени ·
модульная архитектура
13

14.

Спасибо за внимание!
Жайкбаев Владислав Владимирович
Группа РИБО-04-22 · Руководитель: к.т.н., доцент Смирнов А. В.
ВМЕСТЕ СОЗДАЁМ БУДУЩЕЕ
Мос ква · 2026

English Русский Rules