Similar presentations:
VideoMind_AI_Presentation
1. Свободный разум
СВОБОДНЫЙ РАЗУММы представляем наш проект VideoMind AI
Интеллектуальный анализ видео нового поколения
2. Технологии
ТЕХНОЛОГИИНейросети и AI: Google Gemini 2.0 Flash Ex, Google Gemini 2.5
Flash, OpenAI Whisper
Backend технологии: Node.js + Express, Python 3.8+, yt-dlp
,Whisper CLI
Frontend технологии: React 19, TypeScript, Vite, Tailwind CSS,
Lucide React
API и интеграции: Google Gemini API, Google Search Grounding,
OEmbed API
Библиотеки и инструменты: google/genai, react-markdown, cors,
dotenv, concurrently
Файловая система: JSON файлы, Git, npm, pip
3. Команда — Свободный разум
КОМАНДА — СВОБОДНЫЙРАЗУМ
Абдулкадыров Мухаммад Русланович
• Выпускник Яндекс Лицея (Python)
• Junior Python Developer
• Проекты: PyGame, Flask
Иблаев Абдул-Рахим Рустамович
• Выпускник Яндекс Лицея (с отличием)
• Языки: Go, Python
• 2 место — Республиканские соревнования (2022)
• 1 место — ProgIt ГГНТУ (2025)
4. Процесс разработки
ПРОЦЕСС РАЗРАБОТКИМы разработали *VideoMind AI* — платформу для глубокого анализа видео с помощью AI,
которая:- Анализирует видео через компьютерное зрение и NLP- Извлекает "ДНК успеха" из
коротких видео (Shorts/Reels/TikTok)- Генерирует "Паспорт стиля" автора в
структурированном JSON формате- Создает посекундные сценарии новых видео на основе
стиля автора- Поддерживает анализ через загрузку файлов или ссылки на
YouTube/Instagram/TikTok
Что сделали на стадии разработки. *Архитектура*: Разделили на frontend (React + Vite) и
backend (Node.js + Express) для масштабируемости2. *AI интеграция*: Используем Gemini
2.0/2.5 Flash с мультимодальными возможностями для анализа видео и текста
одновременно3. *Транскрипция*: Интегрировали Whisper для точной транскрипции речи,
что критично для анализа tone of voice4. *Анализ кадров*: Gemini анализирует ВСЕ кадры
последовательно (не только ключевые), что дает максимальную детализацию5.
*Структурированный вывод*: AI генерирует строго структурированный JSON с валидацией
для надежности
Почему именно так- *Gemini вместо других моделей*: Нативная поддержка видео/аудио
без предварительной обработки, высокая точность мультимодального анализа*Последовательный анализ кадров*: Ключевые кадры могут пропустить важные паттерны,
полный анализ дает 100% покрытие- *JSON формат*: Стандартизированный выход для
интеграции с другими инструментами и автоматизацией- *Whisper для транскрипции*:
Более точная транскрипция по сравнению с Gemini-встроенной, особенно для русского
языка- *Разделение frontend/backend*: Позволяет масштабировать, легко добавлять новые
API endpoints, независимое развертывание
5. Ключевые возможности
КЛЮЧЕВЫЕ ВОЗМОЖНОСТИСтандартный анализ видео: Базовый анализ загруженного видео или ссылки- Краткое
содержание- Глубокий анализ (объекты, люди, действия с таймкодами)- Извлечение
кода/технического текста- Анализ удаленных ссылок (YouTube/Instagram/TikTok) с
метаданными*Технологии*: Gemini 2.0 Flash, OEmbed API, Google Search Grounding.
Shorts DNA Analysis: Деконструкция коротких видео и извлечение "ДНК успеха" автораАнализ структуры видео (Hook → Setup → Main → Climax → CTA) с точными таймкодамиИзвлечение паттернов удержания внимания (крючки, клиффхэнгеры, открытые петли)Анализ Tone of Voice (архетип, настроение, формальность, сигнатурные фразы)- Анализ
скорости речи (WPM, темп, стиль пауз)- Визуальный стиль (монтаж, типы кадров, текст на
экране, типичные действия)- Правила генерации (8-15 конкретных правил для репликации
стиля)- Генерация интерактивного "Паспорта стиля" в JSON*Технологии*: Gemini 2.5 Flash,
Whisper (транскрипция), мультимодальный анализ
Генерация сценариев на основе Паспорта стиля: Создание посекундных сценариев новых
видео в стиле автора- Пользователь вводит только тему (например: "Обзор нового iPhone")Система генерирует посекундный сценарий с кадрами и текстом- Строгое соблюдение стиля
автора (инсайты из паспорта)- Визуальный контекст (описание что происходит в кадре через
компьютерное зрение)- Вывод: JSON с сегментами [00:00-00:05], [00:05-00:15] и
т.д.*Технологии*: Gemini 2.0 Flash, Паспорт стиля как промпт, валидация правил
Загрузка и обработка видео: Скачивание видео с платформ для локального анализаПоддержка YouTube, Instagram, TikTok- Извлечение метаданных (просмотры, лайки,
описание)- Автоматическая очистка временных файлов