Оценка и кластеризация сообщений с помощью больших языковых моделей

1. Оценка и кластеризация сообщений с помощью больших языковых моделей

ГБОУ ШКОЛА №1533 «ЛИТ»
Оценка и
кластеризация
сообщений с
помощью
больших языковых
моделей
ИСПОЛНИТЕЛИ: МЕЛЬНИКОВ АНДРЕЙ, ГЛЫБОВ АЛЕКС,
ПЬЯНОВ МАКСИМ 10.5
ЗАКАЗЧИК: ТКАЧЕНКО МАКСИМ
ДОЛЖНОСТЬ: CEO HUMANSIGNAL

2. Актуальность проекта

Растет поток текстовых данных в
интернете
Создаются комментарии от ботов
Анализировать эти тексты вручную
невозможно из-за объема

3. Автоматизация анализа текстов с использованием ИИ позволяет

Автоматизация анализа текстов с использованием
ИИ позволяет
УСКОРИТЬ ОБРАБОТКУ ЗАПРОСОВ
ВЫЯВИТЬ ТИПИЧНЫЕ ПРОБЛЕМЫ
ПРИНЯТЬ КЛЮЧЕВЫЕ РЕШЕНИЯ
УЛУЧШИТЬ КАЧЕСТВО ОБСЛУЖИВАНИЯ КЛИЕНТОВ

4. Целевая аудитория

Операторы
службы поддержки
Создатели контента
Маркетплейсы

5. Аналоги

* - Nomic Atlas предоставляет ограниченный
функционал при бесплатном тарифе
Аналоги
Название
Встроенный
сбор данных
Ручное
Интеграция с
создание
YouTube
кластеров
Описание
кластеров
Семантический
поиск по текстам
Кластеризация
отзывов
Цена
Наш проект
+
+
+
+
+
+
Бесплатно
Nomic Atlas
+
+
+
+
Бесплатно*
Looppanel
+
+
+
+
$30+/мес
MonkeyLearn
+
+
+
+
$300+/мес
+
+
+
$2000+/мес
+-
+
Freemium
Thematic
Reddit Comment
Analyzer

6. Теория. Введение

• Задача - представить тексты в компактной, информативной форме для анализа
• Ключевые методы:
• Эмбеддинги - векторное представление объектов, сохраняющее семантические/контекстные связи
между словами
• Кластеризация – автоматическое группирование похожих объектов
• Основные алгоритмы:
• t-SNE – понижение размерности эмбеддингов
• K-Means - кластеризация

7. Теория. t-SNE

• Параметры:
Перплексия – контролирует баланс локальная/глобальная структура
Скорость обучения (Learning Rate) – определяет размер шага, с которым модель обновляет свои параметры в процессе
обучения
• Сильные стороны
Отличное сохранение локальных структур/кластеров, устойчивость к шуму
• Недостатки
Не сохраняет расстояния между кластерами
Результаты недетерминированы
Требует подбора параметров
Только для визуализации (не для предобработки)

8. Теория. Эмбеддинги

• Отсутствие проблем one-hot encoding:
• Высокая размерность = размер словаря
• Разреженность (все нули, кроме одной 1)
• Отсутствие семантики (все векторы ортогональны)
• Ключевое свойство: Семантическая близость = Близость векторов
• "яблоко" ≈ "груша" (фрукты)
• "бегать" ≈ "ходить" (движение)
• "быстро" ≈ "медленно" (наречия)
• "король" - "мужчина" + "женщина" ≈ "королева" (векторная арифметика)

9. Теория. K-means

• TODO

10. Теория. Сравнение и применение

• Взаимосвязь
• Эмбеддинги часто являются входными данными для t-SNE и K-Means
• Когда что использовать?
• t-SNE – интуитивная визуализация многомерных данных
• K-means – разделение данных на заданное число ‘k’ групп для дальнейшего анализа
• Эмбеддинги – преобразование текстовых данных в числовые векторы, сохраняющие смысл

11. Технологии

Frontend
• HTML
• CSS
• Vue.js
Backend
• Python
• Django
• Google API
• OpenAI
• GigaChain
• Instructor
Кластеризация
• Scikit learn
• NumPy

12. Инструменты

LLM
Разработка
• Git
• Pytest
• GitHub Actions
• GitHub Projects
• Cursor
• PyCharm Community
• GigaChat
• DeepSeek
• Qwen
• OpenRouter

13. Функционал

Сбор обращений и жалоб клиентов
Импорт текстов из внешний источников
Визуализация текстов
Классификация текстов
Генерация описаний кластеров

14. Функционал

01
02
03
04
05
Сбор обращений
и жалоб
клиентов
Импорт текстов
из внешних
источников
Визуализация
текстов
Классификация
текстов
Генерация
описаний
кластеров

English Русский Rules