Similar presentations:
ЦК Практика (Самойленко + Бойко)
1.
Экспертные оценки и отзывы PRO DA(Амаяма Авто) по программе
«PRO DA 2025»
Проект выполнили студенты Б9122-09.03.03пиу
Самойленко Олег и Бойко Галина
2.
Команда проектаСамойленко Олег, Бойко Галина, Б9122-09.03.03пиу
Галина занималась сбором информации (парсинг) + очистка
данных
Олег занимался применением моделей к датасету и анализом
результатов
иллюстрация
Самойленко Олег
иллюстрация
Бойко Галина
3.
Краткое описание проекта и его целейНе так давно в Россию в массовом порядке
начали ввозить ранее не встречающиеся
на наших дорогах автомобили из Китая.
Удивительно, но уже через год потребители
оценили китайское качество как
нормальное и авто из поднебесной заняли
более 50% рынка новых автомобилей в РФ.
Самое главное — автомобилей в Китае
выпускается много и они есть практически
на любой вкус, но Российский потребитель
с ними часто оказывается не знаком и не
понимает какой именно ему подходит.
Задачи проекта
Собрать и обработать данные
Оценить качество переведенных
отзывов
Сделать проверку влияния качества
переведенных отзывов на оценку
отзыва пользователями
4.
Анализ проблемыПроблема:
Дром, как хороший помощник, решил собрать и перевести
отзывы о новых и подержанных автомобилях из
поднебесной и наиболее ценные опубликовал в разделе
«Отзывы». Но имеет ли влияние качества перевода
зарубежного отзыва на оценку этого отзыва?
Инструменты:
• Python + Pandas + scipy + Matplotlib + Torch
• Supabase Postgres
• MonoTransQuest
• ChatGPT
5.
Решение проблемы: подходНа данных об отзывах о китайских автомобилях применяем три языковых
модели для оценки качества перевода:
• MonoTransQuest
• Chat GPT
• Биграммная языковая модель
Получаем оценки
Проверяем с помощью тестов Спирмена и Крускала-Уоллиса имеет ли
влияние качество перевода китайского отзыва на оценку этого отзыва
пользователями платформы
6.
Решение проблемы: описание моделейMonoTransQuest
Модель натренирована на датасетах WMT Quality Estimation
Она использует следующие языковые признаки, которые XLM-R научился
узнавать при предобучении: семантическая близость фраз, синтаксическая
согласованность и тд.
Модель MonoTransQuest оценивает качество текста `qe_score_raw`,
анализируя только сам перевод.
7.
Решение проблемы: описание моделейChat GPT
Чату GPT было предложено оценить отзывы по следующим факторам:
• Естественность
• Грамматика и синтаксис
• Стилистика
В итоге формировалась оценка translation_naturalness_score, которая
показывает насколько модель считает текст нормой языка
8.
Решение проблемы: описание моделейБиграммная языковая модель
Она разбивает текст на пары языковых единиц, считает частоты
встречаемости пар и вычисляет вероятности перехода от одной пары к
другой. На основе этого вычисляет оценку натуральности текста
Наша модель была натренирована на русских отзывах, как на эталонных, а
после применена к китайским.
9.
Решение проблемы: демонстрацияработы решения
10.
Результаты и выводы: результатыстатистических тестов
MonoTransQuest
11.
Результаты и выводы: результатыстатистических тестов
Chat GPT
12.
Результаты и выводы: результатыстатистических тестов
Биграммная языковая модель
13.
Результаты и выводы: анализТесты для оценок биграммной языковой модели и чата GPT показали
отсутствие корреляции между качеством переведенного отзыва и его
рейтингом
MonoTransQuest показывает что качество перевода практически не влияет
на оценку, есть очень слабая отрицательная корреляция
В общем нет основания считать что качество перевода влияет на оценку
отзыва
14.
Результаты и выводы:возможные шаги
Наша работа показала, что перевод в целом неплохой и он не сказывается
негативно на оценках людей
Поэтому можно продолжать добавлять иностранные отзывы к китайским
автомобилям, это поможет поднять осведомленность
15.
Взаимосвязь проектнойзадачи и модулей программы
Курс дал нам понимание основ:
• Сбора данных
• Обработки данных
• Построение моделей машинного обучения
• Проведения и анализа статистических тестов