10.18M

ЦК Практика (Самойленко + Бойко)

1.

Экспертные оценки и отзывы PRO DA
(Амаяма Авто) по программе
«PRO DA 2025»
Проект выполнили студенты Б9122-09.03.03пиу
Самойленко Олег и Бойко Галина

2.

Команда проекта
Самойленко Олег, Бойко Галина, Б9122-09.03.03пиу
Галина занималась сбором информации (парсинг) + очистка
данных
Олег занимался применением моделей к датасету и анализом
результатов
иллюстрация
Самойленко Олег
иллюстрация
Бойко Галина

3.

Краткое описание проекта и его целей
Не так давно в Россию в массовом порядке
начали ввозить ранее не встречающиеся
на наших дорогах автомобили из Китая.
Удивительно, но уже через год потребители
оценили китайское качество как
нормальное и авто из поднебесной заняли
более 50% рынка новых автомобилей в РФ.
Самое главное — автомобилей в Китае
выпускается много и они есть практически
на любой вкус, но Российский потребитель
с ними часто оказывается не знаком и не
понимает какой именно ему подходит.
Задачи проекта
Собрать и обработать данные
Оценить качество переведенных
отзывов
Сделать проверку влияния качества
переведенных отзывов на оценку
отзыва пользователями

4.

Анализ проблемы
Проблема:
Дром, как хороший помощник, решил собрать и перевести
отзывы о новых и подержанных автомобилях из
поднебесной и наиболее ценные опубликовал в разделе
«Отзывы». Но имеет ли влияние качества перевода
зарубежного отзыва на оценку этого отзыва?
Инструменты:
• Python + Pandas + scipy + Matplotlib + Torch
• Supabase Postgres
• MonoTransQuest
• ChatGPT

5.

Решение проблемы: подход
На данных об отзывах о китайских автомобилях применяем три языковых
модели для оценки качества перевода:
• MonoTransQuest
• Chat GPT
• Биграммная языковая модель
Получаем оценки
Проверяем с помощью тестов Спирмена и Крускала-Уоллиса имеет ли
влияние качество перевода китайского отзыва на оценку этого отзыва
пользователями платформы

6.

Решение проблемы: описание моделей
MonoTransQuest
Модель натренирована на датасетах WMT Quality Estimation
Она использует следующие языковые признаки, которые XLM-R научился
узнавать при предобучении: семантическая близость фраз, синтаксическая
согласованность и тд.
Модель MonoTransQuest оценивает качество текста `qe_score_raw`,
анализируя только сам перевод.

7.

Решение проблемы: описание моделей
Chat GPT
Чату GPT было предложено оценить отзывы по следующим факторам:
• Естественность
• Грамматика и синтаксис
• Стилистика
В итоге формировалась оценка translation_naturalness_score, которая
показывает насколько модель считает текст нормой языка

8.

Решение проблемы: описание моделей
Биграммная языковая модель
Она разбивает текст на пары языковых единиц, считает частоты
встречаемости пар и вычисляет вероятности перехода от одной пары к
другой. На основе этого вычисляет оценку натуральности текста
Наша модель была натренирована на русских отзывах, как на эталонных, а
после применена к китайским.

9.

Решение проблемы: демонстрация
работы решения

10.

Результаты и выводы: результаты
статистических тестов
MonoTransQuest

11.

Результаты и выводы: результаты
статистических тестов
Chat GPT

12.

Результаты и выводы: результаты
статистических тестов
Биграммная языковая модель

13.

Результаты и выводы: анализ
Тесты для оценок биграммной языковой модели и чата GPT показали
отсутствие корреляции между качеством переведенного отзыва и его
рейтингом
MonoTransQuest показывает что качество перевода практически не влияет
на оценку, есть очень слабая отрицательная корреляция
В общем нет основания считать что качество перевода влияет на оценку
отзыва

14.

Результаты и выводы:
возможные шаги
Наша работа показала, что перевод в целом неплохой и он не сказывается
негативно на оценках людей
Поэтому можно продолжать добавлять иностранные отзывы к китайским
автомобилям, это поможет поднять осведомленность

15.

Взаимосвязь проектной
задачи и модулей программы
Курс дал нам понимание основ:
• Сбора данных
• Обработки данных
• Построение моделей машинного обучения
• Проведения и анализа статистических тестов

16.

Спасибо за внимание!
English     Русский Rules