Метод та програмна реалізація відбору текстових документів відповідно до тематики, обраної користувачем, з використанням

2.48M

Category:

informatics

Метод і програмна реалізація відбору текстових документів за обраною користувачем тематикою з використанням машинного навчання

1. Метод та програмна реалізація відбору текстових документів відповідно до тематики, обраної користувачем, з використанням

НАЦІОНАЛЬНИЙ ТЕХНІЧНИЙ УНІВЕРСИТЕТ
УКРАЇНИ
«КИЇВСЬКИЙ ПОЛІТЕХНІЧНИЙ ІНСТИТУТ
імені ІГОРЯ СІКОРСЬКОГО»
Навчально-науковий інститут прикладного системного
аналізу
Кафедра системного проектування
Метод та програмна реалізація відбору текстових
документів відповідно до тематики, обраної
користувачем, з використанням машинного навчання
Виконав:
студент IV курсу, групи ДА-11
Світличний Станіслав Сергійович
Керівник:
проф., д.т.н.,
Рогоза Валерій Станіславович

2. Проблема сучасного текстового пошуку

Сучасний світ генерує величезні
обсяги цифрової інформації,
більшість якої — це
неструктуровані тексти. Знайти
релевантні документи серед цього
масиву — складна задача, яка
потребує значних ресурсів та
часу.

3. Актуальність автоматизації

Ручний відбір текстових документів
вже не ефективний навіть для
невеликих організацій. Для наукових,
юридичних і корпоративних архівів
цей підхід узагалі неможливий, що
зумовлює актуальність
автоматизації тематичного пошуку.

4. Мета дослідження

Метою моєї роботи є створення
методу та програмної системи для
автоматичного відбору текстових
документів відповідно до тематики,
яку задає користувач. Для цього
застосовуються сучасні алгоритми
машинного навчання.

5. Класичні підходи

Огляд існуючих методів
Розглянуто шлях розвитку методів — від простих ключових слів і TF-IDF до складних нейронних моделей
Word2Vec і BERT.
Класичні підходи
Векторні ембеддинги
Глибокі моделі
TF-IDF — швидке
фільтрування, не
враховує контекст.
Word2Vec — кодують
лексичну та частково
семантичну інформацію,
але не враховують повний
контекст речення.
BERT — дозволяє
захоплювати контекст та
семантичні зв’язки у
тексті.
Відповідно жоден з підхід окремо не дає ідеального результату для тематичного відбору складних або
багатотемних запитів.

6. Формалізація задачі

Задачу відбору
сформульовано як
класифікацію або ранжування
пар “запит–документ”. Для
оцінювання якості
використовуються точність,
повнота, F1-міра, MAP, nDCG,
Precision@k, що дозволяє
враховувати як формальну, так
і змістовну відповідність
результатів.

7. Наукова новизна

Уперше запропоновано
комбінований метод, що
поєднує три рівні векторних
подань тексту — TF-IDF,
Word2Vec та BERT — у
межах двоступеневого
конвеєра. Такий підхід
дозволяє одночасно
забезпечити і високу точність,
і прийнятну швидкість відбору
документів.

8. Особливості реалізації

На першому етапі відбувається швидке
фільтрування документів за
допомогою TF-IDF. Далі для кожної
пари “запит–документ” формується
вектор ознак, який містить класичні,
семантичні та структурні
характеристики, після чого
застосовується класифікація Random
Forest.

9. Автоматичний підбір порогу

Для вибору оптимального
порогу класифікації
застосовується аналіз
Precision–Recall-кривої. Це
дозволяє досягти
найкращого балансу між
точністю й повнотою навіть у
випадку сильного
дисбалансу класів.

10. Архітектура системи

Система має модульну
архітектуру з чіткими
інтерфейсами між компонентами.
Використовуються класичний
TfidfVectorizer, попередньо навчені
Word2Vec, а також сучасні моделі
BERT, що комбінуються в єдину
ознакову матрицю для подальшої
класифікації.

11. Графічний інтерфейс

Для користувачів реалізовано
простий інтерфейс, який
дозволяє вводити запит і
миттєво отримувати
впорядкований список
релевантних документів. Це
робить систему доступною
навіть для непідготовлених
користувачів.

12. Експериментальна перевірка

MAP
nDCG
Average
Time,
запит/ceк
Accuracy
Precision
Recall
F1 Score
Precision
@5
TF-IDF
0,49
0,39
0,93
0,55
0,37
0,60
0,68
0,0016
Word2Vec
0,59
0,43
0,73
0,55
0,40
0,72
0,76
0,0005
BERT
0,34
0,34
1,00
0,50
0,38
0,74
0,79
0,0337
Combined
Method
0,87
0,72
1,00
0,84
0,41
0,85
0,85
0,0072
Система тестувалася на власному текстовому корпусі даних із різними
тематиками. За всіма метриками (F1, MAP, nDCG, Precision@k) комбінований
підхід продемонстрував стабільну перевагу над класичними і нейронними
моделями, якщо ті використовуються ізольовано.

13. Класичні метрики класіфікації

1,00
BERT
COMBINED METHOD
0,34
0,49
0,59
0,73
0,93
1,00
RECALL
0,87
ACCURACY
TF-IDF
W ORD2VEC
BERT
COMBINED METHOD
TF-IDF
PRECISION
BERT
COMBINED METHOD
0,72
TF-IDF
0,34
0,43
W ORD2VEC
0,39
0,55
TF-IDF
0,50
0,55
0,84
F1 SCORE
W ORD2VEC
W ORD2VEC
BERT
COMBINED METHOD

14. Пошукові метрики

MAP
0,72
0,74
W ORD2VEC
BERT
BERT
COMBINED METHOD
TF-IDF
TF-IDF
W ORD2VEC
0,79
NDCG
0,76
W ORD2VEC
0,68
TF-IDF
BERT
0,85
0,37
0,38
0,60
0,40
0,41
0,85
PRECISION@5
COMBINED METHOD
COMBINED METHOD

15. Часова метрика

TF-IDF
0,0005
0,0016
0,0072
0,0337
AVERAGE TIME, ЗАПИТ/CEК.
W ORD2VEC
BERT
COMBINED METHOD

16. Практична значимість

Розроблена система легко
адаптується під різні предметні
області та масштабується для
роботи з великими масивами
даних. Вона може бути
інтегрована у корпоративні,
наукові, юридичні або освітні
інформаційно-пошукові системи.

17. Висновки

Запропонований підхід поєднує
високу точність, швидкість та
глибокий семантичний аналіз, що
дозволяє ефективно працювати з
сучасними текстовими масивами.
Система готова до впровадження
у реальних проєктах.

English Русский Rules