7.94M

Попередня обробка запитів для пошуку тлумачень в інтернет

1.

ПОПЕРЕДНЯ ОБРОБКА ЗАПИТІВ
ДЛЯ ПОШУКУ ТЛУМАЧЕНЬ В ІНТЕРНЕТ

2.

ПРОБЛЕМАТИКА
• Інтенсивність
інформаційного потоку
• Неточність розуміння
інформації людьми, які,
як правило, не є
фахівцями в цій галузі .
• Тривалий процес пошуку
2

3.

ЗАПРОПОНОВАНІ СПОСОБИ
Налаштування
додаткових параметрів та обробка пошукових
запитів
Автоматизація
пошуку тлумачення терміну у Банку Ресурсів
Аналіз
результатів пошуку в залежності від досліджуваної
предметної області
3

4.

МАТЕМАТИЧНА МОДЕЛЬ
СЛОВНИКА
Dg Dr , mDe, sp Dg ─ тлумачний словник
Dr ─ заголовок словника
mDe ─ множина словарних статей
sp ─ розділювач словникових статей
De tr , dl , Lt , Ti
Ti Df , Rl , sz
tr ─ термін
dl ─ розділювач терміна від тлумачення
Lt ─ система поміток
Ti ─ тлумачення терміна
Df ─ множина варіантів тлумачення
Rl ─ релятор (розділювач)
sz – стилістичная зона
4

5.

5

6.

БАНК РЕСУРСІВ
• Підключений словник
• Загальний словник
• Інтернет Ресурс
6

7.

АЛГОРИТМ РОБОТИ
СИСТЕМИ
7

8.

ОБРОБКА ТЕРМІНІВ
Не завжди наявна можливість
повтотекстового пошуку в Інтернет
Ресурсах Повна відсутність тлумачення
терміну
Невелика кількість пошукових термінів
Ускладнення подальшого виявлення
досліджуваної предметної області
8

9.

ЕТАПИ ОБРОБКИ
Графематичний
аналіз
• вилучення лексичних одиниць
кістковий мозок [кістковий, мозок]
• приведення до словникової
форми
Морфологічний
аналіз
[кістковий, мозок] [кістковий, кісткв, мозок]
Розширення множини
пошукових запитів
9
• доповнення
синонімічними
словами термінів

10.

АЛГОРИТМ ОБРОБКИ ТЕРМІНІВ
[Словарні статті]
ЕТАПИ ОБРОБКИ
[Словарні статті, оброблений набір термінів]
10

11.

АНАЛІЗ РЕЗУЛЬТАТІВ
ПОШУКУ
[Словарні статті, оброблений набір термінів]
[Словарні статті]
11

12.

12

13.

Знайдено тлумачень термінів (%)
100
Затрачений час (хв) на 1 термін
1,2
91,6
90
78,9
80
1
1
70
0,8
58,35
60
50
0,6
41,6
40
0,4
30
20
0,16
0,2
10
0,006
0
Ручний
Вбудованый Підключенний
словник
словник
0,006
0
Мережа
Інтернет
Ручний
АПРОБАЦІЯ РЕЗУЛЬТАТІВ
ДОСЛІДЖЕННЯ
13
Вбудованый Підключенний
словник
словник
Мережа
Інтернет

14.

ВИСНОВОК
ЗАСТОСУВАННЯ
ПЕРЕВАГИ
Формування словників
предметної області, тезаурусів
Зменшення витрат часу
майже в 8 разів
Роботи з різними
документами
Результат частково
відповідає досліджуваній
предметній області
Ознайомлення з
предметною областю
14

15.

[email protected]
English     Русский Rules