Similar presentations:
Система интернет-мониторинга и адресного распространения научно-технической информации
1. СИСТЕМА ИНТЕРНЕТ-МОНИТОРИНГА И АДРЕСНОГО РАСПРОСТРАНЕНИЯ НАУЧНО-ТЕХНИЧЕСКОЙ ИНФОРМАЦИИ
Объединенный институт проблем информатикиНациональной академии наук Беларуси
(ОИПИ НАН Беларуси)
А.Г. Буравкин, С.Ф. Липницкий, Л.В.Степура
СИСТЕМА ИНТЕРНЕТ-МОНИТОРИНГА
И АДРЕСНОГО РАСПРОСТРАНЕНИЯ
НАУЧНО-ТЕХНИЧЕСКОЙ ИНФОРМАЦИИ
Минск 2019
2. Актуальность задачи
Адресное (избирательное) распространениеинформации – это индивидуальное информирование о
новых публикациях с учетом информационных
потребностей пользователей. Первые
информационные системы подобного назначения
появились более полувека назад. В них
использовались главным образом ручные методы
поиска и распространения информации. В настоящее
время этот вид информационного обслуживания
приобретает особую актуальность в связи с
существованием большого количества интернетсервисов, основанных на веб-технологиях.
2
2
3. Требования к системам адресного распространения информации
Оперативность и регулярность рассылкиновых публикаций.
Изложение краткого содержания каждой
публикации в виде реферата, аннотации или
набора ключевых слов.
Наличие обратной связи с пользователями
рассылаемой информации для
своевременной корректировки их
информационных профилей.
3
4. Состав системы
Функциональными компонентамиавтоматизированной системы интернетмониторинга и адресного распространения
научно-технической информации являются три
подсистемы:
индексирования текстов, архивов
пользователей и кратких сообщений;
сканирования веб-страниц;
адресной рассылки текстов и кратких
сообщений пользователям.
4
5. Структурная схема системы
ИнтернетНайденные тексты и
краткие сообщения
База поисковых
образов
Тексты, релевантные
профилю 1
Архив 1
Тексты, релевантные
профилю 2
Архив 2
...
Тексты, релевантные
профилю n
...
Профиль 1
Профиль 2
...
Архив n
Профиль n
5
6. Функциональная схема системы
ИнтернетПодсистема сканирования веб-страниц
База поисковых образов
найденных текстов и
кратких сообщений
База найденных
текстов и кратких сообщений
Подсистема
индексирования
Программы
индексирования
текстов
Лингвистические
словари
Подсистема
адресной рассылки
Архив 1
Профиль 1
Архив 2
Профиль 2
...
Программы
индексирования
кратких сообщений
Архив n
...
Профиль n
6
7. Подсистема индексирования. Информативность слов
Информативность Ia каждого слова a в тексте Tвычисляем по формуле:
n1 n2 n3
Ia
( N1 N 2 N 3 ) (n1 n2 n3 )
где n1 – количество вхождений слова a в текст T, n2 –
число вхождений всех словоизменений слова a в T,
а n3 – число вхождений в T всех синонимов слова a.
Символами N1, N2 и N3 обозначены соответствующие
числовые параметры для объединенного архива
текстов.
7
8. Подсистема индексирования. Поисковый образ текста
Поисковый образ (или индекс текста) - этосовокупность пар
ПОT {(a, I ); (b, I ); ... a T , b T , ...}
a
T
b
T
В каждой паре содержатся ключевое слово и
его информативность.
8
9. Индексирование кратких сообщений
Краткое сообщениеПрограмма поиска
релевантного профиля
Релевантный
профиль не найден
Релевантный
профиль найден
Лингвистические
словари
Программа создания
релевантного архива
текстов
Программа
индексирования текстов
Поисковый образ
краткого сообщения
9
10. Иерархическая структура веб-сайтов
Всякий веб-сайт в Интернете имеетгипертекстовую структуру и может быть
представлен в виде орграфа, вершинами
которого являются веб-страницы, а дугами –
связи между ними. Среди разнообразия связей
(ассоциативные, родо-видовые и др.) при
решении задачи сканирования веб-сайтов нас
будут интересовать только те из них, которые
указывают на порядок следования страниц.
10
11. Порядок сканирования веб-страниц
s1s2
s3
s4
s5
s1
s1
s2
s3
s3
s6
s1
s7
s5
s5
s7
s1
s7
s8
a)
б)
в)
г)
д)
С учетом иерархической структуры веб-сайта, сканирование
веб-страниц удобно реализовать в следующей
последовательности:
• сканируются все веб-страницы, являющиеся висячими
вершинами орграфа;
• найденные тексты помещаются в специальную базу данных;
• отсканированные веб-страницы условно исключаются из
орграфа; далее процесс продолжается аналогичным образом.
11
12. Адресная рассылка текстов
Рассылка реализуется в три этапа:ищутся все релевантные профили пользователей по
поисковому предписанию, которым является
поисковый образ очередного текста, найденного при
сканировании веб-страниц;
проверяется, является ли новым найденный текст;
найденный новый текст помещается в архивы
пользователей, для которых он оказался
релевантным.
12