Основные информационные ресурсы Интернет

Информационно-поисковые системы и системы поиска данных (базы данных)

Поисковый образ документа (вектор документа)

Семантические показатели эффективности ИПС

Обобщенная блок-схема информационно-поисковой системы

Статистический анализ текста Первый закон Зипфа

Статистический анализ текста Второй закон Зипфа

Определения значимости терминов и назначение весовых коэффициентов

Модель, основанная на различительной силе термина

Модель динамической оценки информативности

Архитектура информационно-поисковой системы Интернет

Классификация поисковых систем Интернет по масштабам массива документов

Характеристики поисковых систем Интернет

Число проиндексированных страниц (декабрь 2001)

Число документов проиндексированных различными поисковыми системами Интернет (сент. 2003)

Динамика роста числа проиндексированных документов

Динамика роста числа проиндексированных документов в течение 2001 года

Сравнение поисковых каталогов по числу ссылок

600.00K

Category:

internet

Поиск информации в Интернет

1. Поиск информации в Интернет

2. Методы поиска информации в Интернет

Методы поиска:
Составление имени ресурса
Использование списков ссылок
Использование поисковых каталогов
Использование поисковых систем

3. Основные информационные ресурсы Интернет

гипертекстовая информационная система World Wide Web (WWW);
каталоги ресурсов - глобальные, локальные, специализированные (в среде
WWW);
поисковые машины, или автоматические индексы - глобальные, локальные,
глобальная система телеконференций Usenet, региональные и
специализированные телеконференции;
электронная почта и почтовые роботы;
списки рассылки;
он-лайновые средства коммуникации пользователей;
системы поиска людей и организаций;
базы данных Hytelnet;
система файловых архивов FTP, системы поиска в FTP-архивах глобального
и регионального охвата;
базы данных Gopher и поисковая система Veronica;
баннерные системы (в среде WWW);
активные информационные каналы (в среде WWW).

4. Жизненный цикл информационного ресурса

5. Информационно-поисковые системы

6. Два вида ИПС

Поиск информации – это процесс отыскания в массиве
документов, соответствующих сформированному запросу.
ИПС представляет собой функциональную систему, предназначенную
для хранения и поиска информации.
Системы часто разделяют на фактографические и документальные.
Фактографические системы в ответ на конкретные запросы о данных выдают
конкретные ответы, содержащие по мере возможности только действительно
запрашиваемые данные, факты. Что же касается документальных систем, то
они в ответ на запросы выдают подборки документов.
Документальная информационно-поисковая система не информирует
пользователя о предмете запроса в том смысле, что она не изменяет его
знания по этому предмету. Она информирует его лишь о наличии (или
отсутствии) документов, имеющих отношение к его запросу, и о том, где эти
документы можно найти.

7. Информационно-поисковые системы и системы поиска данных (базы данных)

ИПС следует отличать от системы поиска данных
(традиционно их называют базами данных), которые
осуществляют поиск и выдачу пользователю фактических
значений данных в буквенной либо цифровой форме.
Очевидно, что поиск данных есть частный случай поиска
документов, при котором "документами" являются
отдельные значения показателей либо текстовые
фрагменты.
В системах поиска данных информация представляется в
виде таблиц.

8. Информационно-поисковая система

1.
2.
3.
4.
Основные элементы ИПС:
массив документов (текстов, записей), выступающих в качестве объекта
поиска;
информационно-поисковый язык (ИПЯ) - искусственный язык,
предназначенный для описания содержания и формы документов и (или)
запросов для осуществления поиска;
правила индексирования (алгоритмы, методы), следуя которым
производится описание средствами ИПЯ документов и запросов (перевод
их с естественного языка на информационно-поисковый). В результате
индексирования документа получается поисковый образ документа
(ПОД), а при индексировании запроса - поисковые предписания (ПП);
правила (алгоритмы, методы) поиска документов, соответствующих
запросу, которые задаются в виде критерия соответствия (критерия
выдачи).

9. Семантические средства ИПС

ИПЯ
Методы индексирования
Методы поиска
Обработка документа семантическими средствами
Li Si Sd Ld
где Li - запрос на естественном языке;
Si - представление запроса на ИПЯ (поисковое предписание);
Ld - текст документа на естественном языке;
Sd - представление документа на ИПЯ (поисковый образ документа;
- операция индексирования;
- операция сопоставления ПОД и ПП в соответствии с заданным
критерием выдачи.

10. Поисковый образ документа (вектор документа)

Каждый документ, хранящийся в ИПС, имеет адрес (поисковый номер),
позволяющий идентифицировать его в процессе поиска. Смысловое
содержание документа описывается перечнем слов (индексов) ИПЯ,
образующих его поисковый образ. Количество слов ИПЯ в ПОД может
быть любым. ПОДi некоторого документа (i) представляет собой
множество терминов ИПЯ, часто называемый вектором документа.
Si t1 , t 2 , t3 ,..., t m
где Si - поисковый образ i-го документа; t1, t2, t3, ...,tm - термины ИПЯ.
Множество поисковых образов документов образуют матрицу массива
документов, состоящего из векторов Si поисковых образов документов
(ПОД).

11. Поисковый массив (матрица документов)

Адресная часть
Поисковый массив
(матрица документов)
Исходная матрица
Словарь ИПЯ
t1
t2
t3
t4
t5
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
1
2
3
4
5
6
7
t1
3
5
t2
1
2
3
4
t3
1
2
t4
t5
1
t6
2
3
4
5
t6
*
*
*
t7
2
4
5
6
t7
6
7
7
7
Инвертированная организация
1
t2
t3
2
t2
t3
3
t1
4
5
6
t2
t2
t1
t5
t4
t7
t4
t3
t6
t3
t5
t4
7
t2 t3
Прямая организация
t6
t5

12. Запрос к ИПС (поисковое предписание)

Запрос, направляемый в поисковую систему, обрабатывается
таким же образом, как и поступающий в нее документ. Он
анализируется по своему предметному содержанию и
описывается в терминах имеющегося словаря (терминов).
Qi t1 , t 2 , t3 ,..., t m
где Qi - вектор запроса (поисковое предписание).
В процессе поиска, поисковое предписание (ПП),
сравнивается с поисковыми образами документов (ПОД).

13. Семантические показатели эффективности ИПС

Релевантность - объективно существующее смысловое соответствие между
содержанием документа и запроса. Объективность оценок релевантности
обеспечивается тем, что они устанавливаются экспертным путем, а не автором
запроса
Семантическая оценка ИПС
Документы
выданные
невыданные
полнота выдачи (ПВ) =
точность выдачи (ТВ) =
потери информации (ПИ) =
информационный шум (ИШ) =
релевантные
a
в
a
100%
a в
a
100%
a б
в
100%
a в
б
100%
a б
нерелевантные
б
г

14. Основные этапы информационного поиска

1.
2.
3.
4.
5.
6.
7.
На основе анализа текста документа создается список терминов,
характерных для этого документа, в котором образуется словарь
документа. Как правило, термины используются в качестве указателей
(индексов) документа.
Список терминов документа образует поисковый образ документа.
Совокупность поисковых образов документов образует поисковый
массив (индекс).
После создания индекса к нему обращаются с помощью запросов.
Запрос переводится на язык индексирования – поисковое предписание.
Выполняется сравнение поисковых образов с поисковым
предписанием.
Результаты сравнения представляют собой список документов,
отсортированных по релевантности.

15. Обобщенная блок-схема информационно-поисковой системы

Документы
Анализ предметного содержания
Выявленные
понятия
Выражение выявленных
понятий через термины
индексирования
Поисковый массив
Документы
Словарь
терминов
Поисковые
образцы
документов
(ПОД)
Хранилище
Сравнение ПОД и ПП
Найденные
документы
Выражение выявленных
понятий через термины
индексирования
Выявленные понятия
Анализ
предметного
содержания
Запросы
Поисковые предписания
(ПП)

16. Индексирование документов

Под индексированием в теории информационно-поисковых систем
понимается процесс присвоения документу набора ключевых слов или
кодов, служащих указателем (индексом) содержания документа и
используемых для его поиска.
На ранних стадиях развития ИПС индексирование преимущественно
выполнялось вручную высококвалифицированным специалистом
(индексатором), который должен был обладать широким набором
знаний в различных областях. Качество поискового образа при
индексировании вручную в значительной мере предопределяется
субъективным фактором. Смысловой анализ - это творческая работа,
которая заключается в выделении понятий и отборе из текста
документа терминов, достаточно полно отражающих содержание этого
документа и заслуживающих включения в поисковый образ.

17. Классификация ИПС по составу словаря

Со свободным словарем, т.е. словарем, состав которого жестко не
фиксируется, в словарь может быть занесено любое слово за исключением
слов,
несущественных
для
передачи
основного
содержания
анализируемого текста.
С контролируемым словарем. Состав терминов, используемых для
индексирования, заранее определяется либо вручную, либо автоматически
на основе анализа некоторого множества документов, принадлежащих той
предметной области, для которой строится ИПС.
При автоматизированном составлении словаря основной задачей является
определение информативности слов в тексте. Для этих целей
используются статистические методы анализа.

18. Методы автоматического индексирования

В автоматизированных ИПС со свободным словарем,
т.е. словарем, состав которого жестко не фиксируется, в
словарь может быть занесено любое слово за
исключением слов, несущественных для передачи
основного содержания анализируемого текста.
При автоматизированном составлении словаря
основной задачей является определение
информативности слов в тексте. Для этих целей
используются статистические методы анализа.

19. Статистический анализ текста Первый закон Зипфа

Вероятность вхождения слова в документ определяется отношением частоты
вхождения слова в документ к общему числу слов в тексте документа:
k
fik
P
,
N
где f i - частота вхождения слова k в документ i, N - число слов в документов.
Зипфом было обнаружено, что произведение вероятности обнаружения слова в
тексте на ранг частоты является величиной постоянной.
K P R,
где R - ранг частоты вхождения слова в документ.
Если преобразовать эту формулу, то получим
P
K
,
R
Значение константы K различно для разных языков. Так, например, для
английского языка K=0.1, для русского 0.06 0.07. Но для языков одной языковой
группы значение K неизменно.

20. Статистический анализ текста Первый закон Зипфа

k
Значимые слова
fi
300
Y-Axis
Частота
250
200
P
K
,
R
150
100
50
0
0
10
20
30
Ранг
40
50
60
70
R

21. Статистический анализ текста Второй закон Зипфа

k
Если построить график, на котором по оси Х отложить частоту f i вхождения
слов, а по оси Y - количество слов с данной частотой вхождения N i f, то
получившееся кривая будет сохранять свой характер для всех без изменения
текстов, созданных человеком, независимо от языка, на котором написан текст.
f
1200
Французкий
Английский
Русский
1000
Y-Axis
Количество слов
1400
800
600
400
200
0
0
2
4
6
Частота
8
10
12
N

22. Автоматическое индексирование

Порядок операций, выполняемых при автоматическом
индексировании включает в себя:
выбор слова, встречающегося в документе в соответствии с
некоторыми правилами;
статистическую обработку выбранных слов в соответствии с
используемыми статистическими методами с целью отбора из
всего множества выбранных слов набора терминов;

23. Анализ лексики

Выделяются отдельные слова, входящие в тексты документов или тексты
запросов.
Некоторые слова, например функциональные, встретившиеся в стоп-словаре,
исключаются из словников документов и запросов.
Для преобразования словника в список основ слов используется одна из двух
процедур отсечения суффиксов: метод словоформ, заключающийся в
отсечении только окончаний, и обычный процесс выделения основ слов,
состоящий в отсечении всех нормальных суффиксов.
Исходя из частоты встречаемости основ слов в текстах документов или
формулировках запросов, основам слов приписываются веса.
Полученные взвешенные векторы основ слов, представляющие документы и
запросы, сравниваются между собой, и для каждой пары "документ-запрос"
вычисляется коэффициент корреляции, отражающий сходство (близость)
между соответствующими векторами.

24. Определения значимости терминов и назначение весовых коэффициентов

Среди теорий индексирования, учитывающих
всю совокупность документов, наиболее
известны три теории:
частотная модель;
модель, учитывающая различительную силу
термина;
модель, в основе которой лежит динамическая
оценка информативности.

25. Частотная модель

Наибольший вес получают термины, имеющие высокую
частоту появления в некоторых документах набора.
Wi ' TF i IDF i
где W 'i - вес термина;
TF - частота появления термина в документах;
IDF - обратная документная частота.

26. Модель, основанная на различительной силе термина

Наибольший вес получают термины, которые делают
документы максимально непохожими друг на друга.
Wi " T F i D V i ,
где
DVi – значение различительной силы термина.

27. Модель динамической оценки информативности

Каждому термину присваивается специальный параметр, называемый
информативностью. В начальный момент для всех терминов значения
информативности полагаются равными одной и той же величине,
например 1. В ходе работы для изменения начальных значений некоторых
терминов динамически применяется функция модификации веса. Так,
если данный термин встречается и в запросе и в найденном документе,
оцененном как релевантный, его значение информативности медленно
повышается вплоть до максимального значения 2. Если же документ
оценивается как нерелевантный, значение информативности термина
постепенно снижается до минимального, т.е. 0.
Wi " i v
iv – информативность термина.

28. Процедура поиска

29. Типы запросов

Возможны два основных варианта формулировки
запроса к ИПС:
запрос с использованием специального языка
запросов (четкий поиск);
запрос на естественном языке (нечеткий поиск).

30. Четкий запрос

Состоит из слов или словосочетаний естественного
языка, объединенных операциями алгебры логики, а
также специальными операциями, позволяющими
задать условия одновременного вхождения слов в
один фрагмент текста:
AND, OR, NOT, Near N.

31. Нечеткий запрос

Запрос на естественном языке:
1.
2.
процесс индексирования документов
информацион-но-поисковой системой
рецепт приготовления черепахового супа

32. Архитектура информационно-поисковой системы Интернет

Архитектура информационнопоисковой системы Интернет
Клиент
(браузер)
Массив
документов
Internet
FTP, Usenet,
Listserv, Gopher
и т.п.
HTTP
TCP/IP
Информационные
WWW сервера
Inernet
HTTP
Программа
робот-индексировщик
WWW-сервер
HTML-страницы
шаблонов
запросов и
ответов
Шлюз с
поисковой
машиной
Базы данных
проиндексированных
документов
(поисковый массив)

33. Классификация поисковых систем Интернет по масштабам массива документов

34. Характеристики поисковых систем Интернет

Показатели индексирования
Поисковая машина
AltaVista
Excite
HotBot
InfoSeek
Lycos
Размер индекса в млн.
документов
Скорость индексирования,
документов в день
Время регистрации
150
55
110
45
10 млн
3 млн
1-2 дня
Нет
данных
2 дня
Да
2
недели
Нет
до 10
млн
2
недели
Да
Да
Нет
Да
Да
Нет
Нет
Полная глубина
индексирования
Полная поддержка
фреймов
Закрытые паролем узлы
Учет частоты обновления
50
Northern
Light
140
Web
Crawler
2
более 3
млн
2-4
недели
Да
Нет
данных
2 недели
Нет
от 6 до
10 млн
2-3
недели
Нет
Нет
Нет
Нет
Да
Нет
Да
Нет
Нет
Да
Нет
Нет
Нет
Нет
Нет
Нет
Нет

35. Характеристики поисковых систем Интернет

Особенности поисковых языков
Поисковая машина
Поиск по домену
Поиск по URL
Учет регистра
Поиск по заголовку
Использование маски "*"
Поддержка NEAR и его
ширина
Поддержка кириллицы
Да
Да
Нет
Northern
Light
Нет
Да
Частично
Web
Crawler
Нет
Нет
Нет
Да
Нет
Нет
Да
Нет
25 слов
Да
Да
Нет
Нет
Нет
2 слова
Да
Да
Да
Нет
AltaVista
Excite
HotBot
InfoSeek
Lycos
Да
Да
Да
Нет
Нет
Нет
Да
Да
Да
Да
Да
10 слов
Нет
Нет
Нет
Да
Нет
Частич
но
Да
Да
Нет
Да
Нет
Нет

36. Поисковые системы Интернет

Динамика изменения доли проиндексированных документов (1998/1999 гг.)
Изменение числа заиндекированных на май 1999 года документов (правый столбец) в
процентах от их общего количества в Паутине по отношению к апрелю 1998 года (левый
столбец) для различных поисковых машин: 1-AltaVista, 2-Northern Light, 3 - HotBot , 4- Excite, 5 – Lycos, 6 – Infoseek, 7 –
WebCrawler (по материалам Science magazine и Forrester Research)

37. Число проиндексированных страниц (декабрь 2001)

GG=Google, FAST=FAST, AV=AltaVista, INK=Inktomi, NL=Northern Light

38. Число документов проиндексированных различными поисковыми системами Интернет (сент. 2003)

Обозначения:
• GG=Google,
• ATW=AllTheWeb,
• INK=Inktomi,
•TMA=Teoma,
•AV=AltaVista.
На диаграмме показано
количество документов
(html, doc, pdf, txt и т.п.)
проиндексированных
наиболее популярными
поисковыми системами

39. Динамика роста числа проиндексированных документов

GG=Google, FAST=FAST, AV=AltaVista, INK=Inktomi, NL=Northern Light

40. Динамика роста числа проиндексированных документов в течение 2001 года

GG=Google, FAST=FAST, AV=AltaVista, INK=Inktomi, NL=Northern Light

41. Каталоги ресурсов.

Каталог – средство организации документов в иерархическую структуру
(аналог - систематический каталог в библиотеке).Каталоги существуют
как отдельно ( например, отраслевые), так и в составе поисковых машин.
Каталог позволяет быстро найти сайты определенной тематики за счет
деления на категории.
Ведение каталога – либо средствами редакторского коллектива с
предварительным аудитом сайтом, либо добровольцами, либо
посетителями
Каталог удобен при «погружении» в новую область знаний, деятельности.
Каталог – неоценимый помощник при подборе источников информации по
новой для журналиста тематике.
Каталог часто совмещен с поисковой системой и наоборот, поисковая
система чаще всего содержит и каталог.
Дополнительную ценность ценность каталогу придает наличие в его
составе рейтинга ресурсов. Наиболее посещаемые ( = наиболее
востребованные ?! ) ресурсы располагаются в начале списка.

42. Сравнение поисковых каталогов по числу ссылок

Система
Тип
Число
редакторов
Каталогов
Ссылок
Дата
Open Directo
ry
LookSmart
К
36,000
361,000
2.6 млн.
04/2001
К
200
200,000
2.5 млн.
08/2001
Yahoo
К
100+
n/a
1.5-1.8млн
08/2000
AltaVista
ПС
См. LookSmart
Excite
ПС
См. LookSmart
HotBot
Lycos
ПС
См. Open Directory
К
См. Open Directory
MSN Search
ПС
См. LookSmart
Netscape
ПС
См. Open Directory

43. Планирование поисковой процедуры

1. Лексический анализ информации
Сформировать максимально широкий набор
ключевых слов (терминов) с учетом
профессионального слэнга.
2. Технологический этап
С помощью текстовых запросов из 1-2-х ключевых
слов к метапоисковым и крупным ИПС определяется
наиболее представительные источники информации

English Русский Rules