Similar presentations:
Схема работы поисковой системы
1.
Схема работы поисковойсистемы
1 занятие блока «Поисковые системы»
2.
О модуле«Поисковые системы»
3. Программа модуля
1.2.
3.
4.
5.
6.
Схема поисковой системы
Лингвистика
Ранжирование
Спам и антиспам
Фильтры поисковых систем
Консультация + разбор экзамена
4.
Основные термины ипонятия
5. Поисковая система – это
система для поиска информации,отвечающей потребности пользователя (!),
осуществляющего поиск в ограниченном
объеме неструктурированных данных
(коллекции документов)
6. Поисковая система – это
7. Поисковая система – это
8. Поисковая система – это
9. Поисковая система – это
10. Схема работы (алгоритм) ПС
11. Схема работы (алгоритм) ПС
12. Схема работы (алгоритм) ПС
13. Схема работы (алгоритм) ПС
14. Зачем мне это знать?
- адаптация под смену алгоритмов- исследования в области поисковой
оптимизации
- внутренний поиск на сайте
- разработка рекомендательных систем
- Data Mining
- ответы на вопросы заказчика/фильтрация
идей (а давайте сделаем еще один сайт и
займем выдачу!)
15. Зачем мне это знать?
• Внутренний поиск по сайтуИнтересные ссылки:
http://ekaterinburg.hh.ru/article/1175 - HH учит пользователей языку поисковых запросов
http://ya-recruiter.blogspot.ru/2013/06/blog-post_16.html - рекрутер «прокачивается» в информационном поиске
16. Зачем мне это знать?
• Data mining - совокупность методовобнаружения в данных ранее неизвестных,
нетривиальных, практически полезных и
доступных интерпретации знаний,
необходимых для принятия решений в
различных сферах человеческой
деятельности.
Интересные ссылки:
https://ru.wikipedia.org/wiki/Data_mining - определение
https://yandex.ru/support/search/query-language/qlanguage.xml - язык поисковых запросов Яндекса
17. Зачем мне это знать?
• Найти все поддомены сайта – “site:”• Найти все страницы раздела сайта – “url:”
• Найти все страницы, измененные за
последнее время – “date:”
• Найти файлы для скачивания – “mime:”
Интересные ссылки:
https://ru.wikipedia.org/wiki/Data_mining - определение
https://yandex.ru/support/search/query-language/search-operators.xml - документные операторы Яндекса
18. Зачем мне это знать?
Для SEO-шника:“mime:pdf + yandex-team.ru”
Интересные ссылки:
https://ru.wikipedia.org/wiki/Data_mining - определение
https://yandex.ru/support/search/query-language/search-operators.xml - документные операторы Яндекса
19. Зарождение поисковых систем
Первые поисковые системы были каталогами сайтов с рубрикаторамиПолезные ссылки:
http://yaca.yandex.ru/ - Каталог Яндекса
http://www.rukv.ru/ - исследование "количество сайтов рунета"
20. Булев поиск
Умеет• находить документы по
поисковым запросам с
простыми логическими
операторами:
– И (AND)
– ИЛИ (OR)
– НЕ (NOT)
Не умеет
• ранжировать документы по
степени релевантности
• учитывать словоформы,
синонимы
• учитывать местоположение
слова в документе
• учитывать неполные
вхождения (2 из 3 слов
запроса)
• и т.д.
Полезные ссылки:
https://ru.wikipedia.org/wiki/%D0%91%D1%83%D0%BB%D0%B5%D0%B2%D0%B0_%D0%B0%D0%BB%D0%B3%D0%B5%D0%B1%D1%80%D0%B0 – Булева алгебра
https://ru.wikipedia.org/wiki/%D0%90%D0%BB%D0%B3%D0%B5%D0%B1%D1%80%D0%B0_%D0%BB%D0%BE%D0%B3%D0%B8%D0%BA%D0%B8 – алгебра логики
21.
Булев поиск22.
Булев поиск23. Булев поиск
запрос: «apple OR iwatch»24. Булев поиск
запрос: «apple AND iwatch»25. Булев поиск
запрос: «apple AND (NOT watch)»запрос: «alberto OR (NOT cavalli)»
26. Индекс
индекс – это структура данных, используемая поисковымисистемами для компактного хранения копий документов
коллекции и осуществления поиска по ним
Виды индекса:
• Прямой/Инвертированный
• Некоординатный/Координатный
Полезные ссылки:
https://ru.wikipedia.org/wiki/%D0%9F%D0%BE%D0%B8%D1%81%D0%BA%D0%BE%D0%B2%D1%8B%D0%B9_%D0%B8%D0%BD%D0%B4%D0%B5%D0%BA%D1%81 – поисковый
индекс
27.
Прямой индекс - это- таблица, в которой для каждого документа
представлен список слов, в него входящих
28. Инвертированный индекс - это
таблица, в которой каждому слову из словарясопоставлен список документов, его содержащих
29. Координатный индекс - это
индекс, учитывающий координату слова в документе(словопозицию)
30.
Современный поиск31. Современные ПС
Яндекс, Google, Mail….
Поиск по новостям
Поиск по картинкам, видео, аудио
YouTube
Поиск по блогам, форумам, отзывам
Специализированные поисковые системы
Поиск в Excel
Поиск по базам данных
Локальный поиск от Яндекс и Google
32. Ранжированный поиск
- поиск, который, помимо нахождениядокументов, отвечающих информационной
потребности пользователя, осуществляет
сортировку (ранжирование) документов по
степени их релевантности (соответствия) этой
потребности.
33. Неточный поиск, кворум
Неточный поиск – поиск по документам, несодержащим все слова запроса.
Кворум — необходимая доля суммарного веса слов из
поискового запроса, которая должна присутствовать в
тексте документа и/или текстах входящих на него
ссылок для попадания в результаты поиска.
34.
Схема работы поисковойсистемы
35. Работа поисковой системы
36. Работа поисковой системы
37. Работа поисковой системы
38. Обработка запроса
• геозависимостьзапроса
39. Обработка запроса
• геозависимостьзапроса
• тип запроса
40. Обработка запроса
• геозависимостьзапроса
• тип запроса
• многозначность
41. Обработка запроса
• геозависимостьзапроса
• тип запроса
• многозначность
• колдунщики
42. Обработка запроса
• геозависимостьзапроса
• тип запроса
• многозначность
• колдунщики
• машинное обучение
43. Обработка запроса
• геозависимостьзапроса
• тип запроса
• многозначность
• колдунщики
• машинное обучение
• опечаточник
44. Обработка запроса
• геозависимостьзапроса
• тип запроса
• многозначность
• колдунщики
• машинное обучение
• опечаточник
• синонимы и
аббревиатуры
45. Работа поисковой системы
46. Матрица результатов поиска
Яндекс.Маркет (другие сервисы Яндекса)
47. Матрица результатов поиска
Яндекс.Маркет (другие сервисы Яндекса)
Контекстная реклама
48. Матрица результатов поиска
Яндекс.Маркет (другие сервисы Яндекса)
Контекстная реклама
Яндекс.Карты (Яндекс.Справочник)
49. Матрица результатов поиска
Яндекс.Маркет (другие сервисы Яндекса)
Контекстная реклама
Яндекс.Карты (Яндекс.Справочник)
Объектный ответ
50. Матрица результатов поиска
Яндекс.Маркет (другие сервисы Яндекса)
Контекстная реклама
Яндекс.Карты (Яндекс.Справочник)
Объектный ответ
Колдунщики
51. Матрица результатов поиска
Яндекс.Маркет (другие сервисы Яндекса)
Контекстная реклама
Яндекс.Карты (Яндекс.Справочник)
Объектный ответ
Колдунщики
Новости
52. Матрица результатов поиска
Яндекс.Маркет (другие сервисы Яндекса)
Контекстная реклама
Яндекс.Карты (Яндекс.Справочник)
Объектный ответ
Колдунщики
Новости
Сниппеты
53. Матрица результатов поиска
Яндекс.Маркет (другие сервисы Яндекса)
Контекстная реклама
Яндекс.Карты (Яндекс.Справочник)
Объектный ответ
Колдунщики
Новости
Сниппеты
Диалоговые подсказки
54.
Варианты матрицДля какого типа запроса
подходит матрица?
55.
Варианты матрицДля какого типа запроса
подходит матрица?
56.
Варианты матрицДля какого типа запроса
подходит матрица?
57. Работа поисковой системы
58. Работа поисковой системы
59. Работа поисковой системы
60. Работа поисковой системы
61. Работа поисковой системы
62. Работа поисковой системы
63. Работа поисковой системы
64. Работа поисковой системы
65. Работа поисковой системы
66. Поисковый алгоритм
• Поисковый индекс67. Поисковый алгоритм
• Поисковый индекс• Тематика сайта
68. Поисковый алгоритм
• Поисковый индекс• Тематика сайта
• Регион сайта
69. Поисковый алгоритм
Поисковый индекс
Тематика сайта
Регион сайта
Тип сайта
70. Поисковый алгоритм
Поисковый индекс
Тематика сайта
Регион сайта
Тип сайта
Фильтры и санкции
71. Поисковый алгоритм
Поисковый индекс
Тематика сайта
Регион сайта
Тип сайта
Фильтры и санкции
Асессорская оценка
Поведение пользователя на выдаче
72. Поисковый алгоритм
Поисковый индекс
Тематика сайта
Регион сайта
Тип сайта
Фильтры и санкции
Асессорская оценка
Поведение пользователя на выдаче
Требования к скорости и качеству
– ступенчатое включение алгоритмов (1000 отбирается)
– распределение нагрузки
– кэш поиска
73. Домашнее задание
Найти интересные поисковые системы, протестировать на разных типах
запросов, выбрать и описать примеры:
Представьте, что в Интернете есть сайты, посвященные только одной теме –
товарам/услугам, представленным на вашем сайте. На основании базовых схем
поисковых систем (см. примеры) нарисуйте схему поисковой системы, которая
бы идеально подходила для поиска информации об этих товарах/услугах. В ходе
работы вам необходимо ответить на вопросы:
системы с Булевым поиском
системы с более сложным поиском (синонимы, тематические кластеры и пр.) + найти тип запросов,
которые она все же не умеет обрабатывать
системы, которую вы нашли полезной и планируете использовать на практике (и почему?)
какие типы запросов ваша поисковая система должна отрабатывать?
какую информацию она для этого должна индексировать?
на какие зоны поисковая система должна разделить документы вашего сайта и сайтов-конкурентов?
какие модули из базовой схемы поисковой системы вы не взяли и почему?
какие новые модули вы добавили в свою поисковую систему, которых не было в базовой схеме и почему?
Книгу «Введение в информационный поиск», прочита
поиск», поделиться впечатлениями.
ть главу №1 «Булев
74. Схема работы (алгоритм) ПС
75. Сервисы для составления схем
https://www.draw.io (тип Flowcharts)
https://www.gliffy.com/ (тип Блоксхема)
https://docs.google.com (Вставка -> Рисунок)
MS Word (Вставка -> Фигуры)
76. Правила составления схем
• Блоки одного типа оформляются одинаково• Используются только однонаправленные
стрелки (от отдающего информацию блока
к принимающему ее)
• Детализация частей схемы должна быть
одинаковой
• Схема выкладывается в формате JPG, PNG
77. Как составлять схему
• Читаем:https://yandex.ru/company/technologies/searchindex/