Что и для чего проходим?
TF (term frequency — частота слова)
Задание 1
IDF (Document Frequency)
IDF
IDF (Document Frequency)
BM25
Текстовое ранжирование: пассажи
Текстовое ранжирование: расчет веса словопозиций
Текстовое ранжирование: употребление частей речи
Текстовое ранжирование: контекстуальное сходство
Текстовое ранжирование: контрастность слова
TF (term frequency — частота слова)
TF (term frequency — частота слова)
TF (term frequency — частота слова)
TF (term frequency — частота слова)
TF-IDF - важность слова в документе
Задание #1 - cчитаем TF-IDF
Задание #1 - cчитаем TF-IDF
PageRank
TF (term frequency — частота слова)
1 итерация
2 итерация
Обратная связь PageRank
Что влияет на PageRank
Задание
PageRank – архивные предсказания
Шаг 1
Шаг 2
Шаг 3
Шаг 4
Шаг 1
Шаг 2
Шаг 3
Шаг 4
PageRank
Иерархическая структура
Циклическая структура
Все на всех
Все на всех
Все на всех
Все на всех
Задание #1 - cчитаем PageRank
Изменения при итерациях
Задание: посчитайте сколько веса будет передано в 3 итерации
Обратная связь PageRank
Утверждения о PageRank
Утверждения о PageRank
Утверждения о PageRank
Утверждения о PageRank
Утверждения о PageRank
Утверждения о PageRank
Утверждения о PageRank
Все на всех
Вес на главную
Вес на карточки
PageRank (равномерная перелинковка)
Задачи ПС:
Утверждения о PageRank
Утверждения о PageRank
Утверждения о PageRank
Утверждения о PageRank
TrustRank
TrustRank
TrustRank
Задание #2
BrowseRank
BrowseRank оперирует
BrowseRank оперирует
BrowseRank
Fresh BrowseRank
Fresh BrowseRank
pFound – вероятность перехода на сайт
pFound – вероятность перехода на сайт
Дерево маршрута
Характеристики дерева маршрута
Характеристики дерева маршрута
Характеристики дерева маршрута
Поведение пользователей
Тематическая классификация
Тематическая классификация
Деревья вариантов
Машинное обучение
Асессоры
Асессоры
Апдейты
Okapi BM25 — функция ранжирования
Модификации BM25
Домашнее задание
4.17M
Categories: internetinternet softwaresoftware

Текстовое ранжирование

1.

Ранжирование
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

2. Что и для чего проходим?


Текстовое ранжирование:
TF/IDF, BM25, BM25f, LinkBM25
Частота и взвешивание
терминов
PageRank и ссылочное
ранжирование
HostRank, ТИЦ
TrustRank
Поведенческое
ранжирование:
поведенческие факторы,
паттерны поведения
BrowseRank
ClickRank
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

3. TF (term frequency — частота слова)

TF (term frequency — частота слова)
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

4. Задание 1

Задание: посчитайте TF для слова «купить» в тексте
“Влад давно собирался купить новую Lada Vesta, но в
итоге решил купить жене подарок”
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

5. IDF (Document Frequency)

IDF (Document Frequency)
инверсия частоты, с которой некоторое слово встречается в
документах коллекции.
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

6. IDF

DF = количество документов, в которых встречается
слово / количество документов в корпусе
IDF – обратное значение DF (1/DF)
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

7. IDF (Document Frequency)

IDF (Document Frequency)
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

8. BM25

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

9. Текстовое ранжирование: пассажи

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

10. Текстовое ранжирование: расчет веса словопозиций

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

11. Текстовое ранжирование: употребление частей речи

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

12. Текстовое ранжирование: контекстуальное сходство

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

13. Текстовое ранжирование: контрастность слова

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

14. TF (term frequency — частота слова)

TF (term frequency — частота слова)
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

15. TF (term frequency — частота слова)

TF (term frequency — частота слова)
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

16. TF (term frequency — частота слова)

TF (term frequency — частота слова)
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

17. TF (term frequency — частота слова)

TF (term frequency — частота слова)
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

18. TF-IDF - важность слова в документе

TF-IDF - важность слова в документе
TF-IDF=TF*IDF
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

19. Задание #1 - cчитаем TF-IDF

1. Посчитать количество слов в каждом тексте.
2. Посчитать кол-во вхождений каждого слова(!) в
документ.
3. Определить общее кол-во документов в индексе
поисковой системы.
4. Определить кол-во документов, содержащих каждое
слово(!), в индексе поисковой системы.
5. Посчитать TF, DF IDF, TF-IDF
6. Посчитать вес запросов
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

20. Задание #1 - cчитаем TF-IDF

https://docs.google.com/spreadsheets/d/1pVC2EHYghvXcBc_c
URuLXgvPnatr76hMDPqjOkpu1ts/edit?usp=sharing
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

21.

PageRank (PR)
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

22. PageRank

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

23.

Некоторые
понятия PageRank
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

24. TF (term frequency — частота слова)

TF (term frequency — частота слова)
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

25. 1 итерация

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

26. 2 итерация

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

27. Обратная связь PageRank

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

28. Что влияет на PageRank

• Кто на вас ссылается
• На кого вы ссылаетесь
• Навигация на сайте
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

29. Задание

Вопрос: какая страница даст
больше веса
- PageRank 4, 20 исходящих ссылок
- PageRank 3, 1 исходящая ссылка
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

30. PageRank – архивные предсказания

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

31. Шаг 1

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

32. Шаг 2

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

33. Шаг 3

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

34. Шаг 4

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

35. Шаг 1

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

36. Шаг 2

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

37. Шаг 3

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

38. Шаг 4

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

39. PageRank

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

40. Иерархическая структура

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

41. Циклическая структура

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

42. Все на всех

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

43. Все на всех

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

44. Все на всех

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

45. Все на всех

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

46. Задание #1 - cчитаем PageRank

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

47. Изменения при итерациях

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

48. Задание: посчитайте сколько веса будет передано в 3 итерации

1.0
1.0
1.0
1.0
1.0
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

49. Обратная связь PageRank

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

50. Утверждения о PageRank

PR – это вероятность нахождения
пользователя на заданной странице.
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

51.

Утверждения о PageRank
Алгоритм возврата: в случае наличия
ссылки на штрафной документ, её голос
будет разделен между другими ссылками,
а оставшееся значение будет возвращено
страницам, которые вызвали увеличение
её ранга, по итогам многочисленных
итераций вес страницы уменьшиться
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

52. Утверждения о PageRank

Если ссылок несколько: учитывается одна
ссылка или все? В Google учитывается
первая по коду, в Яндексе все
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

53. Утверждения о PageRank

Коэффициент затухания: страница не
может голосовать так, чтобы другая
страница была так же важна, как она сама
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

54. Утверждения о PageRank

Чем больше страниц в индексе, тем выше
изначальный PageRank
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

55. Утверждения о PageRank

PageRank не зависит от содержания
страницы, возраста документа и текста
ссылки
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

56. Утверждения о PageRank

Google объявил, что прекратит
отображение тулбарного PageRank, так что
узнать PageRank конкретной страницы
будет нельзя
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

57. Утверждения о PageRank

Как влиять на ранжирование с помощью
PageRank? Об этом на модуле «Поисковое
продвижение».
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

58. Все на всех

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

59. Вес на главную

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

60. Вес на карточки

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

61. PageRank (равномерная перелинковка)

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

62. Задачи ПС:

тИЦ
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

63. Утверждения о PageRank

тИЦ – это PageRank, присвоенный домену
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

64. Утверждения о PageRank

Тематический индекс цитирования (тИЦ) —
технология поисковой машины «Яндекс»,
заключающаяся в определении
авторитетности интернет-ресурсов с учётом
качественной характеристики — ссылок на
них с других сайтов. ТИЦ рассчитывается по
специально разработанному алгоритму, в
котором особое значение придаётся
тематической близости ресурса и
ссылающихся на него сайтов.
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

65. Утверждения о PageRank

При расчете алгоритмом тИЦ не учитываются
ссылки с форумов, блогов, досок объявлений,
каталогов без модерации и других ресурсов,
на которых любой пользователь может
добавлять ссылки, которые никак не
модерируются на сайте. Также при расчете
тИЦ не учитываются ссылки с сайтов,
расположенных на бесплатных хостингах,
если их нет в Яндекс.Каталоге. Т.е. описанные
выше ссылки при расчете весов алгоритмом
Яндекса имеют значения нуль.
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

66. Утверждения о PageRank

Влияет ли тИЦ на ранжирование?
тИЦ 10
тИЦ 180
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

67.

TrustRunk
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

68. TrustRank

- TrustRank — показатель авторитетность сайта. Передается за
счёт ссылок с самых авторитетных сайтов, выбранных вручную.
Не зависит от тематики сайта.
- Невозможно достоверно проверить TrustRank сайта.
- Можно по косвенным признакам определить сайты, которые с
высокой вероятностью раздают TrustRank
- Документы на «Трастовых» сайтах выше ранжируются
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

69. TrustRank

У этого сайта с TrustRank всё в порядке
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

70. TrustRank

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

71. Задание #2

Задание #2 – назовите 5 авторитетных
сайтов, которые, по-вашему мнению, могут
передать TrustRank TrustRank
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

72.

ПФ: BrowseRank
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

73. BrowseRank

В алгоритме BrowseRank голосующую
способность имеют не ссылки, а поведение
пользователейTrustRank
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

74. BrowseRank оперирует

1. Надстройки для браузеров
2. Метрику (Яндекс.Метрика,
Google Analytics и др.)
3. Специализированные браузеры
(Chrome, Яндекс.Браузер)
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

75. BrowseRank оперирует

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

76.

User1
User2
User3
User4
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

77. BrowseRank

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

78.

Модификации:
ClickRank
Fresh BrowseRank
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

79. Fresh BrowseRank

Более новые страницы, вероятно, более
релевантны запросам, чувствительным
к новизне, чем старые страницы и, как
следствие, временная характеристика
релевантности документа позволяет
провести более чёткое разграничение
между релевантными и нерелевантными
документами.
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

80. Fresh BrowseRank

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

81.

ПФ: pFound
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

82. pFound – вероятность перехода на сайт

pRel - релевантность i-того документа
(принимает значение 0.4, если асессор пометил
документ как релевантный)
pLook - вероятность просмотра i-того документа
в выдаче
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

83. pFound – вероятность перехода на сайт

pRel - релевантность i-того документа (принимает значение 0.4, если
асессор пометил документ как релевантный)
pLook - вероятность просмотра i-того документа в выдаче
pBreak - вероятность того, что пользователь прекратит просмотр по
каким-то внешним причинам. Принимается равной 0.15.
Хотя в статье об этом и не сказано, очевидно, что pLook(1) должен
быть равен 1.
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

84.

ПФ: паттерны
поведения
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

85. Дерево маршрута

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

86. Характеристики дерева маршрута

Паттерны поведения
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

87. Характеристики дерева маршрута

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

88. Характеристики дерева маршрута

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

89. Поведение пользователей

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

90.

Классификация
текстов и запросов
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

91. Тематическая классификация

К каким категориям отнести
документ?
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

92. Тематическая классификация

Машинное
обучение
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

93. Деревья вариантов

F3
F7 > 2
F3 > 2
F3 > 1
2
1
4
3
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

94. Машинное обучение

Поиск
Инструкция
Асессоры
Машинное
обучение
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
Алгоритмы

95.

Асессоры
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

96. Асессоры

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

97. Асессоры

Обязательно
Точный ответ
Полезно
Малополезно
Не по теме
Нельзя оценить
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
4
3
2
1
0

98.

A/B тестирование
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

99.

Апдейты
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

100. Апдейты

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

101.

BM25
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

102. Okapi BM25 — функция ранжирования

Okapi BM25 — функция ранжирования
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

103. Модификации BM25

• BM11, BM15
• BM25F
• LinkBM25
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

104. Домашнее задание

1. Изучите описание алгоритмов:
– PageRank - http://digits.ru/articles/promotion/pagerank.html
– BrowseRank - http://seo.wikimart.ru/введение-в-browserank/
– TrustRank - http://www.optimization.ru/subscribe/165.html
– pFound - http://romip.ru/romip2009/15_yandex.pdf
2. Найдите самостоятельно материалы, изучите и опубликуйте ссылки:
– HITS
– SEOlink, SEOtext, SEOin, SEOout
3.* Рассчитайте BM25 для анкор-листа, следуя инструкции http://habrahabr.ru/post/162937/
4. Ответьте на вопросы, используя поисковые системы:



Какие апдейты бывают в Яндексе, как часто? Какие апдейты бывают в Google, как часто?
По каким признакам поисковая система может распознать, что сайт удовлетворил ожидания
пользователя?
Что пользователь не смог найти решение своей потребности?
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
English     Русский Rules