Что и для чего проходим?
Тематическая классификация
Машинное обучение
Деревья вариантов
Асессоры
Асессоры
Тематическая классификация
Тематическая классификация
Тематическая классификация
Тематическая классификация
Okapi BM25 — функция ранжирования
Okapi BM25 — функция ранжирования
Модификации BM25
Задача
Апдейты
Что и для чего проходим?
Что и для чего проходим?
Как определять апдейты
Спам в тексте страниц
Спам в тексте ссылок
Спам в мета-тегах
Синонимайзинг, рерайт
Автогенерация текстов
Манипулирование HTML-тегами
Скрытие текста от посетителей
Скрытие текста от посетителей
SEO-тексты
Как определяется спам в почте
Дорвеи и редиреты
Свопинг
Клоакинг
Заимствование контента
Разные сайты одной компании
Разные сайты одной компании
Ссылочный спам
Ссылочный спам
Как идентифицировать ботов
Поведенческий спам
Спам в рекламе
Парсинг
Настройка уведомлений
Последствия спама для ПС
Что искать?
Что искать?
Как искать?
Как искать?
Как искать?
Как искать?
Как искать?
Как искать?
Как искать?
Как искать?
Как искать?
Как искать?
Как искать?
Как искать?
Как искать?
Как искать?
Как классифицировать сайт?
Как классифицировать сайт?
Как классифицировать сайт?
Как классифицировать сайт?
Как классифицировать?
Как классифицировать сайт?
Как классифицировать сайт?
Показатели качества поиска
Домашнее задание
4.94M
Categories: internetinternet softwaresoftware

Ранжирование, спам и антиспам

1.

Ранжирование
Спам и Антиспам
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

2. Что и для чего проходим?


Апдейты ПС
Заимствование
контента
Текстовый спам
Аффилиаты
Ссылочный спам
Поведенческий спам
Спам в коде страниц
Дорвеи и редиректы
Спам в рекламе
Клоакинг и свопинг
Парсинг
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

3. Тематическая классификация

Машинное
обучение
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

4. Машинное обучение

Поиск
Инструкция
Асессоры
Машинное
обучение
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
Алгоритмы

5. Деревья вариантов

F3
F7 > 2
F3 > 2
F3 > 1
2
1
4
3
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

6.

Асессоры
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

7. Асессоры

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

8. Асессоры

Обязательно
Точный ответ
Полезно
Малополезно
Не по теме
Нельзя оценить
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
4
3
2
1
0

9.

Классификация
текстов и запросов
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

10. Тематическая классификация

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

11. Тематическая классификация

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

12. Тематическая классификация

http://tag4site.ru/classify
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

13. Тематическая классификация

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

14.

BM25
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

15. Okapi BM25 — функция ранжирования

Okapi BM25 — функция ранжирования
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

16. Okapi BM25 — функция ранжирования

Okapi BM25 — функция ранжирования
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

17. Модификации BM25

• BM25F
• LinkBM25
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

18. Задача

• Посчитайте BM25 для
анкор-листа
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

19.

Апдейты ПС
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

20. Апдейты

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

21. Что и для чего проходим?

Проходит 107 дней до
индексации ссылки
(по данным
tools.promosite.ru)
Может произойти
изменение позиций
без изменений
индекса, т.е. вы
обновили тексты,
произошел апдейт,
но тексты остались
старыми
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

22. Что и для чего проходим?

Виды апдейтов
tools.promosite.ru
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

23. Как определять апдейты

По количеству изменений
считается % шторма
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

24.

Текстовый спам
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

25. Спам в тексте страниц

— избыток ключевых слов в тексте страницы,
некачественные, бесполезные тексты, размещенные для
манипулирования позициями.
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

26. Спам в тексте ссылок

— большое количество ссылок с
одинаковыми анкорами, с коммерческими
анкорами.
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

27. Спам в мета-тегах

• слишком длинные мета-теги,
• редкие n-граммы (купить детская каша, низкая
цена),
• использование спецсимволов,
• сгенерированные по одной простой формуле,
• спам в содержимом микроразметки
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

28. Синонимайзинг, рерайт

— создание новых текстов по образцу старых без добавления к
ним новой смысловой ценности путем изменения формы
(переформулирования, замены слов на синонимы).
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

29. Автогенерация текстов

— автоматическое создание текстов по заранее заданным
параметрам/формулам.
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

30.

Спам в коде
страниц
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

31. Манипулирование HTML-тегами


Description
Keywords
H1, H2, H3, H4, H5, H6
STRONG, B
EM, I
<A href=
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

32. Скрытие текста от посетителей

Белый текст на белом фоне
1 пиксельный текст
Скрытие через CSS (display:none)
Создание зон «текст в подвале»
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

33. Скрытие текста от посетителей

окна
окна
Белый текст на белом фоне
1 пиксельный текст
Скрытие через CSS (display:none)
Создание зон «текст в подвале»
окна
окна
окна
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

34. SEO-тексты

Рерайт текстов
Разные методы «уникализации» текста
Генерация SEO-текстов
Множественное употребление слов в тексте
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

35. Как определяется спам в почте

Задачка: придумайте алгоритм
определения спама в почте, на
основе только текстовых
факторов
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

36.

Дорвеи и
редиректы
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

37. Дорвеи и редиреты

— сайты, которые создаются для манипулирования поисковыми
системами, с целью получения трафика и его перепродажи, за счет
создания низкокачественного контента и перенаправления пользователя,
часто, путем обмана (автогенерация доменов, страниц, автоматическое
заимствование контента с долгоиндексируемого сайта).
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

38.

Клоакинг и
свопинг
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

39. Свопинг

— создание страницы, контент на которой
меняется сразу после выхода в ТОП,
использовалось для продвижения
запрещенных тематик в Google
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

40. Клоакинг

— показ разного контента роботу поисковой
системы и пользователю (разные версии
страниц, скрытые блоки, спамные страницы в
скрытой части сайта).
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

41.

Заимствование
контента
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

42. Заимствование контента

— показ чужого контента на своем сайте (автоматическое/ручное
заимствование/iframe).
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

43.

Аффилиаты
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

44. Разные сайты одной компании

— попытка монополизировать рынок через манипулирование
поисковой выдачей.
совпадение контактных данных,
один хостинг, один IP-адрес,
одинаковый дизайн,
одинаковый ассортимент, ценовое предложение,
адрес самовывоза,
владельца домена,
один аккаунт Вебмастера или Метрики,
оплата контекста с одного юр.лица
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

45.

Сателлиты
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

46. Разные сайты одной компании

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

47.

Ссылочный спам
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

48. Ссылочный спам

• факт размещения ссылки для накрутки результатов
ранжирования,
• создание сайтов для продажи ссылок (отдельные или сетки
сателлитов):
• наличие низкокачественного контента,
• бесплатный дизайн и CMS,
• размещение большого количество ссылок с главной
страницы на внутренние,
• прогон сайта по каталогам или низкокачественные ссылки,
• молодой сайт без живого трафика,
• появление ссылок на другие сайты в отсутствие трафика и
позиций.
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

49. Ссылочный спам

• взлом сайтов, использование вирусов (продажа ссылок с
display:none),
• спам по форумам, гостевым книгам, доскам объявлений,
каталогам (бесплатные CMS без обновления),
• покупка ссылок (ссылочный взрыв),
• обмен ссылками,
• публикация мусорных статей и ссылки из них.
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

50. Как идентифицировать ботов

Задачка: придумайте
самообучающийся алгоритм
определения спама в
комментариях для движка типа
wordpress
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

51.

Поведенческий
спам
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

52. Поведенческий спам

• имитация действий пользователей на
выдаче,
• имитация переходов по ссылке,
• имитация поведения внутри сайта.
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

53.

Спам в рекламе
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

54. Спам в рекламе

• Pop-up реклама,
• Ссылки, ведущие на спамные сайты,
• Ссылки или реклама сайтов запрещенных
тематик
• Злоупотребление партнерскими программами
• Отправь SMS, введи код, оплати доступ и т.п.
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

55.

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

56.

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

57.

Парсинг
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

58. Парсинг

• сервисы подбора запросов,
• поисковая выдача:
URL сайтов,
позиции,
сниппеты,
технические данные.
• сохраненные копии
• контекстная реклама
• Яндекс.Каталог
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

59.

Уведомления
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

60. Настройка уведомлений

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

61.

Антиспам
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

62. Последствия спама для ПС


мусорный контент,
медленная работа серверов,
ущерб качественным ресурсам,
потеря аудитории
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

63. Что искать?

• контент,
• ссылки,
• поведение
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

64. Что искать?

86% спама можно вычислить на основе
анализа контента страниц.
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

65. Как искать?

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

66. Как искать?

Обнаружение спам страниц как задача
бинарной классификации:
• 1 – спам
• 0 – не спам
Требуется:
• Список признаков
• Метод классификации
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

67. Как искать?

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

68. Как искать?

Попытка №1
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

69. Как искать?

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

70. Как искать?

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

71. Как искать?

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

72. Как искать?

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

73. Как искать?

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

74. Как искать?

Попытка №2
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

75. Как искать?

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

76. Как искать?

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

77. Как искать?

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

78. Как искать?

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

79. Как классифицировать сайт?

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

80. Как классифицировать сайт?

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

81. Как классифицировать сайт?

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

82. Как классифицировать сайт?

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

83. Как классифицировать?

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

84. Как классифицировать сайт?

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

85. Как классифицировать сайт?

Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

86.

Оценка качества
поиска
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

87. Показатели качества поиска

• Полнота - отношение числа найденных
релевантных документов, к общему числу релевантных
документов в базе.
• Точность - отношение числа релевантных документов,
найденных ПС, к общему числу найденных документов.
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1

88. Домашнее задание

1. Разработайте и опишите алгоритм генерации текста для интернет-магазина, который
невозможно отследить автоматически. Почему это невозможно?
2. Опишите качества, по которым поисковая система может определить "спамность" ссылки.
Предложите, какой должна быть ссылки, чтобы её невозможно было обнаружить по этим
качествам.
3. Вы решили сделать сеть из 100 сателлитов. Придумайте такую схему ссылочных связей,
которую невозможно определить в автоматическом режиме. Что может стать основой
такого алгоритма? Как будет устроена такая система?
4. Опишите алгоритм накрутки поведенческих факторов, где поисковая система может 100%
определить факт накрутки, но не может наложить санкции без риска забанить сайт,
который накручивают конкуренты.
5. Определите, как работает сравнение поисковых систем по критерию "полнота и
разнообразие" в сервисе http://analyzethis.ru/, разберитесь с алгоритмом и опишите его.
При выполнении домашнего задания пользуйтесь DataMining: ищите решения в интернете, изучайте
статьи и публикации на эту тему, изучите решения, которые предлагаются для борьбы со спамом,
чтобы лучше понимать механизмы. Публикации могут быть на таких сайтах, как РОМИП, HabraHabr,
некоторые сообщества в ЖЖ, возможно видео-доклады сотрудников Яндекса.
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
English     Русский Rules