Similar presentations:
Ранжирование, спам и антиспам
1.
РанжированиеСпам и Антиспам
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
2. Что и для чего проходим?
Апдейты ПС
Заимствование
контента
Текстовый спам
Аффилиаты
Ссылочный спам
Поведенческий спам
Спам в коде страниц
Дорвеи и редиректы
Спам в рекламе
Клоакинг и свопинг
Парсинг
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
3. Тематическая классификация
Машинноеобучение
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
4. Машинное обучение
ПоискИнструкция
Асессоры
Машинное
обучение
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
Алгоритмы
5. Деревья вариантов
F3F7 > 2
F3 > 2
F3 > 1
2
1
4
3
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
6.
АсессорыЦентр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
7. Асессоры
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 18. Асессоры
ОбязательноТочный ответ
Полезно
Малополезно
Не по теме
Нельзя оценить
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
4
3
2
1
0
9.
Классификациятекстов и запросов
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
10. Тематическая классификация
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 111. Тематическая классификация
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 112. Тематическая классификация
http://tag4site.ru/classifyЦентр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
13. Тематическая классификация
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 114.
BM25Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
15. Okapi BM25 — функция ранжирования
Okapi BM25 — функция ранжированияЦентр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
16. Okapi BM25 — функция ранжирования
Okapi BM25 — функция ранжированияЦентр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
17. Модификации BM25
• BM25F• LinkBM25
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
18. Задача
• Посчитайте BM25 дляанкор-листа
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
19.
Апдейты ПСЦентр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
20. Апдейты
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 121. Что и для чего проходим?
Проходит 107 дней доиндексации ссылки
(по данным
tools.promosite.ru)
Может произойти
изменение позиций
без изменений
индекса, т.е. вы
обновили тексты,
произошел апдейт,
но тексты остались
старыми
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
22. Что и для чего проходим?
Виды апдейтовtools.promosite.ru
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
23. Как определять апдейты
По количеству измененийсчитается % шторма
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
24.
Текстовый спамЦентр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
25. Спам в тексте страниц
— избыток ключевых слов в тексте страницы,некачественные, бесполезные тексты, размещенные для
манипулирования позициями.
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
26. Спам в тексте ссылок
— большое количество ссылок содинаковыми анкорами, с коммерческими
анкорами.
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
27. Спам в мета-тегах
• слишком длинные мета-теги,• редкие n-граммы (купить детская каша, низкая
цена),
• использование спецсимволов,
• сгенерированные по одной простой формуле,
• спам в содержимом микроразметки
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
28. Синонимайзинг, рерайт
— создание новых текстов по образцу старых без добавления кним новой смысловой ценности путем изменения формы
(переформулирования, замены слов на синонимы).
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
29. Автогенерация текстов
— автоматическое создание текстов по заранее заданнымпараметрам/формулам.
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
30.
Спам в кодестраниц
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
31. Манипулирование HTML-тегами
Description
Keywords
H1, H2, H3, H4, H5, H6
STRONG, B
EM, I
<A href=
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
32. Скрытие текста от посетителей
Белый текст на белом фоне1 пиксельный текст
Скрытие через CSS (display:none)
Создание зон «текст в подвале»
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
33. Скрытие текста от посетителей
окнаокна
Белый текст на белом фоне
1 пиксельный текст
Скрытие через CSS (display:none)
Создание зон «текст в подвале»
окна
окна
окна
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
34. SEO-тексты
Рерайт текстовРазные методы «уникализации» текста
Генерация SEO-текстов
Множественное употребление слов в тексте
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
35. Как определяется спам в почте
Задачка: придумайте алгоритмопределения спама в почте, на
основе только текстовых
факторов
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
36.
Дорвеи иредиректы
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
37. Дорвеи и редиреты
— сайты, которые создаются для манипулирования поисковымисистемами, с целью получения трафика и его перепродажи, за счет
создания низкокачественного контента и перенаправления пользователя,
часто, путем обмана (автогенерация доменов, страниц, автоматическое
заимствование контента с долгоиндексируемого сайта).
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
38.
Клоакинг исвопинг
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
39. Свопинг
— создание страницы, контент на которойменяется сразу после выхода в ТОП,
использовалось для продвижения
запрещенных тематик в Google
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
40. Клоакинг
— показ разного контента роботу поисковойсистемы и пользователю (разные версии
страниц, скрытые блоки, спамные страницы в
скрытой части сайта).
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
41.
Заимствованиеконтента
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
42. Заимствование контента
— показ чужого контента на своем сайте (автоматическое/ручноезаимствование/iframe).
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
43.
АффилиатыЦентр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
44. Разные сайты одной компании
— попытка монополизировать рынок через манипулированиепоисковой выдачей.
совпадение контактных данных,
один хостинг, один IP-адрес,
одинаковый дизайн,
одинаковый ассортимент, ценовое предложение,
адрес самовывоза,
владельца домена,
один аккаунт Вебмастера или Метрики,
оплата контекста с одного юр.лица
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
45.
СателлитыЦентр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
46. Разные сайты одной компании
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 147.
Ссылочный спамЦентр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
48. Ссылочный спам
• факт размещения ссылки для накрутки результатовранжирования,
• создание сайтов для продажи ссылок (отдельные или сетки
сателлитов):
• наличие низкокачественного контента,
• бесплатный дизайн и CMS,
• размещение большого количество ссылок с главной
страницы на внутренние,
• прогон сайта по каталогам или низкокачественные ссылки,
• молодой сайт без живого трафика,
• появление ссылок на другие сайты в отсутствие трафика и
позиций.
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
49. Ссылочный спам
• взлом сайтов, использование вирусов (продажа ссылок сdisplay:none),
• спам по форумам, гостевым книгам, доскам объявлений,
каталогам (бесплатные CMS без обновления),
• покупка ссылок (ссылочный взрыв),
• обмен ссылками,
• публикация мусорных статей и ссылки из них.
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
50. Как идентифицировать ботов
Задачка: придумайтесамообучающийся алгоритм
определения спама в
комментариях для движка типа
wordpress
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
51.
Поведенческийспам
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
52. Поведенческий спам
• имитация действий пользователей навыдаче,
• имитация переходов по ссылке,
• имитация поведения внутри сайта.
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
53.
Спам в рекламеЦентр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
54. Спам в рекламе
• Pop-up реклама,• Ссылки, ведущие на спамные сайты,
• Ссылки или реклама сайтов запрещенных
тематик
• Злоупотребление партнерскими программами
• Отправь SMS, введи код, оплати доступ и т.п.
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
55.
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 156.
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 157.
ПарсингЦентр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
58. Парсинг
• сервисы подбора запросов,• поисковая выдача:
URL сайтов,
позиции,
сниппеты,
технические данные.
• сохраненные копии
• контекстная реклама
• Яндекс.Каталог
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
59.
УведомленияЦентр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
60. Настройка уведомлений
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 161.
АнтиспамЦентр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
62. Последствия спама для ПС
мусорный контент,
медленная работа серверов,
ущерб качественным ресурсам,
потеря аудитории
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
63. Что искать?
• контент,• ссылки,
• поведение
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
64. Что искать?
86% спама можно вычислить на основеанализа контента страниц.
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
65. Как искать?
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 166. Как искать?
Обнаружение спам страниц как задачабинарной классификации:
• 1 – спам
• 0 – не спам
Требуется:
• Список признаков
• Метод классификации
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
67. Как искать?
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 168. Как искать?
Попытка №1Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
69. Как искать?
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 170. Как искать?
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 171. Как искать?
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 172. Как искать?
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 173. Как искать?
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 174. Как искать?
Попытка №2Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
75. Как искать?
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 176. Как искать?
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 177. Как искать?
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 178. Как искать?
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 179. Как классифицировать сайт?
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 180. Как классифицировать сайт?
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 181. Как классифицировать сайт?
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 182. Как классифицировать сайт?
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 183. Как классифицировать?
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 184. Как классифицировать сайт?
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 185. Как классифицировать сайт?
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 186.
Оценка качествапоиска
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
87. Показатели качества поиска
• Полнота - отношение числа найденныхрелевантных документов, к общему числу релевантных
документов в базе.
• Точность - отношение числа релевантных документов,
найденных ПС, к общему числу найденных документов.
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1
88. Домашнее задание
1. Разработайте и опишите алгоритм генерации текста для интернет-магазина, которыйневозможно отследить автоматически. Почему это невозможно?
2. Опишите качества, по которым поисковая система может определить "спамность" ссылки.
Предложите, какой должна быть ссылки, чтобы её невозможно было обнаружить по этим
качествам.
3. Вы решили сделать сеть из 100 сателлитов. Придумайте такую схему ссылочных связей,
которую невозможно определить в автоматическом режиме. Что может стать основой
такого алгоритма? Как будет устроена такая система?
4. Опишите алгоритм накрутки поведенческих факторов, где поисковая система может 100%
определить факт накрутки, но не может наложить санкции без риска забанить сайт,
который накручивают конкуренты.
5. Определите, как работает сравнение поисковых систем по критерию "полнота и
разнообразие" в сервисе http://analyzethis.ru/, разберитесь с алгоритмом и опишите его.
При выполнении домашнего задания пользуйтесь DataMining: ищите решения в интернете, изучайте
статьи и публикации на эту тему, изучите решения, которые предлагаются для борьбы со спамом,
чтобы лучше понимать механизмы. Публикации могут быть на таких сайтах, как РОМИП, HabraHabr,
некоторые сообщества в ЖЖ, возможно видео-доклады сотрудников Яндекса.
Центр образования и исследований ТопЭксперт - г. Москва, Б. Дровяной пер., д. 11/8, стр. 1