Поисковые системы
Популярные поисковые системы в РФ
Немного истории
Задачи поисковых систем
Виды поисковых запросов
Основные характеристики поисковых систем
Ошибки HTTP
Протоколы поиска
Протокол SSL
Протокол TLS
Принцип работы поисковой системы
Модуль индексирования
Поисковый сервер Принцип работы поискового сервера
Ангел хранитель анонимности
Принцип работы TOR
Минусы
Фишки поиска
Мета поисковые системы.
Схема работы
Задание подготовить презентацию
938.50K
Categories: internetinternet informaticsinformatics

Поисковые системы

1. Поисковые системы

Быков Юрий Александрович Заместитель начальника Организационного
отдела управления правовой и организационно-кадровой работы
Министерства сельского хозяйства и продовольствия Омской области
89831131468
[email protected]

2. Популярные поисковые системы в РФ

3. Немного истории

Первое поколение (примерно 1995÷1997 гг.). Поддержка исключительно
информационных запросов. Работа с текстовыми данными. Применение
частоты терминов и векторных моделей.
Второе поколение (начало с 1998 г.). Использование гиперссылочного
анализа. Поддержка информационных и навигационных запросов.
Третье поколение (с начала XXI века). Стремление использовать
всевозможные источники данных для ответа на вопрос «какая
потребность скрыта в запросе пользователя?». Возможность поддержки
всех трёх типов запросов. Семантический анализ. Большее внимание к
потребности пользователя, чем к содержанию его запроса. Привлечение
различных контекстов. Развитая система помощи пользователю
(подсказки, обратная связь и др.). Интеграция поиска и анализа текста.

4.

Понятие релевантности – устанавливаемое при информационном поиске
соответствие содержания документа информационному запросу или
поискового образа документа поисковому предписанию.
Информационный поиск – совокупность логических и технических
операций, имеющих конечной целью нахождение документов, сведений о
них, фактов, данных, релевантных запросу потребителя.

5. Задачи поисковых систем


Поисковая система представляет собой программно-аппаратный комплекс,
который использует специальные алгоритмы для обработки огромного
количества информации о самых различных сайтах, об их содержимом вплоть
до каждой страницы.
База данных поисковой системы – ядро, в котором хранятся данные обо всех
проиндексированных сайтах и страницах, найденных поисковыми роботами.
При этом информация из базы данных может дополняться сведениями
крупнейших каталогов, что упрощает работу поисковой системы.

6. Виды поисковых запросов


Информационные запросы
Цель подобных запросов — найти информацию о товаре, компании, событии.
Например: «что такое кукумбер», «как лечить больное горло», «поисковая
система», «самые богатые люди мира», ...
Транзакционные запросы
Цель запросов — совершить какое-либо действие, например: купить, заказать,
скачать, зарегистрироваться и пр., т.е. поиску подвергается сайт, на котором
это действие можно совершить. Например: «тест-драйв ниссан мурано»,
«купить детский велосипед», «доставка пиццы», ...
Навигационные запросы
Цель запроса — найти вполне конкретный сайт.
Например: «сайт …», «в контакте», «ургу», ...

7.

Современные поисковики предлагают посетителям кучу полезных сервисов и приложений. Это чаще
всего:
Индивидуальный браузер или приложение для мобильного телефона
Сервисы карт и навигации
Почтовые службы и новостные порталы
Магазины и социальные сети
Возможность вести собственный блог или журнал внутри поисковых сайтов
Данные о погоде, пробках, ресторанах, кинотеатрах, торговых фирмах, маршрутах следования
Каталожные данные о лучших сайтах Интернета
Возможности облачных дисков, функции синхронизации для мобильных устройств
Антивирусы и сервисные приложения
Инструменты для разработчиков и вебмастеров
Службы сбора статистических данных
Сервисы видео-хостинга и аудио-хостинга (сайты, на которых размещается только видео и музыке)
Разделы, посвященные только картинкам, фотографиям и изображениям
Рекламные службы, с помощью которых можно что-либо рекламировать или продвигать
Инструменты электронной коммерции (платежная система, карточки, финансовая деятельность) и
много-много еще чего полезного и интересного.

8. Основные характеристики поисковых систем

1. Полнота;
2. Точность;
3. Актуальность;
4. Скорость поиска;
5. Наглядность.

9. Ошибки HTTP

400 - некорректный запрос.
401 - нет разрешения - запрос требует установления подлинности
пользователя.
403 - доступ запрещен
404 - ресурс не найден
524 A timeout Occuried («время ожидания истекло»)
526 Invalid SSL Certificate («недействительный сертификат SSL»)

10. Протоколы поиска

HTTP соединение – это прикладной протокол для переноса информации,
применяемый во время получения данных с интернет-сайтов.
HTTPS соединение – дополнительное расширение HTTP, которое
поддерживает кодирование по протоколам SSL и TLS.
техническое отличие – HTTP обычно использует порт соединения 80,
тогда как HTTPS – порт 443
HTTPS используется для обеспечения конфиденциальности в процессе
обмена данными между документами или клиентами сети
гипертекстовых документов.
Изначально защищенный протокол разрабатывался конкретно для
защиты персональных данных пользователей веб-браузеров. В общем
плане может использоваться для шифрования любых сетевых трансферов
по глобальной или локальной сети.

11. Протокол SSL


SSL (secure sockets layer — уровень защищённых cокетов) представляет собой
криптографический протокол для безопасной связи. С версии 3.0 SSL заменили на TLS
(transport layer security — безопасность транспортного уровня), но название
предыдущей версии прижилось, поэтому сегодня под SSL чаще всего подразумевают
TLS.
Цель протокола — обеспечить защищенную передачу данных. При этом для
аутентификации используются асимметричные алгоритмы шифрования (пара
открытый — закрытый ключ), а для сохранения конфиденциальности —
симметричные (секретный ключ). Первый тип шифрования более ресурсоемкий,
поэтому его комбинация с симметричным алгоритмом помогает сохранить высокую
скорость обработки данных.

12. Протокол TLS

Шифрование, аутентификация и целостность
Протокол TLS предназначен для предоставления трёх услуг всем приложениям,
работающим над ним, а именно: шифрование, аутентификацию и целостность.
Технически, не все три могут использоваться, однако на практике, для
обеспечения безопасности, как правило используются все три:
Шифрование – сокрытие информации, передаваемой от одного компьютера к
другому;
Аутентификация – проверка авторства передаваемой информации;
Целостность – обнаружение подмены информации подделкой.

13. Принцип работы поисковой системы

• Модуль индексирования.
• База данных
• Поисковый сервер

14. Модуль индексирования

Spider (по англ. паук) – программа которая предназначена для того чтобы
скачивать веб-страницы. «Паук» скачивает определенную страницу,
одновременно извлекая из нее все ссылки. Скачивается код html
практически с каждой страницы. Для этого роботы используют HTTPпротоколы.
Crawler («путешествующий» паук). Данная программа автоматически
заходит на все ссылки, которые найдены на странице, а также выделяет их.
Его задача – определиться, куда в дальнейшем должен заходить паук,
основываясь на этих ссылках или исходя из заданного списка адресов.
Indexer (робот-индексатор) – это программа, анализирующая страницы,
которые скачали пауки. Индексатор полностью разбирает страницу на
составные элементы и проводит их анализ, применяя свои
морфологические и лексические виды алгоритмов.

15. Поисковый сервер Принцип работы поискового сервера

Запрос, который идет от пользователя подвергается морфологическому
анализу. Информационное окружение любого документа, имеющегося в базе,
генерируется (оно и будет в дальнейшем отображаться как сниппет, т.е.
информационное поле текста соответствующего данному запросу).
Полученные данные передают как входные параметры специализированному
модулю ранжирования. Они обрабатываются по всем документам, и в итоге для
каждого такого документа рассчитывается свой рейтинг, который характеризует
релевантность такого документа запросу пользователя, и иных составляющих.
В зависимости от условий заданных пользователем этот рейтинг вполне может
быть подкорректирован дополнительными.
Затем генерируется сам сниппет, т.е. для любого найденного документа из
соответствующей таблицы извлекают заголовок, аннотацию, наиболее
отвечающую запросу, и ссылка на этот документ, при этом найденные
словоформы и слова подсвечивают.
Результаты полученного поиска передаются осуществившему его человеку в
виде страницы, на которую выдают поисковые результаты (SERP).

16. Ангел хранитель анонимности

17. Принцип работы TOR

Это называют луковичной маршрутизацией. Существует сеть узлов
принадлежащих приверженцам этой технологии. Для передачи данных
используются три произвольных узла. Какие из них? Этого никто не знает.
Тор браузер отправляет пакет первому узлу, причем в нем находится
зашифрованный адрес второго узла. Первый узел знает ключ для шифра
и, узнав адрес второго, переправляет туда пакет (это как у лука сняли
первый слой). Второй узел, получив пакет, имеет ключ для расшифровки
адреса третьего узла (сняли еще один слой с лука). Таким образом, со
стороны не возможно понять, какой именно сайт вы в итоге открыли в
окне своего Tor Browser.

18. Минусы

Интернет-провайдер (или кто-то еще, кто следит за вашим трафиком)
может понять, что вы используете Тор. Что именно вы смотрите или
делаете в сети он не узнает, но иногда сам факт знания того, что вы что-то
скрываете, может иметь последствия.
В сети TOR используется не специальное скоростное оборудование, а, по
сути, обычные компьютеры. Отсюда выплывает и еще один недостаток —
скорость передачи информации в этой секретной сети может
существенно различаться и иногда ее бывает явно недостаточно для,
например, просмотра медиа-контента.

19. Фишки поиска

1 .Как найти точную фразу или форму слова
Фишки поиска
С помощью оператора ” “. Заключите фразу или слово в кавычки, и Google будет искать веб-страницы, где есть ровно такая фраза
(форма слова).
2. Как найти цитату, в которой пропущено слово
Забыли слово в цитате? Возьмите всю цитату в кавычки, а вместо пропущенного слова поставьте звездочку *. Цитата найдется вместе
с забытым словом.
3. Как найти любые из нескольких слов
Просто перечислите все подходящие варианты через вертикальный слеш: |. Google будет искать документы с любым из этих слов.
4. Как найти слова в пределах одного предложения
Используйте оператор с красивым именем «амперсанд» — &. Если соединить слова амперсандом, Google найдет документы, где эти
слова стоят в одном предложении.
5. Как найти документ, содержащий определённое слово
Поставьте перед нужным словом плюс, не отделяя его от слова пробелом. В запрос можно включить несколько обязательных слов.
6. Как исключить слово из поиска
Поставьте минус перед словом, которое вы не хотите видеть в ответах. Так можно исключить даже несколько слов:
7. Как искать на определенном сайте
Для этого подойдет оператор site. Он позволяет прямо в запросе указать сайт, на котором нужно искать. Только обязательно поставьте
после site двоеточие.
8. Как искать документы определенного типа
Вам нужен оператор mime. Поставьте в запросе mime, двоеточие и затем тип документа, который вам нужен. Например, pdf или doc.
9. Как искать на сайтах на определенном языке
С помощью оператора lang. После lang нужно поставить двоеточие и написать, на каком языке вам нужны документы. Если это русский
язык, то нужно указать ru, если украинский — ua. Белорусский язык обозначается как be, английский — en, французский — fr.

20. Мета поисковые системы.

Мета поисковые системы дают возможность пользователю одновременно в
едином пользовательском интерфейсе, используя индексы обычных поисковых
систем, работать с несколькими БД. Зачастую эти системы не позволяют
реализовать все возможности отдельных поисковых систем, но в большинстве
своем они обладают существенными быстродействием и степенью охвата Вебпространства, что определяет их всё более возрастающие значение и
популярность.
Мета поиск позволяет посылать запросы одновременно нескольким поисковым
системам, каталогам и др. Полученные результаты собираются и объединяются
в общем списке. К достоинствам такого поиска относят больший охват
индексируемой части Интернета и увеличение эффективности поиска.

21. Схема работы

22. Задание подготовить презентацию

1. Найти примеры мета поисковых систем
2. Описать принцип работы мета поисковых систем
3. Поиграть с браузером TOR найти такие сайты которые открываются
только в TOR. (сделать 2 скриншота)
4. Понятие ssl сертификата, зачем нужен
English     Русский Rules