Какую работу выполняют работы поисковых машин. Поисковые машины, поисковики и роботы-пауки. Будущее поисковиков. Как ведут себя роботы и как ими управлять

Ежедневно в интернете появляется огромное количество новых материалов: создаются сайты, обновляются старые веб-страницы, загружаются фотографии и видеофайлы. Без невидимых поисковых роботов невозможно было бы найти во всемирной паутине ни один из этих документов. Альтернативы подобным роботизированным программам на данный момент времени не существует. Что такое поисковый робот, зачем он нужен и как функционируют?

Что такое поисковый робот

Поисковый робот сайтов (поисковых систем) - это автоматическая программа, которая способна посещать миллионы веб-страниц, быстро перемещаясь по интернету без вмешательства оператора. Боты постоянно сканируют пространство находят новые интернет-страницы и регулярно посещают уже проиндексированные. Другие названия поисковых роботов: пауки, краулеры, боты.

Зачем нужны поисковые роботы

Основная функция, которую выполняют поисковые роботы, - индексация веб-страниц, а также текстов, изображений, аудио- и видеофайлов, находящихся на них. Боты проверяют ссылки, зеркала сайтов (копии) и обновления. Роботы также осуществляют контроль HTML-кода на предмет соотвествия нормам Всемирной организации, которая разрабатывает и внедряет технологические стандарты для Всемирной паутины.

Что такое индексация и зачем она нужна

Индексация - это, собственно, и есть процесс посещения определенной веб-страницы поисковыми роботами. Программа сканирует тексты, размещенные на сайте, изображения, видео, исходящие ссылки, после чего страница появляется в результатах поиска. В некоторых случаях сайт не может быть просканирован автоматически, тогда он может быть добавлен в поисковую систему вручную веб-мастером. Как правило, это происходит при отсутствии на определенную (часто только недавно созданную) страницу.

Как работают поисковые роботы

Каждая поисковая система имеет собственного бота, при этом поисковый робот Google может значительно отличаться по механизму работы от аналогичной программы "Яндекса" или других систем.

В общих чертах принцип работы робота заключается в следующем: программа «приходит» на сайт по внешним ссылкам и, начиная с главной страницы, «читает» веб-ресурс (в том числе просматривая те служебные данные, которые не видит пользователь). Бот может как перемещаться между страницами одного сайта, так и переходить на другие.

Как программа выбирает, какой Чаще всего «путешествие» паука начинается с новостных сайтов или крупных ресурсов, каталогов и агрегаторов с большой ссылочной массой. Поисковый робот непрерывно сканирует страницы одну за другой, на скорость и последовательность индексации влияют следующие факторы:

  • внутренние : перелиновка (внутренние ссылки между страницами одного и того же ресурса), размер сайта, правильность кода, удобство для пользователей и так далее;
  • внешние : общий объем ссылочной массы, которая ведет на сайт.

Первым делом поисковый робот ищет на любом сайте файл robots.txt. Дальнейшая индексация ресурса проводится, основываясь на информации, полученной именно от этого документа. Файл содержит точные инструкции для "пауков", что позволяет повысить шансы посещения страницы поисковыми роботами, а следовательно, и добиться скорейшего попадания сайта в выдачу "Яндекса" или Google.

Программы-аналоги поисковых роботов

Часто понятие «поисковый робот» путают с интеллектуальными, пользовательскими или автономными агентами, "муравьями" или "червями". Значительные отличия имееются только по сравнению с агентами, другие определения обозначают схожие виды роботов.

Так, агенты могут быть:

  • интеллектуальными : программы, которые перемещаются от сайта к сайту, самостоятельно решая, как поступать дальше; они мало распространены в интернете;
  • автономными : такие агенты помогают пользователю в выборе продукта, поиске или заполнении форм, это так называемые фильтры, которые мало относятся к сетевым программам.;
  • пользовательскими : программы способствуют взаимодействию пользователя со Всемирной паутиной, это браузеры (например, Opera, IE, Google Chrome, Firefox), мессенджеры (Viber, Telegram) или почтовые программы (MS Outlook или Qualcomm).

"Муравьи" и "черви" больше схожи с поисковыми "пауками". Первые образуют между собой сеть и слаженно взаимодействуют подобно настоящей муравьиной колонии, "черви" же способны самовоспроизводиться, в остальном действуют так же, как и стандартный поисковый робот.

Разновидности поисковых роботов

Различают множество разновидностей поисковых роботов. В зависимости от назначения программы они бывают:

  • «Зеркальными» - просматривают дубликаты сайтов.
  • Мобильными - нацелены на мобильные версии интернет-страниц.
  • Быстродействующими - фиксируют новую информацию оперативно, просматривая последние обновления.
  • Ссылочными - индексируют ссылки, подсчитывают их количество.
  • Индексаторами различных типов контента - отдельных программ для текста, аудио- и видеозаписей, изображений.
  • «Шпионскими» - ищут страницы, которые еще не отображаются в поисковой системе.
  • «Дятлами» - периодически посещают сайты, чтобы проверить их актуальность и работоспособность.
  • Национальными - просматривают веб-ресурсы, расположенные на доменах одной страны (например, .ru, .kz или.ua).
  • Глобальными - индексируют все национальные сайты.

Роботы основных поисковых систем

Существуют также отдельные роботы поисковых систем. В теории их функциональность может значительно различаться, но на практике программы практически идентичны. Основные отличия индексации интернет-страниц роботами двух основных поисковых систем состоят в следующем:

  • Строгость проверки. Считается, что механизм поискового робота "Яндекса" несколько строже оценивает сайт на соответствие стандартам Всемирной паутины.
  • Сохранение целостности сайта. Поисковый робот Google индексирует сайт целиком (в том числе медиаконтент), "Яндекс" же может просматривать страницы выборочно.
  • Скорость проверки новых страниц. Google добавляет новый ресурс в поисковую выдачу в течение нескольких дней, в случае с "Яндексом" процесс может растянуться на две недели и более.
  • Частота переиндексации. Поисковый робот "Яндекса" проверяет наличие обновлений пару раз в неделю, а Google - один раз в 14 дней.

Интернет, конечно же, не ограничивается двумя поисковыми системами. Другие поисковики имеют своих роботов, которые следуют собственным параметрам индексации. Кроме того, существует несколько "пауков", которые разработаны не крупными поисковыми ресурсами, а отдельными командами или веб-мастерами.

Распространенные заблуждения

Вопреки распространенному мнению, "пауки" не обрабатывают полученную информацию. Программа только сканирует и сохраняет веб-страницы, а дальнейшей обработкой занимаются совершенно другие роботы.

Также многие пользователи считают, что поисковые роботы оказывают негативное воздействие и «вредны» интернету. Действительно, отдельные версии "пауков" могут значительно перегружать сервера. Имеет место и человеческий фактор - веб-мастер, который создавал программу, может допускать ошибки в настройках робота. Все же большинство действующих программ хорошо спроектированы и профессионально управляются, а любые возникающие неполадки оперативно устраняются.

Как управлять индексацией

Поисковые роботы являются автоматическими программами, но процесс индексации может частично контролироваться веб-мастером. В этом значительно помогает внешняя и ресурса. Кроме того, можно вручную добавить новый сайт в поисковую систему: крупные ресурсы имеют специальные формы регистрации веб-страниц.

Тематические коллекции ссылок - это списки, составленные группой профессионалов или даже коллекционерами-одиночками. Очень часто узкоспециализированная тема может быть раскрыта одним специалистом лучше, чем группой сотрудников крупного каталога. Тематических коллекций в Сети так много, что давать конкретные адреса не имеет смысла.

Подбор доменного имени

Каталог - удобная система поиска, однако для того, чтобы попасть на сервер компании Microsoft или IBM , вряд ли имеет смысл обращаться к каталогу. Угадать название соответствующего сайта нетрудно: www.microsoft.com , www.ibm.com или www.microsoft.ru , www.ibm.ru - сайты российских представительств этих компаний.

Аналогично, если пользователю необходим сайт , посвященный погоде в мире, его логично искать на сервере www.weather.com . В большинстве случаев поиск сайта с ключевым словом в названии эффективнее, чем поиск документа, в тексте которого это слово используется. Если западная коммерческая компания (или проект) имеет односложное название и реализует в Сети свой сервер , то его имя с высокой вероятностью укладывается в формат www.name.com , а для Рунета (российской части Сети) - www.name.ru , где name - имя компании или проекта. Подбор адреса может успешно конкурировать с другими приемами поиска, поскольку при подобной системе поиска можно установить соединение с сервером, который не зарегистрирован ни в одной поисковой системе. Однако, если подобрать искомое имя не удается, придется обратиться к поисковой машине.

Поисковые машины

Скажи мне, что ты ищешь в Интернете, и я скажу, кто ты

Если бы компьютер был высокоинтеллектуальной системой, которой можно было легко объяснить, что вы ищете, то он выдавал бы два-три документа - именно те, которые вам нужны. Но, к сожалению, это не так, и в ответ на запрос пользователь обычно получает длинный список документов, многие из которых не имеют никакого отношения к тому, о чем он спрашивал. Такие документы называются нерелевантными (от англ. relevant - подходящий, относящийся к делу). Таким образом, релевантный документ - это документ, содержащий искомую информацию. Очевидно, что от умения грамотно выдавать запрос зависит процент получаемых релевантных документов. Доля релевантных документов в списке всех найденных поисковой машиной документов называется точностью поиска. Нерелевантные документы называют шумовыми. Если все найденные документы релевантные (шумовых нет), то точность поиска составляет 100%. Если найдены все релевантные документы, то полнота поиска - 100%.

Таким образом, качество поиска определяется двумя взаимозависимыми параметрами: точностью и полнотой поиска. Увеличение полноты поиска снижает точность , и наоборот.

Как работает поисковая машина

Поисковые системы можно сравнить со справочной службой, агенты которой обходят предприятия, собирая информацию в базу данных (рис. 4.21). При обращении в службу информация выдается из этой базы. Данные в базе устаревают, поэтому агенты их периодически обновляют. Некоторые предприятия сами присылают данные о себе, и к ним агентам приезжать не приходится. Иными словами, справочная служба имеет две функции: создание и постоянное обновление данных в базе и поиск информации в базе по запросу клиента.


Рис. 4.21.

Аналогично, поисковая машина состоит из двух частей: так называемого робота (или паука), который обходит серверы Сети и формирует базу данных поискового механизма.

База робота в основном формируется им самим (робот сам находит ссылки на новые ресурсы) и в гораздо меньшей степени - владельцами ресурсов, которые регистрируют свои сайты в поисковой машине. Помимо робота (сетевого агента, паука, червяка), формирующего базу данных, существует программа , определяющая рейтинг найденных ссылок.

Принцип работы поисковой машины сводится к тому, что она опрашивает свой внутренний каталог (базу данных) по ключевым словам, которые пользователь указывает в поле запроса, и выдает список ссылок, ранжированный по релевантности .

Следует отметить, что, отрабатывая конкретный запрос пользователя, поисковая система оперирует именно внутренними ресурсами (а не пускается в путешествие по Сети, как часто полагают неискушенные пользователи), а внутренние ресурсы, естественно, ограниченны. Несмотря на то что база данных поисковой машины постоянно обновляется, поисковая машина не может проиндексировать все Web-документы: их число слишком велико. Поэтому всегда существует вероятность , что искомый ресурс просто неизвестен конкретной поисковой системе.

Эту мысль наглядно иллюстрирует рис. 4.22. Эллипс 1 ограничивает множество всех Web-документов, существующих на некоторый момент времени, эллипс 2 - все документы, которые проиндексированы данной поисковой машиной, а эллипс 3 - искомые документы. Таким образом, найти с помощью данной поисковой машины можно лишь ту часть искомых документов, которые ею проиндексированы.


Рис. 4.22.

Проблема недостаточности полноты поиска состоит не только в ограниченности внутренних ресурсов поисковика, но и в том, что скорость робота ограниченна, а количество новых Web-документов постоянно растет. Увеличение внутренних ресурсов поисковой машины не может полностью решить проблему, поскольку скорость обхода ресурсов роботом конечна.

При этом считать, что поисковая машина содержит копию исходных ресурсов Интернета, было бы неправильно. Полная информация (исходные документы) хранится отнюдь не всегда, чаще хранится лишь ее часть - так называемый индексированный список , или индекс , который гораздо компактнее текста документов и позволяет быстрее отвечать на поисковые запросы.

Для построения индекса исходные данные преобразуются так, чтобы объем базы был минимальным, а поиск осуществлялся очень быстро и давал максимум полезной информации. Объясняя, что такое индексированный список , можно провести параллель с его бумажным аналогом - так называемым конкордансом, т.е. словарем, в котором в алфавитном порядке перечислены слова, употребляемые конкретным писателем, а также указаны ссылки на них и частота их употребления в его произведениях.

Очевидно, что конкорданс (словарь) гораздо компактнее исходных текстов произведений и найти в нем нужное слово намного проще, нежели перелистывать книгу в надежде наткнуться на нужное слово .

Построение индекса

Схема построения индекса показана на рис. 4.23. Сетевые агенты, или роботы-пауки, "ползают" по Сети, анализируют содержимое Web-страниц и собирают информацию о том, что и на какой странице было обнаружено.


Рис. 4.23.

При нахождении очередной HTML-страницы большинство поисковых систем фиксируют слова, картинки, ссылки и другие элементы (в разных поисковых системах по-разному), содержащиеся на ней. Причем при отслеживании слов на странице фиксируется не только их наличие, но и местоположение, т.е. где эти слова находятся: в заголовке (title), подзаголовках ( subtitles ), в метатэгах 1Метатэги - это служебные тэги, позволяющие разработчикам помещать на Web-страницы служебную информацию, в том числе для того, чтобы сориентировать поисковую машину. ( meta tags ) или в других местах. При этом обычно фиксируются значимые слова, а союзы и междометия типа "а", "но" и "или" игнорируются. Метатэги позволяют владельцам страниц определить ключевые слова и тематику, по которым индексируется страница. Это может быть актуально в случае, когда ключевые слова имеют несколько значений. Метатэги могут сориентировать поисковую систему при выборе из нескольких значений слова на единственно правильное. Однако метатэги работают надежно только в том случае, когда заполняются честными владельцами сайта. Недобросовестные владельцы Web-сайтов помещают в свои метатэги наиболее популярные в Сети слова, не имеющие ничего общего с темой сайта. В результате посетители попадают на незапрашиваемые сайты, повышая тем самым их рейтинг. Именно поэтому многие современные поисковики либо игнорируют метатэги, либо считают их дополнительными по отношению к тексту страницы. Каждый робот поддерживает свой список ресурсов, наказанных за недобросовестную рекламу.

Очевидно, что если вы ищете сайты по ключевому слову "собака", то поисковый механизм должен найти не просто все страницы, где упоминается слово "собака", а те, где это слово имеет отношение к теме сайта. Для того чтобы определить, в какой степени то или иное слово имеет отношение к профилю некоторой Web-страницы, необходимо оценить, насколько часто оно встречается на странице, есть ли по данному слову ссылки на другие страницы или нет. Короче говоря, необходимо ранжировать найденные на странице слова по степени важности. Словам присваиваются весовые коэффициенты в зависимости от того, сколько раз и где они встречаются (в заголовке страницы, в начале или в конце страницы, в ссылке, в метатэге и т.п.). Каждый поисковый механизм имеет свой алгоритм присваивания весовых коэффициентов - это одна из причин, по которой поисковые машины по одному и тому же ключевому слову выдают различные списки ресурсов. Поскольку страницы постоянно обновляются, процесс индексирования должен выполняться постоянно. Роботы-пауки путешествуют по ссылкам и формируют файл, содержащий индекс, который может быть довольно большим. Для уменьшения его размеров прибегают к минимизации объема информации и сжатию файла. Имея несколько роботов, поисковая система может обрабатывать сотни страниц в секунду. Сегодня мощные поисковые машины хранят сотни миллионов страниц и получают десятки миллионов запросов ежедневно.

При построении индекса решается также задача снижения количества дубликатов - задача нетривиальная, учитывая, что для корректного сравнения нужно сначала определить кодировку документа. Еще более сложной задачей является отделение очень похожих документов (их называют "почти дубликаты"), например таких, в которых отличается лишь заголовок, а текст дублируется. Подобных документов в Сети очень много - например, кто-то списал реферат и опубликовал его на сайте за своей подписью. Современные поисковые системы позволяют решать подобные проблемы.

Поисковый робот (бот, паук, spider, crawler) — это специальная программа поисковика, предназначенная для сканирования сайтов в сети Интернет.

Многие не знают, что сканирующие боты просто собирают и сохраняют информацию. Они не занимаются ее обработкой. Это делают другие программы.

Если у вас есть желание посмотреть на сайт глазами поискового робота, то можно это сделать через панель вебмастера.

Посмотреть как Google можно через панель вебмастера. Там нужно добавить свой сайт и потом можно будет посмотреть на странице:

https://www.google.com/webmasters/tools/googlebot-fetch?hl=ru

Посмотреть как Яндекс можно через сохраненную копию страницы. Для этого находим нужную страницу в поиске Яндекса, жмем «сохраненная копия» и дальше «посмотреть текстовую версию».

Ниже приведу список поисковых роботов, которые ходят по нашим с вами сайтам. Одни из них индексируют сайты , другие следят за контекстной рекламой. Есть специализированные роботы, которые занимаются определенными узкими задачами. Например, индексируют картинки или новости.

Зная «в лицо» робота, можно запретить или разрешить ему ползать по сайту, тем самым можно снизить нагрузку на сервер. Ну или защитить свою информацию от попадания в сеть.

Поисковые роботы Яндекса

У поисковой системы Яндекс десятка полтора известных нам поисковых роботов. Список ботов, который мне удалось раскопать, в том числе и из официального хелпа, ниже.

YandexBot — основной индексирующий робот;
YandexMedia — робот, индексирующий мультимедийные данные;
YandexImages — индексатор Яндекс.Картинок;
YandexCatalog — «простукивалка» Яндекс.Каталога, используется для временного снятия с публикации недоступных сайтов в Каталоге;
YaDirectFetcher — робот Яндекс.Директа;
YandexBlogs — робот поиска по блогам, индексирующий посты и комментарии;
YandexNews — робот Яндекс.Новостей;
YandexWebmaster – приходит придобавлении сайта через форума AddURL;
YandexPagechecker — валидатор микроразметки;
YandexFavicons — индексатор фавиконок
YandexMetrika — робот Яндекс.Метрики;
YandexMarket — робот Яндекс.Маркета;
YandexCalendar — робот Яндекс.Календаря.

Поисковые роботы (боты) Google

Googlebot — основной индексирующий робот;
Googlebot Nes — индексатор новостей;
Googlebot Images — индексатор картинок;
Googlebot Video — робот для видео данных;
Google Mobile — индексатор мобильного контента;
Google Mobile AdSense — робот мобильного AdSense
Google AdSense — робот AdSense
Google AdsBot – бот проверки качества целевой страницы
Mediapartners-Google — робот AdSense

Роботы других поисковых систем

Так же, в логах своего сайта, вы можете наткнуться на некоторых роботов других поисковиков.

Рамблер — StackRambler
Мэйл.ру — Mail.Ru
Yahoo! — Slurp (или Yahoo! Slurp)
AOL — Slurp
MSN — MSNBot
Live — MSNBot
Ask — Teoma
Alexa — ia_archiver
Lycos — Lycos
Aport — Aport
Вебальта — WebAlta (WebAlta Crawler/2.0)

Кроме ботов поисковиков, по сайтам бегает огромная армия всяких левых пауков. Это различные парсеры, которые собирают информацию с сайтов, как правило, в корыстных целях их создателей.

Одни воруют контент, другие картинки, третьи взламывают сайты и расставляют втихаря ссылки. Если вы заметили, что подобный парсер присосался к вашему сайту — закройте ему доступ всеми возможными способами, в том числе и через файл robots.txt .

Высшее образование доступно - массажист обучение .

В Интернете не одна сотня миллионов ресурсов, и миллионы нужных страниц останутся неизвестны нам никогда. Как найти в этом океане нужную нам капельку? Вот здесь и приходит нам на помощь поиск овая машина. Это паук , и только он знает что и в каком месте паутины у него находится.

Поиск овые машины Интернет а, это сайты, специально сделанные так, чтобы помочь отыскать нужную информацию в глобальной сети всемирной паутины. Есть три основных функции, одинаковые для всех поиск овых машин:

- поиск овики на по заданным ключевым словам "обыскивают" интернет;
- адреса, индексируются поиск овиками вместе со словами;
- проиндексированные web-страницы образуют базу, которую поиск овики предоставляют пользователям для поиск а ключевых слов или комбинаций из них.

Первые поиск овики получали в день до 2,000 запросов и индексировали по сотеням тысяч страниц. Сегодя количество запросов в день идет на сотни миллионов страниц и десятки миллионов.

П оисковые машины до World Wide Web .

Первыми поиск овиками Интернет а были программы "gopher" и "Archie". Они индексировали файлы, находящиеся на подсоединенных к Интернет серверах, многократно снижая время на поиск нужных документов. В конце 1980-х годов умение работать в Интернет е сводилось к умению пользоваться Archie, gopher, Veronica и подобных поиск овые программы.

Сегодня Web стал наиболее востребованной частью Интернет а и большинство Интернет пользователей осуществляют поиск только в World Wide Web ( WWW ).

Робот-паук

Программа-робот применяемая в поиск овых машинах, еще она называется "spider", паук (спайдер) , осуществляет процесс создания списка слов, найденных на странице wed-ресурса. Процесс называется Web crawling (краулинг). Поиск овый паук просмотривает массу других страниц, строит и фиксирует список полезных слов, т.е. имеющих какое-то значение, вес.

Путешествие по поиск у в сети, паук (spider) начинает с наиболее крупного сервера и самых популярных web-страниц. Обойдя такой сайт и проиндексировав все найденные слова, он отправляется сканировать другие сайты по найденным ссылкам. Таким вот образом, робот-паук захватывает все web-пространство.

Основатели Google, Сергей Брин и Лауренс Пейдж, приводят пример работы гугловских паук ов. Их несколько. Поиск начинается тремя паук ами. Один паук одновременно поддерживает до 300 соединений со страницами. На пиковой загрузке, четыре паук а способны обрабатывать до ста страниц в секунду, генерируя при этом траффик около 600 килобайт/сек. На данный момент, когда вы это читаете, возможно цифры вам покажутся смешными.

Ключевые слова для поисковикового робота

Обычно владелец web-ресурса хочет быть включенным в поиск овые результаты по нужным поиск овым словам. Эти слова называются ключев ыми. Ключев ые слова определяют суть содержания web-страницы. И помогают в этом Мета-Теги. Они то и предлагают поисковому роботу выбор ключев ых слов, используемых для индексации страницы. Но не советуем накручивать мета-теги сверх популярными запросами, не связаннными содержанием с самой старницей. Поисковые роботы борются с этим явлением, и вам повезет, если он просто выкинет из рассмотрения мета-теги с ключев ыми словами, не соответствующими содержимому страниц.

Метатеги очень полезный инструемнт, когда ключев ые слова из них повторяються в тексте страницы несколько раз. Но не переборщите, существует вероятность, что робот примет страницу за дорвей.

Алгоритмы индексации поисковиков

Алгоритмы поиск овиков направлены на эффективность конечного результата, но подходы к этому у всех разные. У Lycos поиск овые роботы индексируют слова в заголовке (title), ссылках (линках) и до сотни часто употребляемых слов на странице и каждое слово из первых 20 строк контента страницы.

Робот Google принимает во внимание место расположения слова на странице (в элементе body). Слова служебных разделов, таких как subtitles, title, meta tags и др. помечает как особо важные, исключая междометия "a," "an" и "the.".

Другие поиск овики могут иметь несколько другой способ подхода к индексации слов, используемых для поиск овых запросов пользователями.

Всем привет! Сегодня я вам расскажу о том, как работает поисковый робот. Также вы узнаете, что такое поисковые роботы. Их назначение и особенность.

Для начала, начну, пожалуй, с определения.

Поисковый робот – это своего рода программа, которая посещает гипертекстовые ссылки, извлекая из того или иного ресурса все последующие документы занося их в индекс поисковой системы.

У каждого поискового робота, есть свое уникальное название – Краулер, Паук и т.д.

Что делает поисковый робот

Как я уже говорил, каждый робот имеет свое уникальное имя и соответственно, каждый выполняет свою определенную работу, или скажем так, предназначение.

Давайте рассмотрим, какие функции они выполняют:

  • Запрос на доступ к сайту;
  • Запрос для обработки и извлечению страниц;
  • Запрос на анализ контента;
  • Поиск ссылок;
  • Мониторинг обновлений;
  • Запрос к данным RSS (сбор контента);
  • Индексация.

Например, у Яндекса существует несколько роботов, которые отдельно индексируют, анализируют, проводят сбор информации о следующих данных:

  • Видео;
  • Картинки;
  • Зеркало сайта;
  • Xml-файлы;
  • Файл robots.txt;
  • Комментарии;

Вообще, по сути, поисковый робот всего-навсего посещает интернет ресурсы, собирая необходимые данные, которые он потом передает индексатору поисковой машины.

Именно индексатор поисковой машины обрабатывает полученные данные, и выстраивает индекс поисковой системы должным образом. Я бы даже сказал, что робот – это «курьер», который всего лишь собирает информацию.

Как ведут себя роботы и как ими управлять

Отличия поведения робота от простого пользователя на сайте, заключается в следующем:

1. Во первых, это касается управляемости. В первую очередь, робот запрашивает с вашего хостинга () файл robots.txt, в котором указанно, что можно индексировать, а что нельзя.

2. Особенное отличие робота – это скорость. Между каждыми запросами, которые относятся к двум разным документам, их скорость составляет секунды, а то и доли секунды.

Даже для этого, есть специальное правило, которое можно указать в файле robots.txt, чтобы роботу поисковых систем поставить ограничение к запросам, тем самым уменьшив нагрузку на блог.

3. Также, хотелось бы отметить их непредсказуемость. Когда робот посещает ваш блог, его действия невозможно отследить, невозможно узнать, откуда он пришел т.п. Он действует по своему принципу, и в том порядке, как построена очередь индексации.

4. И еще один момент, это когда робот, в первую очередь обращает внимание на гипертекстовые и текстовые документы, а не на всякие файлы, касающиеся оформления CSS и т.п.

Хотите посмотреть, как выглядит страница вашего блога в глазах поискового робота? Просто-напросто, отключите в своем браузере отображение Flash, картинок и стилей оформления.

И вы увидите, что любой поисковый робот заносит в индекс, только HTML-код страницы, без всяких картинок и прочего содержания.

А теперь, настало время поговорить, как ими управлять. Как я уже говорил ранее, управлять роботами можно через специальный файл robots.txt, в котором можно прописывать нужные нам инструкции и исключения, чтобы контролировать их поведение на своем блоге.