Парсер — программа для сбора информации. Источники информации, методы поиска и сбора данных в сети интернет Процесс получения данных из открытых источников

"Источники информации, методы поиска и сбора данных в сети Интернет"

интернет компьютерный сеть


Введению


Сеть Интернет похожа на огромную мировую библиотеку, имеющую только одно, но существенное отличие: для поиска книги в библиотеке есть каталог, в крайнем случае, можно обратиться к опытному библиотекарю. Полного каталога Интернета не существует. Но, тем не менее, поиск в глобальной компьютерной сети возможен, и это, пожалуй, является одной из наиболее важных его сторон. Для поиска данных в сети используются специальные серверы, информация на которых поддерживается и обновляется практически автоматически.

Сегодня, когда Интернет стал одним из основных источников информации, поиск в Сети приобретает все большую практическую ценность. Но с быстрым увеличением объема доступных данных все более усложняется и сама процедура поиска.

Интернет - это глобальная компьютерная сеть, которая связывает между собой как пользователей компьютерных сетей, так и пользователей ПК. Интернет медленно, но верно становится основным средством корпоративного общения, уступая пока телефону.

В Сети наличествует гигантское количество информационных ресурсов. По некоторым оценкам, число документов превысило 65 млн. и продолжает стремительно расти. Такой объем информации требует правильной организации процесса поиска и применения специальных технических средств, таких как поисковые машины. Простой поиск по достаточно распространенному ключевому слову дает обычно от десятков тысяч до нескольких миллионов ссылок. Очевидно, что работа с таким большим количеством документов практически невозможна, тем более что подавляющая их часть содержит информацию, не относящуюся к делу.

Источники информации в Интернете различаются по способу представления информации, а следовательно, и по методу доступа к ним.

Из всего выше сказанного вытекает актуальность темы данной курсовой работы.

Целью курсовой работы является выявление основных источников информации, методов поиска и сбора данных в сети Интернет

Для реализации поставленной цели необходимо решить следующие задачи:

Изучить источники маркетинговой информации и методы поиска;

оценить эффективность методов сбора и источников информации в интернет

Объектом исследования в данной курсовой работе является источники информации

Предметом исследования курсовой работы является оценка эффективности методов поиска, источников информации в Интернет.

Следует отметить, что вопросы, связанные с рассматриваемой темой освещены в научной и периодической литературе в объеме, достаточном для написания работы.

Теоретической и методологической основой работы послужили теоретические положения работ отечественных и зарубежных ученых. Весомый вклад в теорию исследуемых проблем внесли Ф. Котлер, М. Портер, А.М.Годин, Т.П. Данько, Н.Б. Завьяловой, О.В. Сагиновой. Нэреш К. Малхотра, дал основные теоретические сведения о проведения опроса и анализа полученных данных.

В числе основных информационных источников работы использовались публикации в таких периодических изданиях, как «Маркетинг в России и за рубежом», «Маркетинг. Идеи и технологии», «Маркетинг и маркетинговые исследования».


1.Интернет как источник маркетинговой информации. Методы поиска информации


Каждый пользователь Всемирной паутины сталкивается с проблемой поиска информации. Будь то реферат, курсовая, поиск этой информации может занять от пяти минут до нескольких часов - все зависит от умения искать и находить нужные данные в Интернете. В этом случае на помощь приходят всевозможные поисковые машины, каталоги и базы знаний. Рассмотрим их по отдельности.


.1 Каталоги сайтов


С этой категорией все довольно просто. Каталог представляет собой электронную библиотеку ссылок на ресурсы (сайты) определенной направленности. Здесь действительно все как в настоящей библиотеке - все сайты разложены по категориям, с краткими описаниями для более удобного восприятия. Главным минусом данной системы является так называемый «ручной набор» сайтов, т. е. далеко не все странички глобальной сети размещены.

Поисковые машины


Рис. 1.1 поисковик Google


Если, во всевозможных каталогах, вы так и не нашли, что искали. На помощь уже спешат многочисленные поисковики, благо их существует достаточное количество. Главными русскоязычного рынка являются Яндекс, Рамблер и Google. Также, вы можете обратиться к таким поисковикам, как Апорт, Yahoo! и прочим.


Рис. 1.2 поисковик Яндекс


Главный плюс любой поисковой машины кроется в механизме ее работы. В отличие от каталогов, поисковики для добавления сайтов в свою базу данных, используют специального робота-паука, который вполне удачно просматривает и индексирует все общедоступные сайты своей Глобальной Паутины. Но для удачного поиска будет мало лишь огромной базы спутника, ведь среди всех этих терабайт информации нам нужно найти именно нужную. Поэтому на любой из предложенных поисковиков и рассмотрим главные правила поискового дела.


1.2 Точность и простота запроса


Рис. 1.3 поисковик Апорт


Важнейшим фактором и залогом нашего успеха является правильность поискового запроса. К примеру, если вы хотите найти информацию о чемпионате по футболу Евро 2012 в Украине, вам следует вводить в строке поиска Евро 2012 Украина, а не просто футбол Украине. Машина ищет именно слова и словосочетания, она не знает, что вы имели ввиду, запросив какую-либо информацию, она не будет думать за вас! Также полезно знать, что любой современный поисковик сортирует найденную информацию по релевантности (степени совпадения вашего запроса с информацией на сайте), т. е. самый подходящий вам сайт будет находиться на первом месте и т. д. Также, обратите внимание, что поисковая система не индексирует и не ищет по предлогам и таким частым словам, как «где», «когда», «кто»; также она опускает знаки пунктуации (исключения составляют лишь очень распространенные комбинации, как $10 или С++).


1.3 Поиск цитаты или точного названия


С поиском цитат или точных названий фирм, музыкальных групп и пр., если поисковик не берет во внимание сильно распространенные слова? Очень просто. Стоит лишь заключить в кавычки весь запрос, и система тотчас же воспримет его как единое целое, не смея менять слова местами либо опускать какие-либо слова или символы. К примеру, если вы ищете текст песни «Белые розы», просто наберите фразу «что с вами сделали лед и морозы». Также можно заставить поисковую машину искать любое слово или символ, поставив пред ним «+». Результатом запроса «Обитель зла +3», будет именно ссылки на сайты о третьей части этого фильма.


1.4 Поиск по сайту или домену


Предположим, вы читали интереснейшую статью на каком-либо сайте, однако забыли сохранить ссылку в Избранном и теперь не можете ее найти. И с этой задачей способен справиться поисковик. К примеру, Google стоит лишь указать, на каком сайте искать, например: Как купить компьютер Данный запрос направит поисковую систему на указанный сайт, и найдет там нужную информацию. В Яндексе такой запрос выполняется немного сложнее: Как собрать компьютер. Также эта функция позволяет искать информацию в определенном домене, например, для поиска с помощью Google информации, расположенной на сайтах с адресом *.ru, можно ввести: Как купить компьютер site:ru - что может быть полезно для поиска данных определенного региона. Исключение из поиска. Поисковую машину можно не только «заставлять» искать нужный текст в Интернете, но и исключать некоторые слова из запроса. Если вы не хотите, что бы при поиске реферата на тему «История Древнего Египта» вам были предложены документы с его Культурой, просто введите в поисковое поле Google: история древнего египта -культура. В Яндексе вместо знака «-» используется сочетание знаков «~~». При таком запросе, слово «культура» было полностью исключено из критериев поиска.


.5 Поиск с учетом регистра


Поисковые системы не учитывают регистр, все заглавные символы воспринимаются машинами как строчные, за исключением использования специального операнда. Таковым является знак восклицания «!», стоящий перед словом. Эта функция очень полезна, чтобы искать села или города с распространенными названиями, к примеру «село!Кошки». В данном случае, поисковик не будет искать сайты, где речь ведется о селе, где живут кошки, а будет вести поиск с учетом заглавной буквы.


1.6 Базы знаний


Рис. 1.4 поисковик Wikipedia


Существуют сайты, которые не только предоставляют нам информацию, но и позволяют дополнять и редактировать ее. Такие проекты развиваются с огромной скоростью и очень быстро превращаются в огромные Базы знаний, к которым ежедневно обращаются люди, ищущие информацию в сети. Одним из самых грандиозных проектов по праву считается Википедия (#"justify">с337]

По источнику происхождения маркетинговую информацию можно разделить на первичную и вторичную. Первичная информация получается в результате специально проведенных исследований, вторичная уже существует в информационном пространстве как результат деятельности других субъектов.

Любое предприятие, в практической деятельности имеет дело преимущественно с вторичной информацией, получаемой как из внешней, так и внутренней среды. И только при отсутствии необходимой информации вторичного характера возникает необходимость в проведении маркетинговых исследований. Под маркетинговым исследованием понимают систематическое определение круга данных, необходимых в связи со стоящей перед фирмой маркетинговой задачей: их сбор, анализ и отчет о полученных сведениях, выводах и рекомендациях.

Интернет предоставляет отличные возможности для проведения маркетинговых исследований, даже силами самого предприятия, не прибегая к помощи специалистов по маркетингу. Маркетинговыми исследованиями могут заниматься как менеджеры по направлениям, так и руководители.

Можно выделить несколько направлений сбора информации с помощью сети Интернет:

мониторинг ключевых запросов;

изучение сайтов конкурентов;

изучение потребительского спроса.

Рассмотрим все эти направления подробнее.

Мониторинг ключевых запросов.

Ключевые запросы - это слова или комбинации слов, которые пользователи набирают в поисковых системах с целью нахождения необходимой информации. По статистике, около 70 % пользователей попадают на коммерческие сайты через различные поисковые системы. Самые популярные поисковые системы русскоязычной зоны Интернет:

Мониторинг ключевых запросов - это изучение ключевых запросов в различных поисковых системах, по различным категориям и признакам с целью выявления потенциального потребительского спроса среди пользователей Интернет. Мониторингом ключевых слов может заниматься отдел маркетинга совместно с ИТ-отделом, а при их отсутствии - менеджеры по направлениям или штатный веб-мастер компании. Небольшие фирмы могут прибегать к помощи специалистов извне (сейчас очень много фирм занимаются продвижением сайтов), но крупным фирмам, которые хотят использовать возможности Интернет на 100 %, лучше иметь в своем штате специалиста по интернет-маркетингу и продвижению веб-сайтов.

Изучение сайтов конкурентов.

Любая фирма должна учитывать не только запросы потребителей, но и поведение конкурентов. Каждый товар или услуга имеет свою конкурентную среду, особенности которой влияют на сложность работы на конкретном рынке. Фирмы подвержены влиянию факторов, с которыми сталкивается любая компания, работающая на конкурентном рынке.

Поведение фирмы обусловлено конкуренцией и рыночными условиями. Она вынуждена реагировать не только на изменение структуры отрасли, но и выбирать свою позицию в этой структуре. Конкурентная стратегия каждой фирмы разрабатывается в соответствии со структурой спроса, своим положением в отрасли и на конкретном рынке. Даже небольшие предприятия нуждаются в собственной стратегии, от которой зависит успех их дела. Хорошо разработанная стратегия позволяет фирме активнее влиять на происходящие на рынке события.

Таким образом, руководитель предприятия либо отдел, занимающийся маркетинговым анализом и ценообразованием, может сразу видеть реальную картину конкуренции, как по ценовому признаку, так и по привлекательности и насыщенности предоставленной информации на сайтах конкурентов. Изучая веб-сайты конкурентов можно отслеживать последние тенденции и инновации в бизнесе.

Так, на сегодняшний день все большее распространение получают следующие инновации:

тиражирование сайта (экспорт базы данных);

создание аккаунтов («кабинетов»);

размещение видеороликов;

возможность оплаты с помощью кредитных карточек.

Интернет - это особая информационная среда, где за достоверность информации ответственность несет лишь ее автор, поэтому к отзывам стоит относиться объективно. Бывает такое, что один и тот же объект размещения может получить абсолютно противоположные отзывы от разных отдыхающих.


2. Методы поиска информации в Интернете


Более или менее серьезный подход к любой задаче начинается с анализа возможных методов ее решения. Поиск информации в Интернете может быть произведен несколькими методами, значительно различающимися как по эффективности и качеству поиска, так и по типу извлекаемой информации. В ряде случаев приходится использовать весьма трудоемкие методы - результат того стоит.

Можно выделить следующие основные методы поиска информации в Интернете, которые, в зависимости от целей и задач ищущего, используются по отдельности или в комбинации друг с другом:

Использование поисковых машин

Поиск с применением специальных средств

Анализ новых ресурсов

Непосредственный поиск с использованием гипертекстовых ссылок

Поскольку все сайты в пространстве WWW фактически оказываются связанными между собой, поиск информации может быть произведен путем последовательного просмотра связанных страниц с помощью браузера. Хотя этот полностью ручной метод поиска выглядит полным анахронизмом в Сети, содержащей сотни миллионов узлов, "ручной" просмотр Web-страниц часто оказывается единственно возможным на заключительных этапах информационного поиска, когда механическое "копание" уступает место более глубокому анализу. Использование каталогов, классифицированных и тематических списков и всевозможных небольших справочников также относится к этому виду поиска.


2.1 Использование поисковых машин


Сегодня этот метод является одним из основных и фактически единственным при проведении предварительного поиска. Результатом последнего может являться список ресурсов Сети, подлежащих детальному рассмотрению. Как правило, применение поисковых машин основано на использовании ключевых слов, которые передаются поисковым серверам в качестве аргументов поиска: что искать. Если делать все правильно, то формирование списка ключевых слов требует предварительной работы по составлению тезауруса.


2.2 Поиск с применением специальных средств


Этот полностью автоматизированный метод может оказаться весьма эффективным для проведения первичного поиска. Одна из технологий этого метода основана на применении специализированных программ - спайдеров, которые в автоматическом режиме просматривают Web-страницы, отыскивая на них искомую информацию. Фактически это автоматизированный вариант просмотра с помощью гипертекстовых ссылок, описанный выше (поисковые машины для построения своих индексных таблиц используют похожие методы). Нет нужды говорить, что результаты автоматического поиска обязательно требуют последующей обработки. Применение данного метода целесообразно, если использование поисковых машин не может дать необходимых результатов (например, в силу нестандартности запроса, который не может быть адекватно задан существующими средствами поисковых машин). В ряде случаев этот метод может быть очень эффективен. Выбор между использованием спайдера или поисковых серверов являет собой вариант классического выбора между применением универсальных или специализированных средств.


2.3 Анализ новых ресурсов


Поиск по новообразованным ресурсам может оказаться необходимым при проведении повторных циклов поиска, поиска наиболее свежей информации или для анализа тенденций развития объекта исследования в динамике. Другой возможной причиной может явиться то, что большинство поисковых машин обновляет свои индексы со значительной задержкой, вызванной гигантскими объемами обрабатываемых данных, и эта задержка обычно тем больше, чем менее популярна интересующая вас тема. Это соображение может оказаться весьма существенным при проведении поиска в узкоспециальной предметной области.


2.4 Технология поиска с использованием поисковых машин. Определение географических регионов поиска


Рассмотрим основные этапы, которые так или иначе присутствуют при поиске информации с использованием поисковых машин.

Поскольку проведение информационного поиска преследует практические цели - маркетинговые, производственные, сугубо утилитарные и тому подобные, - практическая ценность информационного ресурса может зависеть и от географического расположения соответствующего источника.


2.5 Составление тезауруса


Для эффективного использования поисковых серверов необходим список ключевых слов, организованный с учетом семантических отношений между ними, т.е. тезаурус. При составлении тезауруса необходимо предусмотреть обработку синонимов, омонимов и морфологических вариаций ключевых слов.


2.6 Использование законов Зипфа


Число, показывающее сколько раз встречается слово в тексте, называется частотой вхождения слова. Если расположить частоты по мере убывания и пронумеровать, то порядковый номер частоты называется рангом частоты. Вероятность обнаружения слова в тексте = частота вхождения слова / число слов в тексте. Зипф нашел, что если умножить вероятность обнаружения слова в тексте на ранг частоты, то получившаяся величина приблизительно постоянна для всех текстов на одном языке:

С = (частота вхождения слов X ранг частоты) / число слов

Это значит, что график зависимости ранга от частоты - равносторонняя гипербола. Зипф также установил, что зависимость количества слов с данной частотой от частоты - также гипербола и постоянная для всех текстов в пределах одного языка.

Что можно извлечь из этих законов? Исследования вышеуказанных зависимостей для различных текстов показали, что наиболее значимые слова текста лежат в средней части диаграммы, так как слова с максимальной частотой как правило являются предлогами, частицами, местоимениями, в английском языке - артиклями (так называемые "стоп-слова"), а редко встречающиеся слова в большинстве случаев не имеют решающего значения. Основываясь на этой закономерности, можно предложить следующую методику.


2.7 Составление списка ключевых слов


Правильный набор ключевых слов имеет определяющее значение для оптимального поиска информации. К примеру, задав поисковой машине в качестве ключевого слова "МАРП", мы получим список документов, в которых встречается эта аббревиатура (Московское Агентство по Развитию Предпринимательства). Но если нас интересуют документы по более широкой теме, например: развитие предпринимательства, и мы сформируем простой запрос из этих двух слов, то поисковая машина выдаст нам список из сотен тысяч наименований, ориентироваться в котором будет весьма непросто.

Поэтому для составления оптимального набора ключевых слов используют процедуру, основанную на применении законов Зипфа, которая заключается в следующем: берут любой текст-источник, близкий к искомой теме, т.е. "образец", и анализируют его, выделяя значимые слова. В качестве текста-источника может служить книга, статья, Web-страница, любой другой документ.

Анализ текста производится таким образом:

Удаление из текста стоп-слов

Вычисление частоты вхождения каждого слова и составление списка, в котором слова расположены в порядке убывания их частоты.

Выбор диапазона частот, лежащего в середине списка, и отбор из этого диапазона слов, наиболее полно соответствующих смыслу текста.

Составление запроса к поисковой машине в форме перечисления отобранных таким образом ключевых слов, связанных логическим оператором ИЛИ (OR). Запрос в таком виде позволяет обнаружить тексты, в которых встречается хотя бы одно из перечисленных слов.

Число документов, полученных в результате поиска по этому запросу, может быть огромно. Однако, благодаря ранжированию документов (расположению их в порядке убывания частоты вхождения слов запроса в документ), применяемому в большинстве поисковых машин, на первых страницах списка практически все документы окажутся релевантными, причем документ-источник может находиться далеко от начала.

Более адекватной представляется структура тезауруса в виде так называемых семантических срезов, где для каждого основного термина отдельно строится таблица сопутствующих слов и слов шумовых (которые не должны встречаться в источнике), - некоторые поисковые машины (AltaVista) позволяют это использовать. Таким образом, вместо единой иерархической структуры терминов мы получаем пакет таблиц, которые могут расширяться и модифицироваться отдельно.

Отбор поисковых машин

Устанавливается последовательность использования поисковых машин в соответствии с убыванием ожидаемой эффективности поиска с применением каждой машины. Всего известно около 180 поисковых серверов, различающихся по регионам охвата, принципам проведения поиска (а следовательно, по входному языку и характеру воспринимаемых запросов), объему индексной базы, скорости обновления информации, способности искать "нестандартную" информацию и тому подобное. Основными критериями выбора поисковых серверов являются объем индексной базы сервера и степень развитости самой поисковой машины, то есть уровень сложности воспринимаемых ею запросов.

Составление и выполнение запросов к поисковым машинам

Это наиболее сложный и трудоемкий этап, связанный с обработкой большого количества информации (в основном шумовой). На основе тезауруса формируются запросы к выбранным поисковым серверам, после чего возможно уточнение запроса с целью отсечения очевидно нерелевантной информации. Затем производится отбор ресурсов, начиная с наиболее интересных, с точки зрения целей поиска. Данные с ресурсов, признанных релевантными, собираются для последующего анализа.

Формирование запросов

Как формат, так и семантика запросов варьируются в зависимости от применяемой поисковой машины и конкретной предметной области. Запросы составляются так, чтобы область поиска была максимально конкретизирована и сужена. Предпочтение отдается использованию нескольких узких запросов по сравнению с одним расширенным. В общем случае для каждого основного понятия из тезауруса готовится отдельный пакет запросов. Так же производится пробная реализация запросов - как для уточнения и пополнения тезауруса, так и с целью отсечения шумовой информации.

Языки запроса различных машин поиска в основном являются сочетанием следующих функций:

Операторы булевой алгебры AND, OR, NOT:(И) - осуществляется поиск документов, содержащих все термины, соединенные данным оператором;(ИЛИ) - искомый текст должен содержать хотя бы один из терминов, соединенных данным оператором;(НЕ) - поиск документов, в тексте которых отсутствуют термины, следующие за данным оператором.

Операторы расстояния - ограничивают порядок следования и расстояния между словами, например:- второй термин должен находиться на расстоянии от первого, не превышающем определенного числа слов;BY - термины следуют в заданном порядке;- термины, соединенные оператором, являются смежными.

Возможность усечения терминов - использование символа " * " вместо окончания термина позволяет включить в искомый список все слова, производные от его начальной части (шаблона).

Учет морфологии языка - машина автоматически учитывает все формы данного термина, возможные в языке, на котором ведется поиск.

Возможность поиска по словосочетанию, фразе.

Ограничение поиска элементом документа (слова запроса должны находиться именно в заголовке, первом абзаце, ссылках и т.д.).

Ограничения на количество совпадений терминов.

Возможность поиска графических изображений.

Чувствительность к строчным и прописным буквам.

Результат запроса (список ссылок) обрабатывается в два этапа. На первом этапе производится отсечение очевидно нерелевантных источников, попавших в выборку в силу несовершенства поисковой машины или недостаточной "интеллектуальности" запроса. Параллельно проводится семантический анализ, имеющий целью уточнение тезауруса для модификации последующих запросов. Дальнейшая обработка производится путем последовательного обращения на каждый из найденных ресурсов и анализа находящейся там информации.


2.8 Проблемы, возникающие в процессе поиска


Одна из проблем является чисто методологической. Для проведения эффективного поиска мы заинтересованы в одновременном решении двух противоположных задач:

увеличение охвата с целью извлечения максимального количества значимой информации;

уменьшение охвата с целью минимизации шумовой информации.

Нетрудно видеть, что одновременно осуществить это довольно сложно, хотя зачастую все-таки возможно. Один из методов, если поисковая машина позволяет, - это введение явных ограничений (запрещенных слов). Другой состоит в правильном формировании запросов, в частности, в предпочтении нескольких конкретизированных запросов одному общему. К сожалению, весьма ограниченный входной язык большинства машин не оставляет особенного простора для творчества в этом направлении.

Другая проблема - многовариантность человеческого языка. Если в английском языке некоторые слова имеют множество различных значений, то русский отличается богатством морфологических вариаций слов, а для полноты поиска необходимо учитывать еще и синонимы.

Часто в области российского Интернета возникают чисто технические трудности из-за различных кодировок информации. Российские поисковые машины распознают кодировки пользователя и искомого сайта, но совместить их удается не всегда.

Еще одна особенность русскоязычной части сети - ее нестабильность. Постоянно изменяются адреса и структура сайтов, они появляются и исчезают, и поисковые машины не успевают обновлять свои базы индексированных данных, поэтому значительная часть списка документов, выданного вам машиной, может оказаться недоступной.

Вывод: Поиск информации в сети - это достаточно специфическая и кропотливая работа, требующая определенных знаний и навыков. Для проведения поисковых работ пригодятся: знания основных информационных ресурсов и умение хорошо в них ориентироваться, практические навыки работы - это приходит со временем, хорошая зрительная память и умение быстро читать, а так же некоторые навыки аналитической работы.

Поисковые машины ищут информацию по всей сети Internet. На самом деле это не совсем верно. Если бы при реализации алгоритма работы поисковых машин был использован такой подход, то для обработки только одного запроса и выдачи результатов потребовалось бы несколько дней.

Каждая поисковая машина имеет и постоянно пополняет свою (локальную) базу данных. База данных поисковой машины содержит основные параметры (индексы) каждого известного данной машине (проиндексированного) документа. Каждая поисковая машина использует свои методы индексации. Кроме того, различные поисковые машины имеют разные объемы базы данных.

В результате, механизм обработки запроса пользователя поисковой машиной выглядит следующим образом:

в соответствии с заданным в запросе ключевым словом или словосочетанием, машина проводит поиск в своей локальной базе данных, сверяя ключевое слово с наборами ключевых слов, соответствующих каждому документу из её базы данных;

затем, используя соответствующие алгоритмы, поисковая машина сортирует результаты поиска и выдает их пользователю;

в результате сортировки результатов, в начало списка помещаются наиболее соответствующие (с точки зрения поисковой машины) ключевым словам документы.


Проведем исследование при помощи различных медовов поиска информаии в сети Интернет на примере вторичных данных.

Поисковые системы предназначены для поиска информации в глобальной сети Интернет. Информации сегодня в Сети существует огромное количество, и без поисковых систем практически невозможно было бы найти что-либо. Основные поисковые системы:

Яндекс- Выполняет поиск по русской части Интернет с учетом русской морфологии. Имеет очень мощный язык запросов. Результаты поиска упорядочиваются по степени значимости и содержат удобную аннотацию. Апорт- Поисковая система работает со всеми русскими кодировками, имеет гибкий язык запросов, есть возможность перевода запроса с русского на английский язык и наоборот. Результаты поиска сортируются по степени значимости, вместе со ссылкой отображается фрагмент текста, где встречается термин, а также дата и время последней модификации файла.Поисковая система позволяют выделять нужные результаты сразу несколькими способами:

Просмотр страниц с заданным типом контента: можно указать, что результаты поиска должны содержать только видео или только форумы.

Просмотр похожих запросов: вы можете просмотреть список запросов, близких по смыслу к вашему. Более того, вы можете получить визуальное представление взаимосвязей между запросами, воспользовавшись опцией «Колесо обозрения».

Фильтр по дате: вы можете получить самые свежие результаты, ограничив поиск последними сутками, неделей, годом или заданным периодом времени.

Цель исследования: анализ тенденции рынка Интернет рекламы в РБ, при помощи источников Интернет.

Будем использовать наиболее популярные поисковые машины такие как: Google, Яндекс, Апорт. Вводим в поисковик словосочетания: «Интернет- реклама в Беларуси.» Результат: Google 5 010 000 ссылок,


Рис.2.1-Поисковик Google


Яндекс по тому же запросы выдает 2 000 000 ссылок


Рис.2.2- поисковик Яндекс


Рис.2.3- поисковик Апорт


Задаем другое словосочетание: «Сегмент интернет рынка Беларуси». Результат: 425 000 ссылок.

Рис.2.4-Поисковик Google


Рис.2.5- поисковик Яндекс


Рис.2.6- поисковик Апорт


Рис.2.7-Поисковик Google


Рис.2.8- поисковик Яндекс


Рис.2.10- поисковик Апорт


Запрос Google:» прогнозы ZenithOptimedia интернет рекламы в РБ». Результат: 14 800 ссылок.


Рис.2.11-Поисковик Google


Яндекс: 21 000 ссылок.


Рис.2.12- поисковик Яндекс


Апорт: 33 943 ссылок.


Рис.2.13- поисковик Апорт


Исходя из поиска наиболее часто встречаемые сайты- это #"justify">Полученная информация позволяет сделать следующее:

Согласно последним данным компании ZenithOptimedia, рекламный рынок Беларуси упадет почти на 14%. По итогам 2011 года он может составить около 84 млн. долларов, в то время как в прошлом году эта цифра была равна 97,7 млн. долларов.

Более того, согласно прогнозу ZenithOptimedia, к 2012 году рынок рекламы не достигнет уровня 2010 года - в 2012 объем рекламы в Беларуси составит только 96 млн. долларов, пишет сайт Marketing.by.

Пожалуй, интернет-реклама - единственный сектор в рекламном бизнесе, который демонстрирует устойчивый рост в кризисных условиях, который покажет рост в 2011 году - по итогам года он покажет рост в 6,1%. Однако, согласно апрельскому прогнозу ZenithOptimedia, рынок интернет-рекламы должен был бы вырасти на 26,8%. Объем рынка интернет-рекламы к концу 2011 года составит 7,7 млн.долларов.

Причина длительного стабильного роста данного сегмента рекламного рынка, в том, что рекламодатели все больше верят в действенность интернет рекламы, которая за время своего развития превратилась из экзотики в мейнстрим, без которого не обходится ни один успешный деловой проект.

В Беларуси наблюдается активная динамика регистрации новых доменов для корпоративного использования. Предприятия Беларуси активней разрабатывают корпоративные сайты для своего бизнеса, что доказывает интенсивное развитие интернет рынка.

Одно из знаковых явлений- рост популярности поисковой (контекстной)рекламы в Интернете. Преимущество контекстной рекламы заключается в том, что ее невозможно блокировать (в отличие от баннеров и всплывающих окон), что и делает ее настолько эффективной. Радио, телевидение, печатные СМИ не могут даже приблизиться к уровню таргетивности контекстной рекламы. Ведущие электронные издания моментально оценили ситуацию и занялись активным размещением поисковой рекламы на своих виртуальных страницах.

Данная динамика свидетельствует о том, что интернет остается для рекламодателей наиболее перспективным каналом на фоне государственного регулирования других медиа (ТВ, пресса, радио).

Проникновение интернета в Беларуси на начало 2010 года составило 32%. Год назад этот показатель составлял 26%. Однако относительно высокая стоимость доступа в Сеть сдерживает более быстрый рост этого показателя.

По мнению исследователей бурный рост интернет-рекламы обусловлен излишним государственным регулированием других средств массовой информации в нашей стране, что тормозит их развитие. В 2009 году затраты на рекламу в Сети превысят затраты на радиорекламу. Также рост интереса к интернет-рекламе связан с увеличением количества белорусских интернет-пользователей и появлением возможности размещать рекламу на иностранных ресурсах, популярных у белорусов.

Т.к. доля интернета в общем рекламном рынке пока малозаметна (6,5%), положительная динамика в этом секторе не повлияет на общие результаты. В Беларуси по-прежнему сегмент телевизионной рекламы остается доминирующим и занимает более 60% рынка.



На сегодняшний день на белорусском рынке контекстной рекламы официально представлены три системы контекстной рекламы: Yandex, Google и «Бегун». Основное преимущество контекстной рекламы это то, что рекламодатели платят за реальные результаты

Тенденция развития рынка интернет рекламы является постоянно возрастающая целевая аудитория. Это связано с непрерывным развитием скоростного широкополосного доступа в сеть. В Европе и США широкополосный доступ в Интернет имеет более 30% населения, другие страны пока уступают, но демонстрируют высокие темпы роста этого показателя. В РБ подключения к интернету увеличиваются с каждым днем. Согласно данным провайдеров рост за первое полугодие 2010 года составляет более 50%.

Непрерывный рост числа подключений к Интернету через широкополосный доступ позволяет сделать вывод, что, помимо контекстной рекламы, наибольшим потенциалом для развития обладает медийная реклама, в основе которой - новые технологии психологического таргетинга. В Европе более чем в 50% заявок на проведение рекламных интернет кампаний упоминается необходимость использования Flash-ролики рекламного характера, которые осуществляют заданный сценарий коммуникации с клиентом. Уровень дохода этого сегмента на мировом рынке в 2009 году составлял 3-3,3 млрд. долларов при ежегодном росте 15-25%.

Медийная интернет реклама наиболее популярная среди рекламодателей. Медийная интернет реклама представлена в виде баннеров. Издатели предлагают баннерную рекламу за физическое размещение, что уже практически не используется во всем мире. Однако, на рынке интернет рекламы есть возможность размещения баннерной рекламы по показам. Для рекламодателей это наиболее эффективный способ размещения, который позволяет точно определить количество показов, переходов, покрытия аудитории.

Высоким потенциалом развития на мировом рынке интернет рекламы обладают многопользовательские ролевые онлайн, годовой денежный оборот. До сих пор первенство по обороту денег в игровой сфере успешно удерживали США - 29% мирового рынка, но Китай с 27% приблизился вплотную и показывает более высокий ежемесячный прирост.В отчете за 2009 год аналитики и эксперты «Digital Strategy Consulting» выделили следующие тенденции развития мирового рынка интернет рекламы до 2012 года:

Переход от телевидения к онлайн-просмотру, особенно с появлением новых интернет платформ.

Превращение в реальность мобильного Web: социальные медиа и geo-location based advertising (реклама по географическому положению) значительно расширят зону эффективности интернет рекламы.

Глобализация процессов интернет торговли. Постепенная систематизация рынка и разработка глобальных стратегий.

Повышение роли аналитики в оценке аудитории и подборе схемы оплаты.

В целом, специалисты уверены, что в 2011 году рост Интернет-рекламы продолжится, причем особенно заметен он будет в контекстной и нетрадиционной рекламе.

Как и во многих других странах, интернет стал практически единственной областью рынка рекламы, где в 2009 году возросли доходы издателей.

На 2009 год количество уникальных пользователей составило более 400 000 человек (около 9% населения) при объеме рынка интернет рекламы 1 440 000 долларов. Таким образом, каждый уникальный пользователь приносит участникам (издателям) рыка 3 доллара в год. Казалось бы, неплохо. Однако в развитых странах этот показатель может достигать 100 и более долларов. Так, при численности уникальных пользователей в США 227 млн. (74,7% населения), каждый из них приносит доход 132 доллара, или около 100 евро на человека в год.

На сегодняшний день рынок интернет-рекламы является одним из наиболее перспективных. Постоянно растущее число подключений к интернету, возрастающий интерес общественности, набирающий обороты PR позволяют прогнозировать рост посещаемости белорусских ресурсов.

С точки зрения экспертов, рынок интернет рекламы(в полном смысле этого слова - с большим количеством игроков и относительно стабильными ценами) - сформируется через 3-5 лет. Они предсказывают рост рынка за этот период в десятки раз. Пика популярности интернет-технологий следует ожидать через 5 лет, когда вырастет поколение, воспитанное на интернете и приученное покупать, продавать и потреблять при помощи интернет-технологий.

Рынок интернета уже сегодня составляет миллионы евро, а рынок интернет рекламы является составляющим первого. Дальновидные рекламодатели, чувствуя это, делают уже сегодня ставки на интернет, готовясь к встрече грядущей эры интернет-потребления. Особые надежды возлагаются на новые интерактивные виды рекламы.

Те бизнес-проекты, которые останутся за бортом рекламного интернет-пространства, будут довольствоваться низкоэффективной традиционной рекламой в газетах, журналах и радио, которая сегодня работает лишь в тандеме с интернет-рекламой и в самостоятельном виде является практически бесполезной тратой рекламного бюджета.

Выводы: По прогнозам, за пять лет у самых успешных интернет проектов оборот средств от продажи рекламы и рекламных услуг и продуктов будет измеряться десятками тысяч долларов в месяц. Так устроен человек, ему достаточно сложно менять свои привычки и однажды сложившееся мнение. Единицы меняют мир.

Поисковая система Google эффективна т.к по заданному словосочетанию (указанному выше) было найдено большое количество совпадений, так же Google отыскивает страницы, которые другие системы найти не могут. А если производить поиск в Интернете по 30 раз в день, то эффективность имеет большое значение., отличается от других систем тем,что ищет сайты и страницы в интернете не по ключевым словам, а по статистики ссылок или обращений на них. Именно поэтому результаты поиска в этой системе ранжируются иначе.


4. Оценка эффективности методов сбора, источников информации в Интернет


Под маркетинговыми исследованиями понимается систематический сбор, отображение и анализ данных по разным аспектам маркетинговой деятельности.

Маркетинговые исследования - это функция, которая через информацию связывает маркетологов с рынками, потребителями, конкурентами, со всеми элементами внешней среды маркетинга.

Первичная информация - это информация, которую исследователь самостоятельно получает специально для решения проблемы маркетингового исследования.

Для сбора информации о потребительских предпочтениях и предпочтениях квалифицированных специалистов в области методов сбора, источников информации в Интернете, использован метод опроса.

Опрос заключается в сборе первичной информации путем прямой постановки респондентом вопросов относительно уровня их знаний, отношению к продукту, предпочтений и покупательского поведения.

В зависимости от типов респондентов был выбран опрос, с участием категории населения, профессиональная деятельность которых не связана с предметом анализа.

Маркетинговое исследование проводилось с целью выявление особенностей поиска и использование информации в сети Интернет. Целевой аудиторией данного исследования является население Республики Беларусь до 18 лет и старше. Сбор данных проводится в городе Гомеле.

Для определения необходимого объема выборки была использована формула:

где n - объем выборки;- нормированное отклонение, определяемое исходя из выбранного уровня доверительности;- найденная вариация для выборки;- (100 - p);- допустимая ошибка.

Следовательно, объем вариации равен человек.

Любое маркетинговое исследование начинается с определения проблемы. Так, в нашем исследовании, проблема, требующая исследования, будет формулироваться следующим образом: « Как потребители относятся к использованию и поиску информации в сети Интернет?

Поисковые вопросы уточняют отдельные компоненты проблемы, каждый из которых может быть в свою очередь разбит на составляющие - поисковые вопросы. Поисковые вопросы определяют круг конкретной информации, которая потребуется для решения проблемы исследования. Так, поисковыми вопросами, в нашем исследовании могут выступать следующие: 1. Кто является пользователем поисковых машин»: каков пол, возраст, уровень дохода, социальный статус. 2.Какую поисковую машину выбирают пользователи? 3.Какие сайты чаще всего посещают пользователи? 4.С какой целью пользователи используют Интернет? 5.Какая информация наиболее интересна в Интернете? На основе поисковых вопросов можно сформулировать гипотезы: 1.Пользователи выбираю поисковую машину Google 2. Чаще всего пользователи поисковых машин являются население в возрасте:от19-25лет 3.Пользователи чаще всего посещают развлекательные сайты 4.Большинство пользователей используют Интернет для общения 5. Для пользователей наиболее интересна информация о развлечениях и отдыхе 6.Большинство пользователи находят нужную информацию 7. Пользователи пользуются Интернетом чаще дома

В сентябре - ноябре 2011 года было проведено маркетинговое исследование, в процессе которого было опрошено 150 граждан проживающих в городе Гомеле. Опрашиваемым было предложено заполнить анкету, состоящей из 17 вопросов. Временной период исследования составляет 12 недель с учетом составления анкеты и обработки полученных данных.

Для выявления предпочтений потребителей была разработана анкета (ПРИЛОЖЕНИЕ А).

В процессе маркетингового исследования при опросе респондентов были были выявлены следующие возрастные группы потребителей.(рис 3.1)


Рисунок 3.1- Диаграмма распределения респондентов по возрасту


Как видно из рисунка 3.1 по возрастному критерию использование поисковых систем большую доля составляют респонденты, чей возраст находится в приделах 19-25 лет, что составляет 35%. Граждане, чей возраст находится в приделах 56 лет и старше, составило в процентном отношении 3%. Целевая аудитория с точки зрения их сферы деятельности представлена на рисунке 3.2.


Рисунок 3.2 - Диаграмма распределения респондентов по социальному статусу


Анализируя ответы респондентов, можно сделать вывод, что значительная часть пользователей поисковых систем - это служащие (36 %) и рабочие (30 %). Далее с небольшой разницей следуют студенты(17 %) и предприниматели (15 %).

Полученные данные об уровне дохода населения представлены на рисунке 3.3


Рис. 3.3 - Диаграмма уровня дохода населения, %


Из рисунка 3.3 видно, что большее количество опрошенных респондентов имеют средний уровень дохода, который находится в приделах от 1 000 000 до 2 000 000 рублей, что составило 65,3%. Опрашиваемые с низкий уровень дохода составили 26,3%, а с высоким - 8%.


Рис. 3.4 - Диаграмма поисковых систем, %

Из рисунка 3.4 видно, что количество видов и наименований поисковой системы очень велико. Наибольшей популярностью пользуется системы Google.-45%, за тем Mail.ru, потом Yandex-20% и на последнем месте Rambler-10%. в целом существует большое различие в потребительских предпочтениях Google, Mail.ru, Yandex и Rambler наблюдается.


Рис. 3.5 - Диаграмма опрошенных потребителей в выборе посещения сайта, %


Рисунок 3.5 показывает, что сайты которые посещают чаще других.- это развлекательные-35%, за тем информационные -33%,потом корпоративные-25% и другое-7%


Рис. 3.6 - Диаграмма опрошенных потребителей в выборе поисковых систем, %


Из рисунка видно, что большинство опрошенных респондентов пользуются поисковыми системами-90,2%


Рис. 3.7 - Диаграмма выбора поисковых систем, %


По результатам исследования было выявлено, что для 61 % опрошенных поисковая системв является удобное средство коммуникации, для 34% простой эффективный способ нахождения информации и для 5% что-то другое. Наглядно структура ответов представлена на рисунке 3.7


Рис. 3.8 - Диаграмма пользования интернетом, %


Данное исследование дало информацию о частоте пользовании интернетом, где потребители которые посещают интернет ежедневно составило-74%, 3-4 раза в неделю- 16% и 3-4 раза в месяц-10 Наглядно структура ответов представлена на рисунке 3.8


Рис. 3.9 - Диаграмма места пользования интернетом, %


Как видно из рисунка 3.9 большинство респондентов пользуются интернетом дома(75%), 16% на работе, 5% в гостях и 4% в интерет кафе.


Рис. 3.10 - Диаграмма использование интернета, %


Рисунок 3.10 показывает, что респонденты чаще всего пользуются интернетом для общения(48%),а так же поиск информаии(26%),просмотр новостей (19%) и почта(7%)


Рис. 3.11 - Диаграмма информации в интернете, %


По результатам исследования было выявлено, что для 44 % опрошенных наиболее интересна информация о отдых и развлечение-44%, интернет-42%,бизнес 31%,компьютеры 29%, общество 27%, наука и образование 25%, культура и искусство 20%, медицина и здоровья 19%,дом и семья 18%. Наглядно структура ответов представлена на рисунке 3.11


Рис. 3.12 - Диаграмма распределения респондентов по ответу на вопрос: « Удается ли Вам найти нужную информацию в сети?», %


Из рисунка 3.12 видно, что большее количество опрошенных респондентов всегда находят информацию которую ищут-52%, за тем часто находят -33%, редко -12%, никогда 3%.

Таким образом, в ходе опроса были выявлены следующие предпочтения потребителей: большинство опрошенных предпочитают поисковую систему такую как Google, при этом, использование Mail.ru и не имеет большого разрыва между собой (5,%).

% выборки чаще всего посещают развлекательные сайты.58% потребителей посещают Интернет ежедневно, но как показал анализ, посещение ежедневно увеличивается. И делая прогноз на будущее роста предвидеться. Поэтому разработчикам поисковых систем нужно:


Заключению


Проведенное в курсовой работе исследование позволило сделать следующие выводы:

Поиск информации в сети - это достаточно специфическая и кропотливая работа, требующая определенных знаний и навыков. Для проведения поисковых работ пригодятся: знания основных информационных ресурсов и умение хорошо в них ориентироваться, практические навыки работы - это приходит со временем, хорошая зрительная память и умение быстро читать, а так же некоторые навыки аналитической работы.

Основной проблемой при поиске можно назвать неумение пользователя эффективно искать информацию в сети.

В связи с огромным количеством информации, размещенной в сети, ни одна из поисковых машин не в состоянии просмотреть все документы. Каждая поисковая машина индексирует только часть их. Все остальные документы, а к сожалению это большая часть ресурсов, найти с ее помощью не удастся.

В целом, динамика развития рынка интернет-рекламы в Беларуси в течение последних нескольких лет вселяла оптимизм - его оборот ежегодно удваивался. В 2008 году он составил около 6,3 млн долларов (по оценке ZenithOptimedia). И это при том, что рост сегмента сдерживался рядом факторов, среди которых - дефицит компетенции в сфере интернет-рекламы, отсутствие единой системы статистики и анализа. Но в свете вышеописанных событий, произошедших на рынке в последнее время, ситуация существенно изменилась. Рынок становится профессиональным, институционализируется, и есть все основания утверждать, что прогнозируемый 25%-ный рост - абсолютно реальный и достижимый показатель.

Таким образом, в ходе опроса были выявлены следующие предпочтения потребителей: большинство опрошенных предпочитают поисковую систему такую как Google, при этом, использование Mail.ru и не имеет большого разрыва между собой (5,%).

% выборки чаще всего посещают развлекательные сайты.

% потребителей посещают Интернет ежедневно, но как показал анализ, посещение ежедневно увеличивается. И делая прогноз на будущее роста предвидеться. Поэтому разработчикам поисковых систем нужно:

совершенствование алгоритмов поиска (или разработку новых стратегий поиска), и на сопутствующие «навороты» типа дизайна и дополнительных сервисов;

обеспечить разбор запросов (вопросов), заданных естественным языком;

Индексировать поисковики внешние файлы CSS;

Увеличить размер документа или размер той части, что будет проиндексирована

Благодаря разнообразию поисковых систем, специально поиск, с применением поисковых машин, является самым распространенным и эффективным методом поиска чего-то конкретного в сети Интернет. Каждый может без труда отсечь заведомо ненужный поток информации, лишь правильно сформулировав цель поиска.

Хотя остальные методы ничем не хуже, только они применяются очень редко и только в том случае, если при помощи поисковой машины ничего нельзя найти. Пользоваться поисковыми машинами удобно и легко.


Список использованных источников


Акулич, И.Концепция интернет- маркетинга/Иван Акулич, Вадим Голик/ Наука и инновации.-2010.-№2.-с62-66

Беляевский, И. К. Маркетинговое исследование: информация, анализ, прогноз: Учеб. Пособие. - М. : Финансы и статистика, 2004. - 320 с.: ил.

Годин, А.М. Маркетинг: учеб. Для вузов/ А.М. Годин- М.: Дашков и К, 2007- 337с

Голубков, Е.П. Маркетинговые исследования: теория, методология и практика. - М.: Издательство «Финпресс», 1998. - 416 с.

Данько, Н.Б. Завьяловой, О.В. Сагиновой.- Электронный маркетинг: учеб. Пособие для вузов/ под ред. Т.П. М.: ИНФРА-М, 2003.-с.337

Данишевская, О. Технические решения веб-аналитики /Ольга Данишевская//Маркетинг. Идеи и технологии.- 2010.-№8.-с47-53

Дурович, А. П. Маркетинговые исследования: учебное пособие / А. П. Дурович. - Минск: ТетраСистемс, 2009. - 432 с.

Зиссер, Ю.А. Маркетинг on-line./ Ю. А. Зиссер.- Мн.:Изд-во Гревцова,2007, с 304

Зорина, Т. Г. Маркетинговые исследования: учеб. Пособие / Т. Г. Зорина, М. А. Слонимская. - Минск: БГЭУ, 2010. - 411 с.

Малхотра, Нэреш К. Маркетинговые исследования. Практическое руководство, 3-е издание.: Пер. с англ. - М.: Издательский дом «Вильяме», 2002. - 960 с.: ил. - Парал. тит. англ.

Холмогоров, В. Интернет-маркетинг. Краткий курс/ В. Холмогоров.- Спб: Питер,2001.-с. 208


Уважаемый респондент!

Просим Вас принять участие в маркетинговом исследовании, которое направлено на изучение эффективного метода поиска и источников информации в Интернет. Анкета носит анонимный характер, поэтому просим Вас искренне отвечать на вопросы интервьюера. Нужный отметить?

Пользуетесь ли Вы поисковыми системами?

Какими поисковыми системами Вы пользуетесь?

Д) Ваш вариант ________

Что влияет на выбор поисковой системы?

А) Удобное средство коммуникации.

Б) Простой и эффективный способ нахождения нужной информации.

В) Ваш вариант___________

Как часто Вы пользуетесь Интернет?

А) ежедневно

Б) 3-4 раза в неделю;

В) 3-4 раза в месяц

Г) Ваш вариант_________

Где Вы чаще всего пользуетесь Интернетом?

Б) В гостях

В) В Интернет кафе

Г) На работе

Д) Ваш вариант_______

. Какие сайты Вы посещаете чаще других

А) информационные

Б) развлекательные

В) корпоративные

Г) Ваш вариант________

Какая информация в Интернет для Вас наиболее интересна?

А) Бизнес

Б) Дом, семья

В) Интернет

Г) Компьютеры

Д) Культура и искусство

Е) Медицины и здоровье

Ж) Наука и образование

З) Общество

И) Развлечение, отдых

К) информация справочного характера(погода, курсы валют и др)

Л) Ваш вариант___________

Для чего Вы пользуетесь Интернетом?

А) Поиск информации.;

Б) Просмотр новостей;

В) Общение: ICQ, чаты и т.д;

Г) Почта.;

Д) Ваш вариант ________

Удается ли Вам найти нужную информацию в сети?

А) Всегда

Б) Часто

В) Редко

Г) Никогда.

Укажите, пожалуйста, Ваш пол.

А) мужской;

Б) женский.

Укажите, пожалуйста, Ваш возраст.

Б) от 19 до 25 лет;

В) от 26 до 35 лет;

Г) от 36 до 45 лет;

Д) от 46 до 55 лет

Е) от 56 лет и старше.

Укажите, пожалуйста, уровень Вашего совокупного дохода.

А) ниже 1 млн. руб.;

Б) от 1 млн. руб. до 2 млн. руб.;

В) свыше 2 млн. руб.

Укажите, пожалуйста, Ваш социальный статус.

А) рабочий;

Б) служащий;

В) предприниматель;

Г) студент;

Д) Ваш вариант _________

Если у Вас есть какие либо комментарии в отношении данного анкетирования, пожалуйста, укажите их: ____________

Благодарим Вас за помощь в проведении исследования.


Репетиторство

Нужна помощь по изучению какой-либы темы?

Наши специалисты проконсультируют или окажут репетиторские услуги по интересующей вас тематике.
Отправь заявку с указанием темы прямо сейчас, чтобы узнать о возможности получения консультации.

Парсер – это программа для автоматизации процесса парсинга, то есть обработки информации по определенному алгоритму. В этой статье я приведу несколько примеров программ-парсеров и в двух словах опишу их назначение и основные функции.

Парсер контента X-Parser

Основные функции программы также состоят их нескольких программных блоков.

  • Парсер вылачи любых поисковых систем по ключевым запросам
  • Парсер контента с любого сайта
  • Парсер контента по ключевым запросам из выдачи любой поисковой системы
  • Парсер контента по списку URLов
  • Парсер внутренних ссылок
  • Парсер внешних ссылок

Программа WebParser

Парсер WebParser представляет собой универсальную программу. основная функция которой — парсинг поисковых систем. Работает с ПС Google, Яндексом, Рамблером, Yahoo и некоторыми другими. анализирует движки (CMS) сайтов. Совместима со всеми версиями Windows, начиная с W2000. Болле полную информацию .

Плагин WP Uniparser

Не забудем и плагин для WordPress WP Uniparser . О нем можно больше узнать, пройдя по этой ссылке .

Парсер «Магадан»

Парсер ключевых слов c романтическим названием «Магадан» создан именно для целевой обработки ключевых слов Яндекс.Директа. Полезен при составлении семантического ядра, подготовке рекламных компаний и для сбора и анализа информации.

В завершение стоит упомянуть о языке программирования для создания сайтов Parser , созданного на студии Артемия Лебедева и служащего для разработки сайтов. Этот язык будет несколько посложнее, чем обыкновенный HTML, но не требующий такой основательной подготовки, как, например, язык PHP.

ВВЕДЕНИЕ

Сеть Интернет похожа на огромную мировую библиотеку, имеющую только одно, но существенное отличие: для поиска книги в библиотеке есть каталог, в крайнем случае, можно обратиться к опытному библиотекарю. Полного каталога Интернета не существует. Но, тем не менее, поиск в глобальной компьютерной сети возможен, и это, пожалуй, является одной из наиболее важных его сторон. Для поиска данных в сети используются специальные серверы, информация на которых поддерживается и обновляется практически автоматически.

Сегодня, когда Интернет стал одним из основных источников информации, поиск в Сети приобретает все большую практическую ценность. Но с быстрым увеличением объема доступных данных все более усложняется и сама процедура поиска.

Интернет – это глобальная компьютерная сеть, которая связывает между собой как пользователей компьютерных сетей, так и пользователей ПК. Интернет медленно, но верно становится основным средством корпоративного общения, уступая пока телефону.

В Сети наличествует гигантское количество информационных ресурсов. По некоторым оценкам, число документов превысило 65 млн. и продолжает стремительно расти. Такой объем информации требует правильной организации процесса поиска и применения специальных технических средств, таких как поисковые машины. Простой поиск по достаточно распространенному ключевому слову дает обычно от десятков тысяч до нескольких миллионов ссылок. Очевидно, что работа с таким большим количеством документов практически невозможна, тем более что подавляющая их часть содержит информацию, не относящуюся к делу.

Источники информации в Интернете различаются по способу представления информации, а следовательно, и по методу доступа к ним.

1 СРЕДСТВА ПОИСКА

1.1 Средства поиска файлов

Поиск файла вручную в сложной структуре каталогов ftp-сервера может занять достаточно много времени. Для упрощения и ускорения поиска была разработана поисковая служба Интернета Archie, представляющая собой специальные Archie-сервера, хранящие содержание каталогов анонимных ftp-серверов. При обращении с поисковым запросом на Archie-сервер результатом поиска является список адресов анонимных ftp-серверов, на которых имеется искомый файл.

Но возникает задача отыскать среди множества файлов этого сервера искомый, что достаточно сложно из-за маловыразительных и непонятных имен файлов и каталогов. Для решения этой проблемы используется система Gopher, позволяющая перемещаться по системе контекстных меню, показывающих содержимое фай лов с использованием понятых обозначений. Существует очень много Gopher-серверов, которые содержат архивы данных в виде иерархически структурированных каталогов, упорядоченных по содержанию. Работа с ними очень проста и соответствует работе с обычным отображением файловой системы.

Существует расширение этой системы - Veronica, которое содержит в своей базе данных каталоги всех Gopher-серверов. После ввода поискового запроса Veronicaавтоматически просматривает все Gopher-каталоги на наличие искомой информации и тем самым избавляет от долгого поиска вручную по многим Gopher-серверам.

С таким способом навигации Gopherв определенной степени был предшественником WWW. В настоящее время применение Gopherуменьшается пропорционально росту использования WWW.

1.2 Средства WWW - WorldWideWeb (Всемирная сеть)

В 1993 году была разработана информационно-поисковая система WWW, которая благодаря простоте навигации и доступности открыла информационные источники Интернета неподготовленным пользователям. WWW вызвал бум в сети Интернет, который продолжается по настоящее время, и объемы доступной информации Интернета ежегодно удваиваются.

WWW основывается на принципе гипертекста (уже знакомого читателю), то есть на системе документов, связанных гиперссылками. Гипертекст представляет собой ключевые Слова, особым образом выделенные из обычного текста. Гипертекстовые ссылки отправляют пользователя на другие документы того же сервера либо на другие сервера, которые могут располагаться в любом месте Интернета. Если этот текстовый документ тоже гипертекстовый, то его ссылки позволяют перейти далее на соответствующие документы. Каждая переадресация происходит для пользователя незаметно, так что он может просматривать информационный состав Интернета но содержательному принципу, не заботясь об адресации конкретных компьютеров.

С развитием мультимедийных приложений изначально чисто гипертекстовые документы все больше и больше становятся гипермедийными. Таким образом, WWW-документы могут существовать в любом формате данных: текст, графика, звук/музыка или видеоклип. Ориентация и навигация во Всемирной сети происходят с использованием специальных программ, называемых WWW-браузерами, обеспечивающими пользовательский интерфейс, как, например, NetscapeNavigator или MicrosoftInternetExplorer.

Отправной точкой поиска информации служит, как правило, основная (базовая, домашняя) страница (сайт) информационного ресурса, которой можно достичь, введя соответствующий адрес в браузере (например, http://ncpi.gov.byили www.iparegistr.com). WWW-сайты создаются и обновляются фирмами либо специальными организациями, публикующими информацию и следящими за содержанием своих WWW-страниц. Использование WWW, таким образом, не является пассивным, и каждый пользователь Интернета при помощи специальных программ-редакторов гипертекста может самостоятельно создавать собственные интерактивные WWW-страницы. Это и открыло путь для растущей коммерциализации и расширения Интернета.

В настоящее время вновь создаваемая информация, как правило, изготавливается с учетом необходимости обеспечения WWW-доступа, а более ранние документы постепенно преобразуются под него, однако во всем мире существуют еще миллионы файлов в форм отличных от требований WWW. Для использования этой информации и через WWW в браузеры включены вышеописанные службы Интернета, обеспечивающие доступ к ней (telnet, ftp, Archie, Gopher). Через WWW можно использовать и другие службы Интернета, которые предназначены для общения (eMail, NetNews). Поэтому WWW-браузер стал в настоящее время универсальной коммуникационной программой Интернета.

С появлением WWW-службы и начался бум в сети Интернет. Благодаря этой простой в применении и единой для всех служб пользовательской среде Интернет заинтересовал множество людей и организаций. Оказалось вдруг, что не надо быть специалистом в области Интернета, чтобы пользоваться службами сети. Это можно сравнить с успехом фирмы Microsoft, связанным с выпуском MicrosoftWindows в качестве графической пользовательской оболочки. До появления Windows у каждого DOS-приложения было собственное руководство пользователя и тем самым требовалось отдельно изучать каждое приложение.

2 ОСНОВНЫЕ ПРИЕМЫ ПОИСКА ИНФОРМАЦИИ В ИНТЕРНЕТЕ

2.1 Основные требования к поиску

К результатам поиска предъявляются требования полноты охвата ресурсов, достоверности полученной информации, минимальных затрат времени и максимальная скорость поиска.

Требование полноты охвата ресурсов не нуждается в дополнительных пояснениях, за исключением необходимости использовать при поиске ресурсы не только WWW, но и других служб Интернета.

Достоверность информации, учитывая природу Интернета, становится чрезвычайно важным требованием. Оценка достоверности может производиться как традиционными методами (проверка легальности публикаций на бумажных носителях, получение сведений об организациях и авторах, выяснение действительности их электронных ресурсов и т.п.), так и с Использованием возможностей Интернета (ознакомление с альтернативными источниками информации, сверка фактического материала, установление частоты его использования другими источниками; выяснение статуса документа и рейтинга источника средствами поисковых систем, получение информации о компетентности и статусе автора материала с помощью специальных поисковых сервисов Интернета; анализ отдельных элементов организации сайта с целью оценки квалификации поддерживающих его специалистов и другое).

Время поиска, не считая затрат времени, связанных с техническими характеристиками подключения, в основном зависит от планирования поиска и навыков работы специалиста по поиску с ресурсом выбранного типа. Планирование поиска заключается в определении требуемых для разрешения поискового требования поисковых служб и порядка их применения. Кроме того, многое зависит от навыков и опыта конкретного специалиста по поиску.

Как уже отмечалось, информация в Интернете доступна из источников разного типа. Прежде всего - это WWW-ресурсы (гипертекстовая система, каталоги ресурсов, поисковые машины). Кроме того, это уже известные читателю электронная почта, почтовые роботы, Usenet и другие телеконференции, а также ftp-системы и архивы (с применением Gopher и Veronica). WWW позволяет производить поиск требуемых ресурсов на основе своих гиперсвойств, то есть имеющиеся поисковые системы работают с использованием гиперссылок в автоматическом режиме, не исключая возможности ручного просмотра. В WWW имеется целый ряд поисковых сервисов как общего, так и специализированного назначения.

Каталоги ресурсов представляют собой базы данных с адресами ресурсов Интернета и самыми разными тематиками. Обычно они имеют иерархическую структуру, привычную для пользователя, и некоторые средства поиска по ней. Эти каталоги в большей своей части обслуживаются специалистами по классификации, то есть предопределяется некоторый субъективный подход к отбору информации, который, с одной стороны, несколько гарантирует достоверность информации, но с другой - предопределяет возможность отсутствия (пропуска) части информации, а также се запоздалое размещение в каталоге.

Поисковые машины - это механизм автоматического построения ссылок (индексов) на различные ресурсы. Поисковые машины могут быть ориентированы на глобальные, специализированные или локальные ресурсы. По сути они являются мощными ИПС, которые с помощью специальных программ-роботов (так называемых "пауков") постоянно осуществляют автоматический поиск требуемой информации в Интернете. Созданные на этой основе специализированные БД обеспечивают поиск информации по запросам пользователей на основе специальных ИПЯ. Правда, охват просматриваемой информации зависит от применяемых алгоритмов и даже для мощных поисковых машин оставляет желать лучшего.

Электронная почта применяется в Интернете и в WWW. Адреса при этом попадают в поисковые системы и доступны поисковым машинам.

Почтовые роботы - это специальные программы, способные отвечать определенными действиями на команды, поступающие им, но электронной почте. Их основное назначение - пересылка данных по запросу в случае, когда те недоступны иным способом, а также как альтернатива работы в режиме online с каким-либо из известных ресурсов, например ftp-архивами. Адрес почтового робота имеет формат электронной почты. При поиске почтовые роботы обычно используются лишь как посредники при получении информации. Иногда приходится сталкиваться с тем, что они оказываются единственным средством получения нужных сведений.

Usenet и другие региональные и специализированные телеконференции представляют собой электронные "доски объявлений", где пользователь размещает свою информацию в одной из тематических групп новостей, передаваемых подписчикам соответствующей тематики. Этот ресурс наиболее значим для быстрого накопления информации, но узкому вопросу, а при поиске - чаще для получения частной, неофициальной информации.

Ресурсы, доступные по telnet, в ряде случаев представляют собой совершенно уникальную информацию, прежде всею по библиотечным каталогам европейских и американских университетов, а также государственных учреждений.

Как уже отмечалось, система файловых архивов ftp имеет достаточно обширные ресурсы ценной информации, до сих пор не переведенной в WWW. Архивы ftp представляют собой в первую очередь источники получения программного обеспечения. Поиск в них может представлять определенный интерес при знании структуры архивов; построения файловых систем, имен файлов и каталогов, содержащих требуемые ресурсы.

2.2 Методика поиска информации в Интернете

Поиск необходимой информации в Интернете можно осуществлять различными способами:

· Поиск с помощью поисковых машин по ключевому слову

· Поиск с помощью классификаторов поисковых машин

· Каталоги и коллекции ссылок (более общие понятия)

· Конференции, чаты

· Страницы ссылок (“Links”) на тематических сайтах (редкие, специализированные вещи)

· Несетевые способы (советы друзей, знакомых; реклама в печатных изданиях)

В начале поиска информации необходимо определить ее тип. Условно можно выделить 4 типа информации.

1 тип - общая (например: история Российской империи),

2 тип - менее общая (например: император Александр II),

3 тип - конкретная (например: реформы Александра II),

4 тип - более конкретная (например: отмена крепостного права).

В зависимости от типа информации определяются и пути поиска.

Информация 1 типа ищется с помощью классификаторов поисковых машин (из российских - рекомендуется Яндекс www.Yandex.ru). Если сразу сайты с требуемой информацией не находятся, то следует просматривать найденные по классификатору каталоги и страницы ссылок (“Links”), которые находятся сайтах подобной тематике. Эти сайты приводятся в классификаторе по теме и найденных каталогах.

Информация 2 типа ищется подобно поиску для 1 типа, но с преимуществом поиска по каталогам и страницам ссылок.

Информация 3 типа - по ключевым словам, которые вводятся в строку поиска поисковых машин, каталогам, страницам ссылок

Информация 4 типа - по подробным данным, которые вводятся в строку поиска. Данные находятся согласно способам поиска изложенных для 2 и 3 типов.

Поиск по 1 типу. Требуемая информация: «История Российской империи».

Заходим в Яндекс - Наука и образование / Общественные науки / История. По описанию темы находим сайт http://rus-hist.on.ufanet.ru.. Если в нем нет необходимой информации, то переходим на страницу ссылок этого сайта. На ней имеются ссылки на каталоги ресурсов: www.history.ru, http://www.lants.tellur.ru/history/index.htm. В них, скорее всего, будут найдены сайты по на заданную тему.

Поиск по 2 типу. Требуемая информация: «Император Александр II».

Поиск осуществляется аналогично предыдущему, но больше внимания уделяется работе с каталогами www.history.ru, http://www.lants.tellur.ru/history/index.htm .

Поиск по 3 типу. Требуемая информация: «Реформы Александра II»

Здесь появляется новый способ поиска - по ключевым словам. Пишем в строке поиска Яндекса «Реформы Александра II». Результат для просмотра - 1790 страниц, которые находятся на 170 сайтах, в число которых входят и каталоги. Для сужения информации можно добавить новые ключевые слова - дополнительные факты в уже найденном подборе сайтов, например: «1860-1870 гг.» и т. д. В других поисковых машинах набирается полностью «Реформы Александра II в 1860-1870 гг.». Для поиска заданной информации можно еще использовать “Links”, которые приводятся на найденных сайтах

2.3 Развитие информационного ресурса

Как и другие информационные технологии, Интернет создают разработчики, но в данном случае в основном это создатели ресурсов (начиная от специалистов, ведущих поддержку hard- и software, дизайнеры, художники, редакторы и самое главное - авторы информационных ресурсов). Естественно, создание ресурсов - не самоцель, ресурсы востребуются пользователями сети, то есть теми же специалистами и потребителями ресурсов, среди которых, как уже отмечалось, появляется новый слой - специалисты по datamining, по поиску информации. Информационные ресурсы Интернета, как, впрочем, и другие, в том числе неэлектронные информационные ресурсы (в частности, средства массовой информации), характеризуются определенными состояниями своей деятельности (рис. 9.3).

Ресурс зарождается в соответствии с потребностями общества и его возможностями (в частности, связанными с уровнем технического и социального состояния общества).

По мере возможности происходит "взросление", становление ресурса (или его исчезновение при полном отсутствии востребованности, то есть исчезновение, возможно, не в физическом смысле - сайт может существовать, а именно в смысле востребованности).

При определенном уровне востребованнности и (в том числе и стараниями авторов сайта) происходит его каталогизация, то есть сведения о ресурсе появляются в различных каталогах, соответствующих типу ресурса.

Индексирование, то есть появление ресурса в индексах поисковых машин, происходит при достижении определенных объемов информационного наполнения и востребованности.

При наличии постоянного роста востребованности происходит и постоянное развитие ресурса, в противном случае ресурс угасает и постепенно исчезает из индексов и каталогов.

2.4 Требования к инструментам поиска

Как отмечалось ранее, чертами, присущими профессиональному поиску, являются его полнота, достоверность и высокая скорость. Наиболее серьезным и нетривиальным фактором, определяющим быстроту достижения цели поиска, оказывается планирование поисковой процедуры. Это требует, с одной стороны, выбора типа ресурсов, которые потенциально способны нести информацию, релевантную поисковой задаче, а с другой - выбора инструментов поиска, обслуживающих соответствующее информационное поле, в зависимости от их предполагаемой результативности. Если говорить о наиболее емком на сегодняшний день с точки зрения информационного наполнения WWW-пространстве, то относительное изобилие его поисковых средств делает решение большинства практических задач многовариантным. Построение оптимальной последовательности применения тех или иных инструментов на каждом этапе поиска и предопределяет его эффективность. Помочь решить проблему выбора может четкое представление о видах, назначении и особенностях работы информационно-поисковых систем (ИПС) Интернета.

Реальными носителями информации о ресурсах, которыми располагает Интернет, являются поисковые машины и каталоги. Информационно-поисковые системы Интернета различаются, но принципу отбора информации, который в той или иной степени присутствует и в сканирующей программе поисковой машины, и в деятельности специалистов, производящих каталогизацию. Как правило, различают два основных показателя: пространственный масштаб системы и ее специализация.

При формировании информационного массива поисковая система может следить за обновлением заранее заданного набора документов, каталогов или конечного числа узлов, отобранных по некоторому принципу. Такие системы, реализованные в Интернете, несколько условно можно назвать локальным и. Глобальные поисковые системы в отличие от локальных решают более трудоемкую задачу - по возможности наиболее полный охват ресурсов всего информационно» поля Интернета (WWW или другого), которое они обслуживают. Следствием этого становится возрастание роли механизма, используемого такой системой для постоянного увеличения числа просмотренных сайтов.

Построение региональных и специализированных поисковых сервисов предполагает активную фильтрацию информации. Специализация поисковой системы на базе какого-либо профиля ИЛИ тема тики, будь то правовая направленность, поиск персоналий или файлов мультимедиа в формате МРЗ, может происходить как в глобальном, так и на локальном масштабе. Разумеется, систему проще построить и сопровождать на ограниченном пространстве обновляемых сайтов, что обычно и реализуется на практике.

Региональными поисковыми службами информация фильтруется в основном по имени домена верхнего уровня сервера, например by для Беларуси, ru - для России. Серьезный недостаток таких систем отсутствует учет большого количества ресурсов, размещаемых региональными авторами ресурсов непосредственно в домене com.

Учет региональных особенностей зачастую присутствует и в глобальных поисковых сервисах. Система Lycos, например, ранжирует ответы по региону запроса.

Интернету, исходя из его природы, сопутствует информационный хаос. И только современные средства автоматического индексирования документов способны, учитывая применяемые алгоритмы и возможности технических средств, найти в этом хаосе рациональное зерно. Применение же при поиске ресурсов без поиска по ключевым словам напоминает серфинг, а не серьезную работу с информацией.

2.6 Глобальные поисковые машины WWW

После знакомства с несколькими глобальными поисковыми машинами пользователь, как правило, останавливается на одной-двух, с которыми и предпочитает работать в дальнейшем. При этом выбор поискового сервиса часто происходит совершенно произвольным способом, не на анализе действительных возможностей систем, а на их популярности. Одна из самых крупных и популярных -AltaVista. Система AltaVista отличается гибким языком запросов, требующим, однако, специального изучения. AltaVista обладает многоязыковой поддержкой поискового индекса и возможностью перевода в режиме on-line (то есть непосредственно во время сеанса работы) текста Web-страницы с распространенных европейских языков на английский.

Еще одна известная система - это NorthernLight, имеющая достаточно стандартный набор функций. Система дополнительно дает возможность работы с уникальной коллекцией ссылок (более 6 тысяч), в основном на статьи из периодических изданий. Индексное сопровождение кириллицы (в том числе и русского языка) делает ее вместе с AltaVista неплохим дополнением к региональным российским поисковым системам Рамблер, Yndex и Апорт при русскоязычном поиске.

Поиск и сбор информации в Интернете нуждаются в планировании. Ошибочная логика построения запроса, неоптимизированная последовательность применения инструментов поиска, попытки ускорить поиск - все это не просто затягивает получение результата, но может поставить под угрозу смысл поисковой работы.

Остановимся на нескольких важных моментах, связанных с планированием и первыми шагами таких работ.

Начинать необходимо со всестороннего лексического анализа искомой информации. Следует использовать любое, достаточно достоверное и подробное описание исследуемого вопроса для получения первичных сведений. Таким источником вполне может стать как узкоспециальный справочник, так и электронная энциклопедия общего профиля. На основе изученного материала необходимо сформировать максимально широкий набор ключевых слов в виде отдельных терминов, словосочетаний, профессиональной лексики, сленга, слов-клише и устойчивых словесных штампов, при необходимости на нескольких языках. Заранее следует определить и возможные уточнения поискового запроса- редкие слова, синонимы и антонимы. названия и фамилии, тесно связанные с искомым вопросом. Желательно также заранее предусмотреть возможные нерелевантные отклики на запросы, то есть возможные характеристики поискового шума. После накопления этих предварительных данных можно перейти к получению первичной информации из Интернета.

Основная задача этой стадии учесть особенности Интернета, который является не только носителем технологий, но и традиций, и собственной этики. Сетевая лексика, сленг и написание общеупотребительных слов здесь могут отличатся от принятых.

Сведения о наличии в Интернете необходимых данных лучше всего искать в ранее известном каталоге, поддерживающем поиск по ключевым словам. При решении, например, простых задач типа "Получить текст Конституции Республики Беларусь" или "В каких правовых актах употребляется название родного города" известный сайт или каталог может быть более быстрым способом получения информации, чем автоматический индекс, и обеспечит большую достоверность.

После лексического анализа информации наступает технологический этап. Выбор информационного поля Интернета и поисковых инструментов производится на основе вышеизложенных подходов.

Используются тестовые запросы из одного-двух ключевых слов или фразы, затем анализируется количественный отклик. Содержательный анализ данных позволяет корректировать запросы, но релевантности отклика. В результате тестирования выясняются наиболее представительные источники информации, после чего следует уточнить последовательность применения поисковых инструментов. На этом этап планирования завершается.

В заключение отметим, что при решении задачи сбора информации из Интернета значительную роль играют региональные и специализированные поисковые сервисы. Применение глобальных индексов не для прямого поиска нужных сведений, а для локализации этих поисковых инструментов нередко позволяет сократить сроки решения поставленной поисковой задачи.

ЗАКЛЮЧЕНИЕ

Принимая во внимания все выше сказанное, можно попытаться одним словом определить суть Интернета: это – общение, общение между отдельными людьми и целыми нациями без вмешательства правительственных авторитетов. Эта новая технология с огромной скоростью изменяет облик цивилизации, коренным образом меняя представление человечества о мире и самом себе. Сеть Интернет уже вобрала в себя десятки миллионов человек, более сотни стран, она полностью изменила процессы распространения и восприятия информации. В наш век информационных технологий виртуальная реальность интернет, способствующая стиранию государственных границ, сокращению географических расстояний, ликвидирующая преграды между культурами, становится не менее явственной, чем окружающий нас материальный мир.

С развитием INTERNET появилась возможность быстрого и удобного поиска необходимой документальной информации. Теперь можно не заниматься подбором и изучением огромного количества литературы в книжных магазинах и библиотеках. Информацию можно получить, не выходя из дома или офиса. Для этого нужен только непосредственно сам компьютер, подключенный к INTERNET с установленной специальной программой – браузером, предназначенной для просмотра содержимого Web-страниц.

Благодаря разнообразию поисковых систем, специально разработанным для рядового пользователя, каждый может без труда отсечь заведомо ненужный поток информации, лишь правильно сформулировав цель поиска.

СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ

1. Гринберг А.С., Кашинский Ю.И., Славин Б.С. Введение в правовую информатику. Мн.: НО ООО БИП-С, 2002. С. 303.

2. Гусев В.С. Google: эффективный поиск. Краткое руководство. М., 2006.

3. Информатика для юристов и экономистов./ Под редакцией С. В. Симоновича. СПб.: Питер, 2001.

4. Информатика. Базовый курс. Учебник для ВУЗов, СПб, 2001

5. Компьютерные технологии в юридической деятельности./Под редакцией профессора Н. Полевого. М.: Издательство БЕК, 1994.

6. Рассолов М.М. Информационное право. – М.М.: Юристъ, 1999.-321с.

7. Энциклопедия Интернет, СПб, 2001

8. How the browsers compare//http://www.microsoft.com

Прошло не так много времени с , а Международный консорциум расследовательской журналистики - ICIJ, на основании этих документов подготовил новый грандиозный "подарок" для коррумпированных политиков. Утечка секретных документов показала, как замешаны в сокрытии доходов в оффшорных зонах президенты больших и малых держав, их родственники и приближенные.

Крупнейшая утечка документов панамской фирмы вскрыла коррупцию мировых лидеров
В документах можно найти фамилии 72 действующих и бывших лидеров государств, включая руководителей, обвиненных в разграблении своих стран. В этом перечне присутствуют фамилии президента Украины Петра Порошенко, короля Саудовской Аравии, президента РФ Путина и его близких друзей , Башара Асада и лидера нации Азербайджана Ильхама Алиева.


Директор ICIJ Джерард Райл (Gerard Ryle) заявил, что "утечка станет самым сильным ударом по оффшорам из всех когдалибо предпринятых". Видимо, кто-то действительно могущественный и осведомленный, нанеся удар по оффшорному бизнесу объявил войну коррупции, сокрытию доходов и отмыванию денег в мировом масштабе.

Почему такой шум из-за панамских документов
Позволю себе напомнить уважаемому читателю, что данный блог не о политике, а об информации и ее поиске на просторах Интернет. В данном случае эти вещи, конечно, переплетаются. Но, эта статья призвана лишь осветить неординарное событие с информационной стороны. Пока стоит шум и бурлит пена вокруг PanamaLeaks, постараемся проанализировать данное событие и его последствия.

Следует сказать, что вывод средств в оффшоры, как способ ухода от налогообложения в своей стране, строго не является криминалом. Да - некрасиво, да - не патриотично, но не криминал. В тех странах где это разрешено. Все так, но если дело касается бизнесменов или актеров, как в случае с футболистом Лионелем Месси или актером-каскадером Джеки Чаном.
(обновляется)

Если найдена информация по интересующему хозяйственному субъекту, можно включить автоматический мониторинг изменений в реестрах, которые касаются данной компании или предпринимателя. Обновленная информация будет приходить на ваш e-mail. Разработчики сервиса не скрывают планов по развитию проекта. Планируется добавление аналитической информации: статьи в СМИ, репутацию субъектов предпринимательства на базе отзывов бизнес-партнеров, финансовый анализ, вероятность банкротства и пр.

Конечно, слишком мало времени еще прошло, чтобы делать какие-то выводы по работе поисковика. Возможно,будут еще проблемы. Предвижу, например, противоречия, связанные с понятием коммерческой тайны. В общем, будем посмотреть, как будет развиваться проект и пожелаем удачи начинанию!

Ссылки по теме:
youcontrol.com.ua в ВКонтакте vk.com/public91977868
в Facebook www.facebook.com/youcontrol.com.ua
E-mail [email protected]
тел. +38 066 189 02 06

Ну и, как обычно, видео, комментарии к которому абсолютно не нужны.

Как отмечает источник, выданная им в свет информация является лишь своего рода пробной порцией. Истинный объем данных, которые находятся в распоряжении журналистов намного больше. Таким образом, слова представителей журналистского консорциума о том, что тихий мир оффшоров ждет настоящее "землетрясение" представляются вполне правдоподобными.

Совсем недавно французские разработчики представили на суд интернет-аудитории новую поисковую систему Qwant (qwant.com). Сами французы называют свой поисковик революционным. По словам соучредителя, Qwant – это одновременно целостная и непредвзятая система. Она предлагает информацию не делая никаких предпочтений в поисковой выдаче.

Разработка Qwant шла в течение двух лет. Как признаются разработчики, главная цель новой поисковой системы – это перегнать и обогнать крупнейший поисковик Google. Итак, запущен qwant.com 13 февраля 2013 г. На данный момент проводится тестирование этой системы, и доступна она в 35 странах на 15 языках.

Среди особенностей нового поиска – это распределение найденных результатов по категориям. Так, можно найти информацию по социальным сетям – это колонка Social или, например, пролистать данные из новостной ленты (Live). Столбец Web выводит самые популярные статьи по вашему запросу, а графа Shopping показывает коммерческую информацию о запрошенном вами продукте.

По самой середине страницы находится столбец Knowledge Graph - там можно получить краткое описание вашего запроса – что это такое, где применяется и т.д – как описание в толковом словаре. Кроме этого, Qwant предлагает вывод изображений и видео по вашему запросу. Здесь также есть большое отличие от Google, Яндекс и прочих поисковиков, где для просмотра изображений по поисковому запросу нужно переходить на специальную вкладку.

Qwant можно назвать одним из наиболее удобных по интерфейсу поисковиков. Он предлагает большое количество настроек для более удобного именно для вас отображения данных. Столбики категорий выдачи можно менять по расположению между собой. К примеру, если вас в первую очередь интересует новостная строка, ее можно передвинуть влево, чтобы она первой бросалась в глаза, а список с коммерческой информацией можно переместить максимально вправо.

Проведем небольшое тестирование поисковика. Допустим, нас интересует творчество Моники Белуччи. Открываем стартовую страницу qwant.com, которая, к слову, по своему дизайну очень напоминает Гугл. Вводим в строку "Моника Белуччи" и видим следующее: в самом верху нам предлагаются видео и фото этой известной актрисы, при этом листать медиа-результаты можно прямо вверху при помощи стрелочки, не переходя на вкладку с фотографиями.


В столбце Web мы видим ссылки на несколько наиболее релевантных сайтов, на которых есть информация о Белуччи – Википедия, КиноПоиск, и т. д. В графе Live – новости об актрисе (последние интервью, фотосессии и т. п.), в графе Social можно просмотреть отзывы людей о Монике Белуччи из социальных сетей, ну а в Shopping мы видим список сайтов, на которых можно приобрести фильмы с Моникой.

Как можно видеть, система направлена на то, чтобы предоставить ответы на любой запрос пользователя, не навязывая пользователю при этом результаты, а предлагая их в нескольких категориях на выбор. Сами создатели Qwant подтверждают, что главный упор делался на то, чтобы улучшить поиск информации по популярным социальным сетям.


Безусловно, облачные технологии являются платными, ведь вы используете сервера третьих лиц. Но такая услуга имеет большое количество преимуществ, в частности:

Клиент должен платить только за тот объем памяти в хранилище, которое он реально использует, а не за аренду сервера;
- клиенту не нужно приобретать, обслуживать и поддерживать собственное оборудование для хранения данных, благодаря чему сильно уменьшаются издержки производства;
- все технические моменты касательно сохранения целостности размещенной информации и резервированию данных проводятся провайдером, который не требует в этом участия клиента.

Чем привлекательны облачные хранилища данных
Вы, наверняка, пользовались файлообменниками, которых и до сих пор существует огромное количество. Там можно было загрузить собственный файл, который становится доступным для любого пользователя, который может найти ваш файл по тегу или названию. В отличие от них, облачная технология обеспечивает полную конфиденциальность. То есть, пользоваться размещенными данными может только владелец информации, и заходит он в систему со своим логином и паролем.

Рядовые пользователи полюбили такие технологии за то, что теперь не нужно засорять компьютер тоннами старой информации – на любом компьютере всегда можно найти несколько гигабайт старой музыки, которая может быть еще когда-нибудь пригодится, коллекцию фильмов, пересмотренных уже несколько раз, документов, которые уже были распечатаны и использованы.

Но, тем не менее, всю эту информацию надо где-то хранить. Облачные сервисы предлагают очистить непосредственно место на компьютере, переслав все ненужные пока данные в "облако". Для этого нужно только быть готовым заплатить некоторую плату и иметь высокоскоростное подключение к Интернету.

Еще одна особенность облачного хранения состоит в том, что получить хранимые данные можно в любой момент и с любого устройства. То есть, если вы отправили "в облако" фильм с компьютера, забрать его обратно к себе на компьютер вы можете с ноутбука, планшета, смартфона… Главное, чтобы при вас был пароль и логин.

Какое облачное хранилище выбрать?
Существует огромное количество облачных сервисов, и они постоянно развиваются, предлагая не только места для хранения данных, но и сопутствующие сервисы. Ниже приведу наиболее популярные из них.

1. Windows Live SkyDrive – предлагает наибольший объем серверного пространства. Зарегистрированные пользователи могут бесплатно хранить в облаке до 25 Гбайт собственной информации. Документы Office, отправленные в облачное хранилище, можно редактировать и открывать прямо в браузере. Синхронизацию можно производить сразу с нескольких компьютерных устройств.

2. DropBox – очень известный сервис среди обычных пользователей, но предлагает только по 2 Гбайта места для каждого своего клиента. Если же пользоваться платным аккаунтом, то можно расширить свои возможности до 20 Гбайт.

Graph Search (далее GS) — так называется недавно анонсированый Цукербергом апдейт Facebook (FB), еще более "социализирующий" первую соцсеть планеты. Бета-релиз нового сервиса запущен пока лишь в англоязычном сегменте Фейсбука. Русскоязычным пользователям соцсети поисковое "ноу-хау" станет доступно позже, но в "лист ожидания" можно внести свой аккаунт уже сейчас.

Технически GS представляет собой систему фильтров, использующих поисковый алгоритм Bing внутри соцсети и позволяющий искать людей, интересные места, музыку (в последующем апдейте), фотографии, релевантные вашим "фейсбуковым" интересам. Для пользователя "социалки" Graph Search будет выглядеть поисковой панелью наверху любой страницы FB.

При введении в поисковую строку GS запроса, результат выдачи собирается на отдельной странице, носящей имя запроса (например: "Мои друзья в Рио"). Планируется поиск по "лайкам", комментариям, медиаконтенту, отметкам фотоснимков. Дата следующего апдейта интеллектуального сервиса пока неизвестна.

Graph Search от Facebook — как это работает?
Старт разработке дало утверждение: для пользователя рекомендация друга значимей оценок тысяч неизвестных людей. Так, с помощью Graph Search можно найти, например:

Фотографии сокурсников до 1995 года;
-любителей сквоша из вашего города;
-фотоснимки друзей, сделанные в Индонезии;
-любимые столичные суши-бары ваших друзей;
-достопримечательности Праги или Парижа, посещенные вашими друзьями.

Повод для беспокойства или ложная тревога?
Первые новости о Graph Search вызвали у пользователей FB и некоторые опасения. Да, интеллектуальный сервис в плане возможностей поиска весьма привлекателен, но многие боятся использования социального поиска маркетинговыми компаниями, спецслужбами, криминальными группировками, госструктурами, недобросовестными владельцами интернет-сервисов для сбора информации. Обоснованы ли опасения?

С одной стороны, Graph Search настройки конфиденциальности не меняет, следовательно "выдать" приватные данные может только пользователям FB, для которых они открыты. С другой — от "информационных утечек" страдают трансконтинентальные корпорации, правительственные интранеты и даже банки. Надежен ли Фейсбук в плане безопасности? Время покажет.

2. Регистрация базы данных

Перед выполнением с помощью приложения IBExpert любых операций с существующей базой данных она должна быть зарегистрирована. Для этого либо используется команда меню "База данных> Зарегистрировать базу", либо в окне создания базы данных выбирается опция "Зарегистрировать после создания".

В результате открывается диалоговое окно "Параметры базы данных" (Рис. 4), в котором надо заполнить практически такие же поля, что и при создании базы данных, затем нажать кнопку .

Для проверки правильности параметров, введенных в окне регистрации базы данных, следует нажать кнопку [Проверка коннекта]. Это приведет к открытию диалогового окна "CommunicationDiagnostics", в котором в поле "TestResults" будут содержаться результаты подключения. Там же будут находиться сведения о версии используемой СУБД.

После регистрации вся введенная о базе данных информация запоминается приложением IBExpert и в окно "DatabaseExplorer", в дерево на вкладке "Базы" добавляется узел с зарегистрированной базой данных (Рис. 5)*.

Чтобы подключиться к зарегистрированной базе данных, надо выбрать нужную базу данных в списке (Рис. 5) и выполнить команду "База данных > Подключиться к базе", либо сделать двойной щелчок мышкой на выбранной базе данных.

Если все параметры подключения были введены правильно, то произойдет подключение к базе данных, название подключенной базы данных в окне "DatabaseExplorer" будет выделено жирным шрифтом, а также появятся вложенные узлы с объектами, содержащимися в подключенной базе данных

После подключения к базе данных можно просматривать имеющиеся объекты, создавать новые, вносить и просматривать данные, а также проводить операции с имеющимися объектами.

Порядок действий: Устанавливаем на компьютер VisualStudio. Стоит устанавливать расширенный комплект, так как в стандартный sql не входит. Открываем VisualStudio, выбираем вкладку «Tools» → «ConnecttoDatabase». В появившемся окне выбираем тип БД «MicrosoftSqlServerDatabasefile» → «Continue». В появившемся окне выбираем место хранения БД на компьютере. Нажимаем "Ок". После этого в правой части экрана в списке файлов появится файл созданной БД. Дважды кликаем по файлу БД. В открывшемся списке правой кнопкой мыши нажимаем на «Tables» → «New». Появляется пустое поле таблицы. Заполняем таблицу. Таблицы заполняются в соответствии с ранее созданной моделью. Фактически переносим модель в sql. Для создания новой таблицы повторяем пункт 5. Одно из полей таблицы нужно установить ключевым. Для этого выбираем необходимое поле (чаще всего ключевым бывают поля, содержащие id) и нажимаем на знак ключа на панели инструментов. В каждой строке необходимо выбрать тип данных. Тип данных определяет, в каком виде объект может хранить информацию в данном поле. После установления определенного типа данных ввод данных другого типа будет невозможен. Если наша строка содержит текстовое значение, то это могут быть типы CHAR(M), VARCHAR(M), TINYBLOB, TINYTEXT, BLOB, TEXT, MEDIUMBLOB, MEDIUMTEXT, LONGBLOB, LONGTEXT - в зависимости от предполагаемого объема памяти, который будет хранить строка. Еслитипданных - число, топодойдут BOOLEAN, INTEGER, DECIMAL, FLOAT, REAL, DOUBLE, PRECISION. Если хранить строка будет данные о времени и дате, то используем DATE, TIME, TIMESTAMP, DATETIME. Бинарные данные могут иметь типы "Бинарные", "image", "varbinary". Прочие типы данных: "cursor", "hierarchyid", "sql_variant", "table", "timestamp", "uniqueidentifier", "xml", "Пространственные типы".



14.Использование Интернета для сбора источников. Сотрудничество в научной сфере.

Современные подходы к использованию компьютерных сетей предполагают реализацию информационного взаимодействия участников образовательного процесса в различных режимах работы Всемирной информационной среды. Интернет-технология обеспечивает современных пользователей всеми ресурсами глобальных телекоммуникаций, позволяет организовать учебную деятельность с использованием прикладных и инструментальных программных средств и систем, доступных современному пользователю. В этой связи перспективным направлением является разработка научно-педагогических основ создания и использования Глобальной информационной среды непрерывного образования на основе создания Единого образовательного пространства, (информационно-предметной среды) регионального/глобального масштаба.

При всем многообразии информационных и телекоммуникационных технологий, а также способов организации данных при их пересылке по каналам связи всемирная информационная компьютерная сеть Интернет занимает центральное место. Более того, на сегодняшний день, это практически единственная глобальная телекоммуникационная сеть, повсеместно используемая в системе общего среднего образования. Этому во многом способствуют высокая скорость и надежность передачи через Интернет данных различных форматов (текст, графические изображения, звук, видео и пр.).Сеть Интернет предоставляет возможность коллективного доступа к учебным материалам, которые могут быть представлены как в виде простейших учебников(электронных текстов), так и в виде сложных интерактивных систем, компьютерных моделей, виртуальных учебных сред и т.д. Количество пользователей и источников информации сети Интернет непрерывно увеличивается. Кроме того, происходит постоянное улучшение качества предоставляемых телекоммуникационных услуг.



Информатизация является одним из основных факторов, заставляющим образование совершенствоваться. Изменяются содержание и методы обучения, меняется роль педагога, который постепенно из простого транслятора знаний превращается в организатора деятельности обучаемых по приобретению новых знаний, умений и навыков. Существенным средством информатизации являются образовательные информационные ресурсы, опубликованные в сети Интернет, которые позволяют:

· использование информации, размещенной на учебных и научных сайтах сети Интернет (Web-сайтах),для подготовки учебно-методических материалов. Рефератов и сообщений;

· организацию представительства учебного заведения в сети Интернет;

· создание сайта, посвященного содержанию школьной дисциплины и размещение его в сети Интернет;

· размещение личных Web-сайтов учителей и школьников.

Путь к огромному информационному багажу человечества, хранящемуся в библиотеках, фонотеках, фильмотеках, лежит через карточки каталогов. В Интернете существуют аналогичные механизмы для нахождения требуемой информации. Речь идет о поисковых серверах, служащих отправной точкой для пользователей. С содержательной точки зрения о них можно говорить как о еще одной специальной службе сети Интернет.

В сети Интернет существует достаточно много каталогов и порталов, собирающих информацию, которая может быть использована педагогами. Использование таких каталогов и информационных ресурсов сети Интернет целесообразно для:

· оперативного обеспечения педагогов, обучаемых и родителей актуальной, своевременной и достоверной информацией, соответствующей целям и содержанию образования;

· организации разных форм деятельности обучаемых, связанных с самостоятельным овладением знаниями;

· применения современных информационных и телекоммуникационных технологий (технологий мультимедиа, виртуальной реальности, гипертекстовых и гипермедиа-технологий) в учебной деятельности;

· объективного измерения, оценки и прогноза результативности обучения, сопоставления результатов учебной деятельности школьников с требованиями государственного образовательного стандарта;

· управления учебной деятельностью учащегося, адекватно его уровню знаний, умений и навыков, а также особенностям его мотивации к учению;

· создания условий для индивидуального самостоятельного обучения школьников;

· постоянного и оперативного общения педагогов, обучаемых и родителей, нацеленного на повышение эффективности обучения;

· организации эффективной деятельности учреждений общего образования в соответствии с принятыми в стране нормативными положениями и содержательными концепциями.

Целесообразными к использованию в общем среднем образовании могут оказаться самые разные информационные ресурсы сети Интернет. Среди таких ресурсов можно выделить образовательные Интернет-порталы, которые сами являются каталогами ресурсов, сервисные и инструментальные компьютерные программные средства, электронные представления бумажных изданий, электронные учебные средства и средства измерения результатов обучения, ресурсы, содержащие новости, объявления и средства для общения участников образовательного процесса.

Используя информационные ресурсы сети Интернет, педагоги смогут более эффективно управлять познавательной деятельностью дошкольников, оперативно отслеживать результаты обучения и воспитания, принимать обоснованные и целесообразные меры по повышению уровня обученности и качества знаний учащихся, целенаправленно совершенствовать педагогическое мастерство, иметь оперативный адресный доступ к требуемой информации учебного, методического и организационного характера. Педагоги, занимающиеся разработкой собственных информационных ресурсов, приобретают дополнительную возможность использования фрагментов образовательных ресурсов, опубликованных в сети, делая необходимые

Большинство наиболее качественных информационных ресурсов, использование которых повысило бы эффективность общего среднего образования каталогизировано на образовательных Интернет-порталах. В настоящее время в России уже выработана организационная схема создания системы образовательных порталов, имеющая свои особенности. В организационную схему создания системы образовательных порталов включаются:

· горизонтальный портал «Российское образование» (www.edu.ru),

· профильные вертикальные порталы по областям знаний: гуманитарный, экономико-социальный, естественно-научный, инженерный, педагогический, медицинский, сельскохозяйственный и др.,

· специализированные вертикальные порталы: книгоиздание, единый экзамен, новости образования и др.

Горизонтальный портал «Российское образование» обеспечивает:

· навигацию по всем вертикальным порталам;

· поиск мультимедиа-информации в области образования в Интернет;

· персонификацию и персональную адаптацию интерфейса как путем выбора пользователем собственной категории (обучаемый, преподаватель, администратор, разработчик портала) и указанием уровня образования, так и путем конструирования собственного интерфейса;

· формирование и предоставление срезов вертикальных порталов по уровням образования;

· хранение и предоставление информации в области образования (законодательство, приказы, нормативные документы, стандарты, перечни специальностей, федеральный комплект учебников, база данных вузов и др.);

· публикацию ежедневного обзора прессы по вопросам образования;

· новостную ленту в области образования;

· организацию проведения форумов, дискуссионных групп, списков рассылки.

С мире науки, Демоскоп, Скопус