3.3.6. Поиск информации в Интернет

Интернет является глобальным хранилищем информации, там, как и в Греции, можно найти все что угодно, нужно только знать, как и где искать, а также разумно относиться к найденной информации.

Поясним сначала второй тезис. Со времени изобретения книгопечатания люди в основном читали, а не издавали информацию из-за дороговизны бумаги, подготовки и распространения печатных изданий. Одним из следствий этого является тщательность, с которой осуществляется печатная подготовка изданий. Достаточно сказать, что любой информационный материал перед изданием читают рецензенты, редакторы, наконец, корректоры. И, тем не менее, в публикациях встречаются ошибки фактографические (чаще всего намеренные), орфографические и синтаксические…

С появлением Интернет и в особенности Всемирной паутины человек читающий стал человеком пишущим и публикующим. Если раньше перед рукописью стояли многочисленные барьеры, которые преодолевали не проценты, а даже доли процентов авторов, то теперь сказать о себе городу и миру, как говорили древние римляне, может любой и каждый. Достаточно иметь рукопись и разместить ее на одном из web-серверов… В связи с этим рукописи публикуются, редко читаются и почти никогда не рецензируются. В Сети можно найти совершенно безграмотные публикации с орфографическими ошибками на каждой странице, изобилующие, скажем так, достаточно странными идеями и ненормативной лексикой.

На заметку
Одним из ярких явлений последних лет являются так называемые блоги или живые журналы – дневники, публикуемые в сети. Иногда они яркие и интересные, иногда от них волосы дыбом встают. Познакомиться с живыми журналами можно, например, на http://www.livejournal.com.

По образному выражению Интернет – это большая помойка и к найденной в Интернет информации необходимо относиться осторожно.
Вот пример того, что публикуется в Сети. На одном из англоязычных сайтов, опубликовано сообщение, что российские ученые при бурении сверхглубокой скважины наткнулись на ад, спустили в скважину микрофон… На сайте опубликован также звуковой файл со скрежетом зубовным грешников. Все это совершенно серьезно.

Вывод из сказанного выше простой – ни в коем случае не доверяйте единственному источнику информации. Благо информации в Сети много, анализируйте, проверяйте и сопоставляйте информацию из различных источников, пытайтесь по имеющимся данным и гиперссылкам установить первоисточник информации.

Теперь займемся вопросом, как искать информацию. В Интернет имеется достаточно большое число так называемых поисковых серверов, которые собирают и каталогизируют информацию из Всемирной паутины и других источников (архивов групп новостей, FTP-серверов и т.д.).

Для поиска русскоязычной информации в настоящее время наиболее популярными являются поисковые сервера:

http://www.google.ru
http://www.yandex.ru
http://www.rambler.ru

Советы

Не ограничивайтесь поиском на одном сервере. Серверы используют различные алгоритмы, поэтому и результаты поиска будут различными. То, что не может быть найдено с помощью одного сервера, легко отыщется с помощью другого.
Для поиска русскоязычной информации лучше пользоваться российскими серверами.
В Интернет все быстро меняется, создаются новые поисковые сервера, закрываются старые, поэтому мы не приводим сколько-нибудь объемного списка поисковых ресурсов, спросите у преподавателей, товарищей, наконец, поищите в Сети.

Технически поиск информации с помощью поискового сервера прост: наберите в адресной строке унифицированный указатель сервера, появится форма поиска (рис. 3.4), наберите в ней ключевые слова.

Рис. 3.4. Форма для ввода ключевых слов поискового сервера Google

В данном случае нас интересовали программные компоненты для технологии Microsoft Asp.Net, поэтому в форме было введено компоненты asp.net. Дальше нужно нажать кнопку Поиск в Google, обеспечивающую передачу ключевых слов серверу. Сервер вернет ссылки на страницы, содержащие ключевые слова компоненты, а также asp.net, как показано на рис. 3.5.

Рис.3.5. Результаты поиска

В нашем случае Google вернул первые десять ссылок из 2330 имеющихся в базе данных. Это, пожалуй, слишком много, поэтому ограничимся просмотром первых десяти ссылок. Google упорядочил их для нас так, чтобы наиболее полезные ссылки шли первыми (возможно, что у нас и у Google определения полезности несколько разные).

Отметим, что ссылки сопровождаются краткими аннотациями, которые в большинстве случаев помогает принять решение о том, просматривать ли страницу или ограничиться чтением комментария. Для перехода к найденной странице достаточно щелкнуть на заголовке, например, для первой ссылке на рис. 3.5 достаточно щелкнуть мышью на подчеркнутом тексте ActiveX компоненты, утилиты, скрипты…

Можно уменьшить число ссылок, возвращаемых сервером, уточнив, что же нам нужно. В данном примере кроме информации о компонентах Asp.Net было бы желательно получить их, поэтому уточним запрос, введя загрузить компоненты asp.net.
Может оказаться, что сервер не возвратит нам ничего, в этом случае необходимо, во-первых, исправить орфографические ошибки в запросе, во-вторых, переформулировать его, используя другие ключевые слова, а в-третьих, может оказаться, что информации на русском языке для данного запроса нет, сформулируйте его по-английски, так как английский является основным языком Интернет.

На заметку
То о чем говорилось выше, называется простыми запросами. Гораздо большую гибкость предоставляют расширенные запросы, для работы с ними необходимо щелкнуть на ссылке Расширенный поиск (рис. 3.5).
Для выполнения сложных запросов поисковые серверы обладают собственными языками запросов. Если результаты поисков не удовлетворяют Вас, не поленитесь прочитать на сервере инструкцию по использованию языка запросов.

Вернемся к рис. 3.4. Наряду с поиском по ключевым словам большинство поисковых серверов предоставляют возможность поиска с помощью индексов – иерархических указателей. Выбрав интересующую тему, например, Образование, щелкните мышью, и так постепенно уточняя запрос, можно добраться до ссылок на интересующую Вас информацию.

Как поисковые сервера ищут информацию в Интернет ?

Имеются два основных источника информации. Во-первых, осуществляется сканирование Всемирной паутины с помощью специальных программ-пауков (spider, по-английски), «ползающих» по Всемирной паутине (паутинками служат гиперссылки). Паук загружает очередную web-страницу, анализирует гиперссылки, имеющиеся в ней, и загружает информацию, опубликованную по этим гиперссылкам, после чего процесс повторяется. Таким образом, осуществляется обход Всемирной паутины.
Полученная информация разбивается на слова, «сорные» слова (артикли предлоги, местоимения) отбрасываются, строится нечто, похожее на предметный указатель книги: слова размещаются по алфавиту, с ними связываются ссылки на страницы. Это обеспечивает быстрый поиск информации с помощью поисковых серверов.
Следует отметить, что русский язык из-за своей флексивной (гибкой) структуры (много суффиксов, приставок) достаточно сложен для анализа. Поэтому отечественными разработчиками (например, http://www.yandex.ru) создано специальное программное обеспечения для морфологического анализа русских текстов. Такое программное обеспечение применяется в настоящее время практически всеми поисковыми серверами, работающими с русским языком.
Вторым источником информации являются сами публикаторы, заинтересованные в том, чтобы их web-сайты посещались. Для этого автор или публикатор должен зайти на поисковый сервер, заполнить специальную форму, после чего поисковый сервер поместит информацию о публикации в своей базе данных.
Автор и публикатор информации заинтересованы не только в регистрации на поисковых серверах, но и в том, чтобы ссылки на его/ее информацию имели высокий ранг, т.е. отображались пользователю первыми (имеется статистика, что более 90% пользователей, обращающихся к поисковым серверам, просматривают только первые три ссылки).
Поисковые серверы ранжируют информацию либо по числу гиперссылок на страницу, либо по числу обращений к страницам (здесь мы несколько упрощаем ситуацию, так как поисковые сервера используют сложные комбинированные алгоритмы, которые держатся в секрете, чтобы избежать искусственного завышения ранга недобросовестными публикаторами
Поисковые серверы определяют число посещений web-страниц с помощью специальных счетчиков посещений, размещаемых публикаторами на своих страницах. Польза здесь обоюдная: автор видит, насколько популярна данная страница, а поисковые серверы используют данную информацию для ранжирования.

Выше мы рассматривали поиск в Интернет с непосредственным использованием поисковых серверов. В настоящее время популярность приобретает программное обеспечение, устанавливаемое на компьютере пользователя и облегчающее поиск информации, по крайней мере, в двух направлениях: введенный запрос на поиск передается не одному, а нескольким поисковым серверам, программа также облегчает хранение, анализ и классификацию. В качестве примеров таких программ можно привести Copernic Agent или отечественный ДИСКо Искатель.

Кроме поисковых серверов общего назначения в Интернет имеются специализированные поисковые серверы, например, для поиска рефератов (http://www.referat.ru), поиска товаров и сравнения цен (http://www.price.ru).

Отметим также, что поиск в Интернет требует терпения и навыков, приобретаемых при проведении поиска, поэтому не ленитесь и экспериментируйте!