Поиск и хранение информации в сети internet. Практическая работа: "Организация поиска информации в сети Интернет"

Поиск информации в Интернете проводится двумя основными способами – с помощью каталогов (их еще называют директориями) и с помощью поисковых машин.

Директории обеспечивают контекстный поиск для структурированного просмотра, тогда как поисковые машины, как следует из их названия, контекста не обеспечивают, однако позволяют находить конкретные слова или фразы.

Директории можно уподобить оглавлению книги, а поисковые машины – предметному указателю.

Часто поисковые системы объединяют в себе как поисковую машину, так и директории.

Это хорошо видно на примере первой страницы Яндекса, где под поисковой строкой размещается список директорий, которые позволяют пользователю уточнять запрос по мере продвижения в глубь каждой из них.

Ввиду того, что принцип организации директорий понятен каждому, кто пользовался библиотечным каталогом – а среди читателей таких, смеем полагать, подавляющее большинство, – мы не будем подробно останавливаться на технике работы с директориями и уделим больше внимания работе с поисковыми машинами. В завершение же разговора о каталогах приведем пример «цепочки», по которой осуществляется поиск в каталоге Яндекса: Бизнес > Реклама > Реклама в Интернете.

Все поисковые машины работают по одному и тому же алгоритму и основаны на одних и тех же принципах. Различия между ними возникают лишь на уровне технической реализации этих принципов в работе.

Чтобы понять принцип работы поисковой машины, попробуем разделить вопрос на две части: на чем основан поиск и как он реализован.

На чем основан поиск

Все поисковые машины базируются на трех основных операторах, лежащих в основе Булевой алгебры (ее также называют Булевой логикой или Boolean).

Это логические операторы «И», «ИЛИ» и «НЕ». Работают они следующим образом.

1. Логическое «И». Если между двумя словами в запросе стоит оператор «И», то в результате поиска будут найдены лишь те документы, в которых содержатся оба слова. Так, например, по запросу собака И кошка будет найден документ, содержащий предложение «собака гналась за кошкой», документов же, состоящих из текста «кошка отдыхала» или «корм для собак», мы не увидим .

2. Логическое «ИЛИ». Если между словами стоит оператор «ИЛИ», то результа том поиска станут документы, в которых содержится хотя бы одно из этих слов .

Если мы не сделаем специальных ограничительных оговорок, то материалы, в которых оба эти слова присутствуют, также будут найдены.

По запросу собака ИЛИ кошка мы получим документы, исключенные в прошлом запросе и содержащие текст «кошка отдыхала» или «корм для собак», а также материал с предложением «собака гналась за кошкой».

3. Логическое «НЕ». Если два предыдущих оператора описывали те слова, ко торые вы хотите включить в запрос, то оператор «НЕ» слова из запроса исклю чает. Пользователи, впервые сталкивающиеся с операторами запросов, нередко высказывают удивление: мол, не проще ли и вовсе не включать ненужное слово в запрос? Зачем вводить дополнительный оператор? Увы, нет. Не проще.

На самом деле, чтобы понять важность логического оператора «НЕ», имеет смысл вспомнить, что наш запрос не создает в Интернете ничего нового. Мы лишь выуживаем то, что нам нужно, из имеющегося огромного, но все же конечного массива. При этом необходимо отсечь информационный мусор. Его-то мы и отсекаем с помощью оператора «НЕ». К сожалению, не нам решать, увидим ли мы этот мусор в выдаче. Так, например, по запросу сведений о коньке крыши неизменно появляется информационный мусор в виде документов о Коньке-Горбунке, фигурном катании, хоккее, лошадях и т. п. Без логического «НЕ» тут никак не обойтись.

Давайте рассмотрим примеры работы логического оператора «НЕ».

По запросу собака НЕ кошка будет найден документ, содержащий текст «корм для собак», а вот документы со словами «кошка отдыхала» или «собака гналась за кошкой», и даже «корма для собак и кошек» из выдачи будут исключены.

Часто встречается чуть более сложный вариант написания запроса, который содержит все или почти все вышеперечисленные операторы. В этом случае лучше пользоваться таким элементом, как круглые скоби. Скобки позволяют отделять однотипные слова запроса от остальных. Кроме того, самому составителю при этом визуально гораздо удобнее различать отдельные фрагменты запроса. Мы не будем чересчур теоретизировать о скобках, а просто продемонстрируем работу указанного элемента на конкретных примерах. На наш взгляд, так будет понятнее, как и для чего используются скобки.

Так, запрос пушистые И (собаки ИЛИ кошки)

позволит получить документы, относящиеся как к пушистым собакам, так и к пушистым кошкам – по отдельности или вместе. Скобки при этом «раскрываются» по обычным арифметическим правилам вынесения за скобку общего множителя (для тех, кто не любит математику, поспешим сказать, что болеше углубляться в нее мы не будем). А вот запрос пушистые И (собаки ИЛИ кошки) НЕ (собаки И кошки)

выдаст документы, в которых написано про пушистых собак или пушистых кошек, но не будет содержать текстов, где одновременно будут упомянуты и кошки, и собаки.

Еще раз повторимся, все поисковые машины сегодня работают на основе анализа этих трех операторов, хотя нюансы их написания в разных поисковых машинах могут отличаться.

Как поиск реализован

Каждая полноценная поисковая машина располагает собственным штатом роботов, или пауков. Их еще называют краулерами (crawlers) и спайдерами (spiders,). Это программы, которые перескакивают со страницы на страницу и сканируют находящиеся на них тексты, не вникая при этом в их содержание. После чего сбрасывают документы на серверы своих хозяев и идут к следующим страницам. Как паук определяет, куда ему пойти? Он находит так называемую гиперссылку (ту самую, при наведении на которую курсор приобретает вид раскрытой ладони, и при клике по которой происходит переход на другую страницу) и идет по ней. Вот почему, если на страницу не ведет ни одна ссылка, паук на нее тоже не придет. Исключение составляет ситуация, когда владелец страницы вручную сообщит о ней поисковой машине, заполнив специальную форму на сайте поисковой машины.

На сервере поисковой машины текст разбивается на отдельные слова, каждому из которых присваиваются координаты, после чего они заносятся в таблицу сервера вместе со ссылкой на тот адрес в Интернете, по которому текст размещался в момент посещения его пауком.

Сам по себе поисковик представляет собой большую локальную сеть, состоящую из мощных компьютеров с огромным объемом дисковой памяти. Эти машины разделены на подгруппы (так называемые кластеры), между которыми распределяется информация, собранная пауками.

Когда поисковая система получает запрос, она ищет ответ именно в своей таблице, а не в Интернете.

При этом важно понять, как паук решает, с какой частотой ему следует посещать ту или иную страницу. Выглядит этот алгоритм приблизительно следующим образом. Поработав со страницей, паук возвращается на нее, н у, например, через две недели. И если видит, что никаких изменений не произошло, он планирует следующее посещение через более длительный период – скажем, через месяц. А если и тогда не обнаружит ничего нового, то наведаетсяя сюда еще позже, месяца через полтора-два.

Вот почему нередко бывает так, что поисковая машина по запросу результат выдает, а попытка перейти на страницу по полученной ссылке безрезультатна – вероятнее всего, никакой страницы уже просто не существует на прежнем месте, но паук на нее давно не заходил, и, соответственно, поисковая система о ее удалении не знает.

Весь комплекс процессов, описанных выше, называется индексацией.

История развития поисковых машин

История эволюции поисковых машин наиболее полно, на наш взгляд, представлена в книге признанных экспертов в области невидимого интернета Криса Шермана и Гарри Прайса «Невидимый Интернет».

До середины 1960-х годов компьютеров было немного. Изолированные друг от друга, они не могли обмениваться информацией.

В 1962 г. профессор Ликлайдер (Licklider) из ведущего технического вуза США – Массачусетского Технологического института – сформулировал концепцию глобальной компьютерной сети «Galactic Network». Идея начала воплощаться в жизнь сотрудником американского министерства обороны Ларри Робертсом (Larry Robberts), который через четыре года после публикации статьи профессора предложил объединить отдельные компьютеры министерства в сеть, описанную Ликлайдером. Таковы предпосылки возникновения сети «ARPANET», которая затем превратилась в то, что сегодня величают Интернетом. Первый узел «ARPANET» появился в 1969 г., и следующие несколько лет к нему подключались университеты и различные контрагенты, работавшие по заказам военного ведомства США.

В 1973 г. американское министерство обороны инициировало новую программу, предполагавшую обеспечивать надежную связь компьютеров между собой с помощью очень большого числа различных соединений. Целью такого решения было повышение устойчивости системы к попыткам массированно нарушить электронные средства коммуникации. Поскольку все это происходило во времена «холодной войны», речь шла об устойчивости к устрашающим последствиям, которыми грозило стратегическое ядерное противостояние. Поскольку «ARPANET» представлял собой одну-единственную сеть, что на системном уровне понижало его способность сопротивляться разрушениям, возникла идея создания «сети из сетей», которая теоретически могла бы быть бесконечно большой. Этот проект и назвали «Internetting», а саму сеть «Internet».

По мере того, как количество присоединенных к Интернету машин увеличивалось, объективно назрел вопрос о необходимости инструментов, позволяющих легко находить текст и другие файлы на удаленном компьютере, в идеале – на любом, где бы он ни располагался в Сети.

Доступ к файлам на самых ранних этапах развития Интернета осуществлялся в два этапа, каждый из которых выполнялся вручную: специальные команды вводились с клавиатуры. Кстати, тогда компьютеры могли управляться лишь специалистами, способными вводить команды в соответствующую строку. Графического интерфейса, позволяющего комфортно работать с машиной неподготовленному человеку, еще не изобрели. Так вот первым делом с помощью программы Telnet устанавливалось прямое соединение с компьютером, на котором находится нужный файл. На данном этапе лишь налаживалась связь, ничего и никуда в этот момент еще не передавалось. И только затем с помощью специальной программы – FTP – можно было этот конкретный файл взять.

Очевидно, что на поиски нужного документа уходила масса времени: требовалось знать точный адрес компьютера, на котором он находится.

Между тем файлов становилось все больше, интерес к ним постоянно рос, и для того, чтобы найти адрес одного из них, обычно приходилось обращаться в дискуссионные группы с просьбой о помощи и в надежде на то, что кто-нибудь из собеседников подскажет заветный адрес, по которому хранится нужная информация.

В результате, стали появляться специальные FTP-серверы, которые представляли собой хранилище файлов, организованных в директории, по принципу хранения информации на персональном компьютере. Такие серверы существуют и по сей день.

Первый работоспособный, общедоступный инструмент поиска файлов, хранящихся на FTP-серверах, назывался «Арчи» (Archie) и был создан в 1990 г. группой системных администраторов и студентов старших курсов Университета Мак Джил (McGill) в Монреале. «Арчи» был прототипом сегодняшних поисковых машин, но значительно более примитивным и ограниченным в своих возможностях. Он бродил по Интернету, разыскивал файлы на разных FTP-серверах и загружал список директорий каждого найденного сервера на собственный, формируя общий каталог.

Этот каталог затем обрабатывался и хранился в центральной базе данных, внутри которой можно было организовать поиск. Поиск на собственном компьютере к тому моменту существовал уже издавна и, несмотря на то, что тоже требовал ввода команд, трудностей в работе не создавал. Однако без специальной подготовки использовать компьютер полноценно человек не мог. База данных находилась в университете Мак Джилл и обновлялась ежемесячно.

В 1991 г. команда Марка Мак Кахилла (Mark McCahill) из Университета Миннесоты создала программу «Голден Гофер» (Golden Gopher – в переводе с английского «золотоискатель» или «старатель»), которая совмещала в себе оба протокола – Telnet и FTP. Все, что нужно было сделать пользователю для получения доступа к нужной информации, – щелкнуть по гиперссылке, приведенной в меню. Таким образом, впервые в истории вводить какие-либо команды уже не требовалось, так что отныне по ресурсам Интернета люди могли «бродить» и без специальной подготовки.

Программа показывала пользователю последовательно возникающие пошаговые меню, что позволяло ему без проблем идти в глубь базы директорий, все более приближаясь к специфическим документам, которые и составляли цель поиска. Этот алгоритм, по сути, сохранен и сегодня в Каталогах, расположенных в Интернете.

Стало возможно получать как текстовые документы, так и графические, и музыкальные, без привязки к какому-то определенному формату. А самое главное, стало в принципе возможно легко найти и получить в Интернете нужную информацию.

Однако проблемы все же оставались. Одна из них, и довольно серьезная, была связана с тем, что компьютеры были построены на разных платформах, которые порой не понимали друг друга. Тут можно провести аналогию с людьми, которые говорят на совершенно разных языках и потому не могут построить более или менее осмысленную беседу. В те времена между собой конкурировали не операционные системы, как сейчас, а производители компьютерного «железа». Сегодня в меньшей степени важно, кто произвел компьютер. Гораздо существеннее, что на нем установлено: Windows, Linux, Mac OS или какая-то другая система. А тогда именно производители «железа» определяли лицо Интернета.

Объективно назревала идея, согласно которой компьютеры разных платформ должны иметь возможность работать в одном протоколе, позволяющем просматривать страницы вне зависимости от того, на какой конкретно машине эти страницы созданы. Требовалось придумать такой универсальный протокол и сделать его удобным для пользователей. Первым, кто догадался объединить известную к тому времени простую форму гипертекста с универсальными коммуникационными протоколами, был Тим Бернерс-Ли (Tim Berners-Lee).

Чтобы пользователь получил в руки независимый от платформы и при этом простой инструмент, Бернерс-Ли создал HTML (HyperText Markup Language, то есть Язык гипертекстовой разметки). Все Web-документы, отформатированные с помощью тегов HTML, видны совершенно одинаково во всем мире, вне зависимости от типа компьютера, на котором человек открыл страницу сайта. Поэтому и сегодня при переводе файла в формат HTML, например, на машине, работающей под управлением операционной системы MacOS, можно быть уверенным в том, что этот файл будет выглядеть точно так же и на компьютере, работающем под управлением Windows.

Затем Бернерс-Ли придумал Universal Resource Identifier – метод стандартизации адресов, при котором компьютерам в Интернете присваиваются уникальные адреса (сегодня мы их называем URL, это то, что в привычном для пользователя виде обычно начинается с «www»). Наконец, изобретатель собрал вместе все эти элементы, создав систему в форме Web-серверов, которые хранят HTML-документы и предоставляют их другим компьютерам, создавая HTML-запросы о документах по определенным URL.

Но Бернерс-Ли хотел видеть Интернет как информационное пространство, в котором можно получить свободный доступ к данным любых типов. На ранних этапах развития глобальной Сети преобладали простые текстовые документы HTML. К тому времени существовали системы поиска информации на локальных машинах, поэтому появилось несколько серверов, которые пытались проиндексировать какую-то часть страниц Web и прежде, чем отправляться за чем-то в Интернет, предлагали поискать необходимые сведения на этих серверах.

При этом основная проблема заключалась в том, чтобы отыскать страницы, которые в принципе можно бы было индексировать. Поскольку Интернет лишен централизованной структуры и общего оглавления, единственный способ, позволявший добиться этого, состоял в поиске ссылки на страницу и переходе по этой ссылке, с последующим добавлением найденного ресурса к индексу.

Однако вскоре возникла еще одна проблема. Наиболее популярные страницы посещались пауками чаще остальных, так как на них указывало максимальное количество ссылок. Пауки, количество и возможности которых были ограничены, «зависали» на таких страницах и впустую расходовали ресурсы, оставляя непосещенным множество других адресов, пока еще менее популярных. Для решения этой проблемы требовалось создать программу, которая позволила бы игнорировать уже проиндексированные страницы и сосредоточиться на поиске новых. Иначе это грозило проблемой с ресурсами.

В 1993 г. студент-физик Массачусетского технологического института Мэтью Грей (Mathew Gray) создал первый широко известный Web-робот, названный «World Wide Web Wanderer» или просто «Вандерер», что в переводе с английского означает «скиталец» или «странник». Дело в том, что Грей заинтересовался статистикой. Результатом такого увлечения стало появление «странника»: изобретение было призвано помочь студенту проанализировать размеры Интернета и скорость его роста. «Вандерер» просто приходил на страницу и определял сам факт ее существования, не занося в базу содержимого найденного адреса. Несмотря на то, что создатель робота не преследовал никаких других целей, его детище, фактически дебютировавшее в «забеге» прогрессивных интернет-находок, легло в основу более сложных программ, которые к умению «скитальца» перемещаться по Сети добавили способность сохранять содержимое страниц в базе данных после их посещения.

Случилось так, что 1994 г. стал переломным в истории создания поисковых машин. Студент выпускного курса Вашингтонского университета Брайан Пинкертон (Brian Pinkerton) устал от бесконечной череды электронных писем, которые посылали ему друзья, с информацией о хороших сайтах, найденных ими в Интернете. Безусловно, сайты ему были нужны, однако шквал посланий с их адресами раздражал, а посещение всех страниц отнимало уйму времени. Однако Пинкертон нашел решение проблемы – он создал робота, которого назвал WebCrawler (что-то вроде «вездеход для Интернета»). «ВебКраулер», как и «Вандерер», ползал со страницы на страницу, запоминая при этом весь текст Web-документа и сохраняя его в базе данных, которая была доступна поисковым словам. Изобретатель представил свое детище публике в апреле 1994 г., причем сделал это виртуально – через Web-интерфейс. База данных в тот момент содержала информацию с 6000 самых разных серверов. Уже через неделю она начала расширяться, причем ежедневный прирост составлял более 100 новых серверов. Так родилась первая поисковая машина.

Тогда же был введен в обиход интернетчиков термин «краулер» или «паук», который применяется, как мы уже говорили, и по сей день.

1994 г. – WebCrawler, Lycos, Yahoo!

1995 г. – Infoseek, SavvySearch, AltaVista, MetCrawler, Excite. Появление метапоисковых машин.

1996 г. – HotBot, LookSmart.

1997 г. – NorthernLight.

1998 г. – Google, InvisibleWeb.com.

Русскоязычные поисковые машины появлялись в такой последовательности:

2004 г. – русскоязычная версия Google (www.google.ru) и русскоязычная версия Yahoo! (http://ru.yahoo.com).

Из чего состоит сайт

Прежде, чем перейти к описанию языка запросов поисковых машин, рассмотрим, из каких элементов, с которыми предстоит работать пауку, состоит обычно сайт.

Надо сказать, что язык HTML достаточно прост и логичен. Он представляет собой способ разбивки текста с помощью специальных элементов – тегов, которые определяют структуру и внешний вид текста при просмотре его в браузере. О тегах следует знать, что они всегда парные и что они бывают открывающими (обозначают начало определенного форматирования) и закрывающими (обозначают его окончание). Закрывающий тег – такой же по написанию, как открывающий, но перед ним стоит косая черта.

Приведем пример очень простого сайта (рис. 1).

Рис. 1. Пример сайта, как его видно в браузере Мозилла Файрфокс .


Наверху страницы, изображенной на рисунке, то есть не в тексте сайта, а на верхнем поле рамки страницы, рядом с круглым значком браузера, расположена надпись: «Показываем устройство сайта». Она находится в так называемом заголовке страницы (который заключен между открывающим тегом и закрывающим тегом ). Обращаем ваше внимание на то, что это заголовок именно всей страницы, а не текста.

Посередине представленного рисунка жирным курсивом выведено: «Это простой сайт». Данная надпись – и есть заголовок текста. Шрифт фразы «Это простой сайт» по размеру превосходит шрифт текста на сайте, он специально выделен как заголовок текста. При разметке с помощью HTML этот текст расположен ниже тега , но при этом вместе с тегом <TITLE> находится внутри тега <Head>. То есть содержимое, заключенное в <TITLE>, – это часть того, что находится в <Head>. Такое расположение дает <a href="/programming/bystraya-nastroika-tp-link-3420-nastroika-routera-tp-link-tl-mr3420/">дополнительную возможность</a> пауку лучше определять ключевые слова на сайте. Ведь если слова вынесены в заголовок текста или, тем более, всей страницы, вероятность того, что страница и текст посвящены теме, формулируемой этими словами, повышается.</p><p>Ниже фразы «Это простой сайт» приведены четыре варианта написания основного текста сайта:</p><p>– обычный;</p><p>– жирный (пишется под тегом <B>);</p><p>– курсив (пишется под тегом <i>);</p><p>Основной текст сайта, вне зависимости от того, каким вариантом шрифта он написан, располагается внутри тега <BODY>. Именно содержимое тега <BODY> представляет собой основной объект для паука и рассматривается им как текст страницы (собственно, это действительно текст страницы).</p><p>Чтобы увидеть внутреннюю разметку сайта, надо в браузере Мозилла Файрфокс навести курсор на любой незанятый текстом участок поля и нажать <a href="/tips/kak-redaktirovat-kontekstnoe-menyu-v-windows-7-kak-izmenit-menyu-pravoi-knopki/">правую кнопку</a> мыши. В всплывающем меню следует выбрать пункт «Просмотр исходного кода страницы».</p><p>Применительно к сайту, который мы рассматривали на рис. 1, этот исходный код будет выглядеть следующим образом:</p><blockquote><p>Показываем устройство сайта:</p><p><SPAN STYLE=«font-size: large»>Это простой сайт</p><p>Это текст на сайте. Обычный шрифт.</p><p>Жирный шрифт.</p><p>Курсив. </I></p> </blockquote><p>Здесь можно увидеть все элементы, описанные нами выше. Кроме того, в исходном коде видны теги <P>Которые обеспечивают расположение текста в новой строке и с промежутком по отношению к тексту, расположенному в предыдущей строке.</p><p>Разметка HTML по умолчанию не предполагает переноса текста и его форматирования. Поэтому текст, не содержащий никаких тегов, воспроизводится подряд, но с соблюдением пробелов между словами. Для того чтобы текст оказался написан не просто в новой строке, а с промежутком относительно находящейся выше строки, используется, как мы уже показали, тег <P>А для того, чтобы текст был написан в новой строке, но без промежутка между выше– и нижерасположенной строками, применяется тег <BR>.</p><p>Начало сайта, созданного с помощью разметки HTML, отмечено тегом <HTML>, а его окончание – тегом </HTML>.</p> <p><b>Цель работы: </b>изучение принципов организации поиска в сети Internet и приобретение практических навыков составления поисковых запросов.</p> <p><b>2.1 Простые приемы поиска </b><b>Web </b><b>-страниц </b></p> <p>Простые приемы поиска не предполагают использования мощных поисковых возможностей сети Internet и основываются на знании принципов формирования символьных доменных имен и интуиции.</p> <p><b>Поиск коммерческих </b><b>Web </b><b>-сайтов. </b>Чтобы получить искомый адрес, к названию фирмы, предприятия, организации или простому английскому существительному (ключевому слову) можно добавить домен. com, подставить впереди www. Web-страницы, в адресе которых обозначен домен верхнего уровня. com., чаще всего содержат информацию на английском языке .</p> <p><b><i>Пример 1. </i> </b>Возьмем название фирмы SONY, добавим домен. com, а впереди www. - получим адрес Web-страницы фирмы SONY: <u>www </u><u>. </u><u>sony </u><u>. </u><u>com </u>. Аналогичным образом можно получить:</p> <p><u>www </u><u>. </u><u>cnn </u><u>. </u><u>com </u> - всемирные новости CNN;</p> <p><u>www </u><u>. </u><u>mtv </u><u>. </u><u>com </u> - музыкальные новости MTV;</p> <p><u>www. </u> - журнал COSMOPOLITAN.</p> <p>Если ввести ключевое слово в <a href="/office-programs/praktika-ispolzovaniya-funkcii-php-empty-praktika-ispolzovaniya/">адресной строке</a> <i>Internet </i> <i>Explorer </i> и нажать <i>Ctrl </i><i>+ </i><i>Enter </i><i>, </i>то обозреватель попробует перейти к точному URL-адресу, автоматически добавляя имя протокола и признак Web, например http://www. и домен верхнего уровня. com. Например, если набрать в адресной строке me и нажать Ctrl-Enter, то обозреватель <i>Internet </i> <i>Explorer </i> попробует открыть Web-узел с адресом <u>http </u><u>:// </u><u>www </u><u>. </u><u>me </u><u>. </u><u>com </u>. Если узел не открывается, значит, он не существует.</p> <p><b>Поиск по регионам. </b>Для российского и других регионов приведенный выше прием остается в силе. В <a href="/security/rezhimy-klient-programmy-elektronnoi-pochty-prezentaciya-po/">данном случае</a> к ключевому слову добавляется домен верхнего уровня региона (двухбуквенный код страны), что дает адрес Web-страницы. Например, для поиска российских серверов к ключевому слову можно попробовать добавить домен. ru.</p> <p><b><i>Пример </i> </b><i>2. </i>Известно, что есть сервер <u>www </u><u>. </u><u>audi </u><u>. </u><u>com </u>. Можно попытаться найти его филиал в России, заменяя домен. com на домен. ru, - <u>www </u><u>. </u><u>audi </u><u>. </u><u>ru </u>.</p> <p><b>Поиск крупных учебных заведений. </b>К названию или аббревиатуре учебного заведения добавляется домен. edu (в основном, для американского и европейского регионов), что, как правило, дает нужный адрес.</p> <p><b><i>Пример </i> </b><i>3. </i>Возьмем университет OXFORD, добавим домен. edu, а впереди www. - получим адрес Web-страницы университета OXFORD: <u>www </u><u>. </u><u>oxford </u><u>. </u><u>edu </u>. Часто в адресе Web-страницы учебного заведения отсутствует домен. edu. Заре­гистрированным доменом второго уровня (или псевдонимом домена) может быть сокращенное английское название учебного заведения. Для поиска рос­сийского учебного заведения можно взять его <a href="/programming/angliiskaya-abbreviatura-sinhronnoi-dinamicheskoi-pamyati-pamyat-sdram-chto-my/">английскую аббревиатуру</a>, на­пример MSU (Moscow State University), добавить домен. ru - <u>www </u><u>. </u><u>msu </u><u>. </u><u>ru </u> - Мо­сковский государственный университет имени.</p> <p>Часто в адресе Web-страницы присутствует <a href="/programming/programma-dlya-upravleniya-kompyuterom-onlain-slezhenie-i-udalennyi/">доменное имя</a> поставщика услуг Internet, на компьютере которого установлена данная Web-страница, например, <u>www </u><u>. </u><u>kgtu </u><u>. </u><u>runnet </u><u>. </u><u>ru </u> - адрес Красноярского государственного технического университета, где ***** - доменное имя поставщика услуг Internet.</p> <p>Многие страны имеют зарегистрированный домен второго уровня для учебных заведений. Например, для Великобритании - это домен AC (Aca­demic). Любая Web-страница может иметь несколько адресов-псевдонимов, при обращении к которым пользователь попадает на одну и ту же Web-страницу. Например, для университета OXFORD это адреса <u>www </u><u>. </u><u>ox </u><u>. </u><u>ac </u><u>. </u><u>uk </u> и <u>www </u><u>. </u><u>oxford </u><u>. </u><u>edu </u>.</p> <p><b>Прочий поиск </b><b>Web </b><b>-страниц. </b>Можно манипулировать ключевыми словами и доменами верхнего уровня для поиска правительственных (.gov), военных (.mil) и других организаций (.org). Например, адрес Белого дома правительства США: <u>www </u><u>. </u><u>whitehouse </u><u>. </u><u>gov </u><u>. </u></p> <p><b>2.2 Поисковые системы сети </b><b>Internet </b></p> <p><b>В </b>Internet имеются мощные средства поиска любой информации: доку­ментов, изображений, программ, Web-страниц и т. д. Поиск осуществляется в так называемых <i><a href="/administrator/kak-rabotaet-poiskovaya-sistema-poiskovye-sistemy-interneta/">поисковых системах</a>, </i>которые также называют <i>поисковыми программами, поисковыми серверами, поисковыми машинами. </i>Поисковых систем в Internet множество. Наиболее известные системы поиска информации приведены в таблице 2.1. Список ссылок на различные поисковые системы раз­мещен на Web-странице <u>www </u><u>. </u><u>monk </u><u>. </u><u>newmail </u><u>. </u><u>ru </u>.</p> <p>Таблица 2.1 - Наиболее популярные поисковые системы</p> <table cellpadding="0 " style="margin-left:2.0pt;border-collapse:collapse"><tr style="height:24.95pt"><td width="312" valign="top" style="width:234.25pt;border:solid windowtext 1.0pt; background:white;padding:0cm 2.0pt 0cm 2.0pt;height:24.95pt"><p><b>Название поисковой системы </b></p> </td> <td width="314" valign="top" style="width:235.2pt;border:solid windowtext 1.0pt; border-left:none;background:white;padding:0cm 2.0pt 0cm 2.0pt;height:24.95pt"><p><b>Адрес </b></p> </td> </tr><tr style="height:22.1pt"><td width="312" valign="top" style="width:234.25pt;border:solid windowtext 1.0pt; border-top:none;background:white;padding:0cm 2.0pt 0cm 2.0pt;height:22.1pt"><p>Яндекс (русскоязычная)</p> </td> <td width="314" valign="top" style="width:235.2pt;border-top:none;border-left: none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt; background:white;padding:0cm 2.0pt 0cm 2.0pt;height:22.1pt"><p>http://www. *****</p> </td> </tr><tr style="height:16.8pt"><td width="312" valign="top" style="width:234.25pt;border:solid windowtext 1.0pt; border-top:none;background:white;padding:0cm 2.0pt 0cm 2.0pt;height:16.8pt"><p>Рамблер (русскоязычная)</p> </td> <td width="314" valign="top" style="width:235.2pt;border-top:none;border-left: none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt; background:white;padding:0cm 2.0pt 0cm 2.0pt;height:16.8pt"><p>http://www *****</p> </td> </tr><tr style="height:10.55pt"><td width="314" valign="top" style="width:235.2pt;border-top:none;border-left: none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt; background:white;padding:0cm 2.0pt 0cm 2.0pt;height:10.55pt"> </td> </tr><tr style="height:22.55pt"><td width="312" valign="top" style="width:234.25pt;border:solid windowtext 1.0pt; border-top:none;background:white;padding:0cm 2.0pt 0cm 2.0pt;height:22.55pt"><p>Апорт (русскоязычная)</p> </td> <td width="314" valign="top" style="width:235.2pt;border-top:none;border-left: none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt; background:white;padding:0cm 2.0pt 0cm 2.0pt;height:22.55pt"><p>http://w w w. *****</p> </td> </tr><tr style="height:22.55pt"><td width="312" valign="top" style="width:234.25pt;border:solid windowtext 1.0pt; border-top:none;background:white;padding:0cm 2.0pt 0cm 2.0pt;height:22.55pt"><p>Yahoo! (англоязычная)</p> </td> <td width="314" valign="top" style="width:235.2pt;border-top:none;border-left: none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt; background:white;padding:0cm 2.0pt 0cm 2.0pt;height:22.55pt"> </td> </tr><tr style="height:22.55pt"><td width="312" valign="top" style="width:234.25pt;border:solid windowtext 1.0pt; border-top:none;background:white;padding:0cm 2.0pt 0cm 2.0pt;height:22.55pt"><p>AltaVista (англоязычная)</p> </td> <td width="314" valign="top" style="width:235.2pt;border-top:none;border-left: none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt; background:white;padding:0cm 2.0pt 0cm 2.0pt;height:22.55pt"> </td> </tr><tr style="height:22.55pt"><td width="312" valign="top" style="width:234.25pt;border:solid windowtext 1.0pt; border-top:none;background:white;padding:0cm 2.0pt 0cm 2.0pt;height:22.55pt"><p>Google (русскоязычная)</p> </td> <td width="314" valign="top" style="width:235.2pt;border-top:none;border-left: none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt; background:white;padding:0cm 2.0pt 0cm 2.0pt;height:22.55pt"><p>http://www. *****</p> </td> </tr></table><p><i>Поисковая система </i>реализована в виде Web-страницы с обычным адресом, которая содержит так называемую <i>строку для поиска </i>и кнопку <i>Поиск (</i><i>Search </i><i>), </i>а также может содержать <i>тематический каталог ресурсов, </i>ссылки на популяр­ные страницы и т. п.</p> <p>Для вызова поисковой системы необходимо ввести в адресной строке обозревателя Internet ее адрес. После загрузки поисковой системы в строке для поиска необходимо ввести <i>запрос (</i><i>query </i><i>), </i>который представляет собой строку текста (на любом языке), - ключевую фразу искомых документов в Internet и щелкнуть кнопку <i>Поиск. </i>Для более <a href="/what-is-it/lokalnyi-poisk-v-google-effektivnyi-lokalnyi-poisk-v-windows/">эффективного поиска</a> необходимо, чтобы запрос содержал слова или фразу, которые будут на искомой Web-странице или в искомом документе (их нужно «угадать»). Через некоторое время на экране появится <i>список адресов </i><i>Web </i><i>-страниц, </i>содержащий ссылки на искомые до­кументы, которые, как правило, сопровождаются комментариями. Щелкнув ссылку, можно перейти к любому из найденных документов.</p> <p>Чтобы перейти к следующей странице списка найденных документов, необходимо щелкнуть соответствующий номер (1, 2, 3, ...) в главном окне с результатом поиска. Обычно документы из первой десятки найденных максимально соответствуют запросу.</p> <p>Основу любой поисковой системы составляет специальная программа -<i>сетевой робот </i>или <i>spider </i> <i>(паук), </i>иногда можно встретить названия <i>worm </i> <i>(червь), </i><i>crawler </i> <i>(ползучее растение). </i>Поисковая система рассылает в Internet таких «пауков», которые просматривают максимальное количество (по возможности) представленных в Internet Web-страниц, а затем регистрируют их адрес (URL) и содержимое в своей базе данных . После ввода пользователем запроса и щелчка кнопки <i>Поиск </i>поисковая система просматривает базу данных и выводит на экран результат поиска.</p> <p>Кроме того, практически все поисковые системы позволяют зарегистри­ровать страницу пользователя, размещенную в Internet. Для этого на странице крупной поисковой системы, например, такой как YAHOO!, нужно вызвать режим регистрации и ввести URL и описание своей страницы. Далее поисковая система распространит вашу регистрационную информацию на все другие крупные поисковые узлы, те, в свою очередь, на другие и т. д. Имеются также глобальные регистрационные серверы.</p> <p><i>Поисковые каталоги </i>имеются, например, на поисковых серверах Rambler, Yahoo!, AltaVista и др. Чтобы осуществить поиск по каталогу, необходимо выбирать «мышью» темы, углубляясь и сужая круг поиска до тех пор, пока список выведенных ссылок не уменьшится до нескольких страниц, которые можно просмотреть вручную, либо до достаточно большой группы, в которой можно осуществить обычный поиск (например, в поисковой системе Япёех: <i>Учеба <a href="/multimedia/osnovnye-priemy-raboty-v-libreoffice-writer-tablichnyi-processor-libreoffice/">Высшее образование</a> Московский государственный университет). </i></p> <p><b>2.3 Правила выполнения запросов в поисковых системах </b></p> <p>При выполнении запросов имеются определенные правила, которые отчасти могут различаться в разных поисковых системах, однако основные действия схожи. Правила выполнения запросов всегда можно узнать на Web-странице конкретной поисковой системы в разделе <i>Помощь </i>(этот раздел может называться <i>Help </i><i>, Как искать, Советы поиска, Правила выполнения запросов </i>и т. п.). Правила запросов обычно включают в себя использование <i>языка запросов для расширенного поиска. </i></p> <p>Самое простое правило, существующее для всех поисковых систем, - указать любую фразу и щелкнуть <i>Поиск. </i></p> <p>В следующем пункте будут рассмотрены некоторые правила выполнения запросов на примере системы Яндекс. Многие из этих правил применимы и к другим поисковым системам. Примеры запросов взяты со страниц помощи поисковой системы Яндекс.</p> <p><b>2.4 Примеры простых запросов в поисковой системе Яndex </b></p> <p>Обычно запрос - это просто одно или несколько <a href="/what-is-it/opredelenie-funkcii-v-javascript-mozhno-li-seichas-ispolzovat-klyuchevoe/">ключевых слов</a>, например: <i>микропроцессоры компании </i><i>Intel </i><i>. </i>По такому запросу находятся документы, в которых встречаются все слова запроса. Некоторые слова в запросе игнорируются (союзы, предлоги и т. п.), так как не несут смысловой нагрузки. Например, по запросу <i>яблоки на снегу </i>будут найдены все документы, в которых встречаются одновременно два слова: «яблоко» и «снег» (однако порядок их отображения в списке будет различным). Где в пределах документа расположены слова, в какой грамматической форме они находятся - не важно. Предлог <i>на </i>игнорируется. Поэтому приведенный запрос можно написать и так: <i>снег на яблоке. </i>Результат поиска будет таким же.</p> <p>Важное и очень полезное свойство поисковых систем: независимо от того, в какой грамматической форме вы пишете в запросе слово, оно находится в документах во всех своих формах. Например, по запросу <i>человек шел </i>будут найдены среди прочих и документы, содержащие текст «люди идут». Распознавание всех форм работает для обычных слов русского языка . Для экзотических слов, неологизмов и т. п. оно не осуществляется.</p> <p>Операторы Яндекс, их назначение и примеры использования можно найти в пункте помощи системы.</p> <p>Для визуального создания сложных запросов можно использовать возможности расширенного поиска на странице «Расширенный поиск».</p> <p>1. Ознакомьтесь с теоретическими сведениями.</p> <p>2. Составьте адрес Web-сайта всемирно известной фирмы (Intel, IBM, Sony и т. д.) и откройте его в <i>Internet </i> <i>Explorer </i><i>. </i>Сохраните найденные Web-страницы в отдельной папке.</p> <p>3. Используя тот же прием, перейдите на Web-сайт Санкт-Петербургского <a href="/browser/70-na-100-kakoi-format-moskovskii-gosudarstvennyi-universitet/">государственного университета</a> и тем же способом откройте Web-сайт факультета прикладной математики этого же университета. Сохраните найденные Web-страницы в отдельной папке.</p> <p>4. В каждой поисковой системе (таблица 2.1) выполните несколько запросов, затрагивающих интересующие вас проблемы, и откройте найденные документы.</p> <p>5. Опробуйте поиск по тематическим каталогам.</p> <p>6. С помощью расширенного поиска на Яндексе сравните популярность следующих сайтов по количеству страниц, ссылающихся на них: Президента и Правительства <a href="/browser/sostoyanie-informatizacii-v-rossii-programmy-informatizacii-rossii/">Российской Федерации</a>; Московского государственного университета и Санкт-Петербургского государственного университета; Эрмитажа и Лувра. Сохраните найденные Web-страницы в отдельной папке. Создайте текстовый файл, где зафиксируйте количество ссылок на каждую из них.</p> <p>7. Найдите информацию о том, когда и где родился. Составьте список его произведений. Найдите его фотографии в разные годы жизни. Сохраните всю информацию в отдельной папке.</p> <p>8. Осуществите поиск информации в сети Internet по выбранной теме курсовой работы . По результатам поиска создайте в <a href="/utilities/utf-8-tekstovyi-redaktor-problemy-s-kodirovkoi-abrakadabra-v-tekstovom/">текстовом редакторе</a> <a href="/what-is-it/kak-pomenyat-cvet-tablicy-v-word-kak-sdelat-ramku-v-vorde-sovety-i/">Word таблицу</a> согласно образцу (таблица 2.3) и заполните ее.</p> <p>Таблица 2.3 - Образец оформления отчета о результатах поиска</p> <table cellpadding="0 " style="margin-left:2.0pt;border-collapse:collapse"><tr style="height:24.95pt"><td width="40" valign="top" style="width:30.25pt;border:solid windowtext 1.0pt; background:white;padding:0cm 2.0pt 0cm 2.0pt;height:24.95pt"><p>№ <b><i>и/и </i> </b></p> </td> <td width="150" valign="top" style="width:112.8pt;border:solid windowtext 1.0pt; border-left:none;background:white;padding:0cm 2.0pt 0cm 2.0pt;height:24.95pt"> </td> <td width="468" valign="top" style="width:351.35pt;border:solid windowtext 1.0pt; border-left:none;background:white;padding:0cm 2.0pt 0cm 2.0pt;height:24.95pt"><p>Характеристика результатов поиска</p> </td> </tr><tr style="height:32.65pt"><td width="141" valign="top" style="width:105.6pt;border-top:none;border-left: none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt; background:white;padding:0cm 2.0pt 0cm 2.0pt;height:32.65pt"><p>URL найденного ресурса</p> </td> <td width="328" valign="top" style="width:245.75pt;border:solid windowtext 1.0pt; border-left:none;background:white;padding:0cm 2.0pt 0cm 2.0pt;height:32.65pt"><p>Краткое описание ресурса</p> </td> </tr><tr style="height:24.95pt"><td width="40" valign="top" style="width:30.25pt;border:solid windowtext 1.0pt; border-top:none;background:white;padding:0cm 2.0pt 0cm 2.0pt;height:24.95pt"> </td> <td width="150" valign="top" style="width:112.8pt;border-top:none;border-left: none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt; background:white;padding:0cm 2.0pt 0cm 2.0pt;height:24.95pt"> </td> <td width="141" valign="top" style="width:105.6pt;border-top:none;border-left: none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt; background:white;padding:0cm 2.0pt 0cm 2.0pt;height:24.95pt"> </td> <td width="328" valign="top" style="width:245.75pt;border-top:none;border-left: none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt; background:white;padding:0cm 2.0pt 0cm 2.0pt;height:24.95pt"> </td> </tr><tr style="height:24.5pt"><td width="40" valign="top" style="width:30.25pt;border:solid windowtext 1.0pt; border-top:none;background:white;padding:0cm 2.0pt 0cm 2.0pt;height:24.5pt"> </td> <td width="150" valign="top" style="width:112.8pt;border-top:none;border-left: none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt; background:white;padding:0cm 2.0pt 0cm 2.0pt;height:24.5pt"> </td> <td width="141" valign="top" style="width:105.6pt;border-top:none;border-left: none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt; background:white;padding:0cm 2.0pt 0cm 2.0pt;height:24.5pt"> </td> <td width="328" valign="top" style="width:245.75pt;border-top:none;border-left: none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt; background:white;padding:0cm 2.0pt 0cm 2.0pt;height:24.5pt"> </td> </tr><tr style="height:25.45pt"><td width="40" valign="top" style="width:30.25pt;border:solid windowtext 1.0pt; border-top:none;background:white;padding:0cm 2.0pt 0cm 2.0pt;height:25.45pt"> </td> <td width="150" valign="top" style="width:112.8pt;border-top:none;border-left: none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt; background:white;padding:0cm 2.0pt 0cm 2.0pt;height:25.45pt"> </td> <td width="141" valign="top" style="width:105.6pt;border-top:none;border-left: none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt; background:white;padding:0cm 2.0pt 0cm 2.0pt;height:25.45pt"> </td> <td width="328" valign="top" style="width:245.75pt;border-top:none;border-left: none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt; background:white;padding:0cm 2.0pt 0cm 2.0pt;height:25.45pt"> </td> </tr></table><p>9. Пригласите преподавателя для отчета о проделанной работе.</p> <p>10. Удалите сохраненные в процессе работы файлы из рабочей папки.</p> <p><b>2.6 Контрольные вопросы </b></p> <p>1. Охарактеризуйте простые приемы поиска информации в сети Internet.</p> <p>2. Каковы принципы работы поисковых систем сети Internet?</p> <p>3. Сформулируйте основные правила составления поисковых запросов.</p> <p>4. Какие из рассмотренных Вами поисковых систем имеют возможности использования языка запросов?</p> <p>5. Какие из рассмотренных Вами поисковых систем имеют тематический каталог ресурсов?</p> <p>6. Какие из рассмотренных Вами поисковых систем имеют возможности поиска по различным категориям информационных ресурсов?</p> <p>Рассмотрим постановку задачи поиска в <a href="/tips/kak-polzovatsya-programmoi-sprint-laut-risuem-platy-v-sprint-layout/">общем виде</a>. Для этого нам необходимо ответить на три вопро-са:</p> <p>1. что искать – какие источники информации;</p> <p>2. где искать – места размещение этих источников;</p> <p>3. как искать – какие инструменты для этого использовать.</p> <p>Выделим основные источники информации, представленные в Интернете. Это документы WWW, ста-тьи в группах новостей и списках рассылки, файлы в библиотеках файлов, справочники адресной ин-формации организаций и людей (электронная почта, адрес, телефон), статьи в тематических базах дан-ных, энциклопедиях. Заметим, перечисленный список не претендует на полноту.</p> <p>Теперь отвечаем на вопрос, где эти источники информации размещаются. Это такие популярные ресур-сы Интернет, как WWW, группы новостей, списки рассылки и FTP-серверы.</p> <p>Безусловно, можно искать нужные источники информации вручную, узнавать адреса из специализиро-ванных журналов по информатике и Интернету, использовать специальные бумажные справочники с классифицированными по категориям адресами. Однако для такого изменчивого пространства как Ин-тернет необходимо научиться пользоваться специальными инструментами, цель которых – собирать данные об <a href="/what-to-do/kakie-byvayut-internet-resursy-osnovnye-informacionnye-resursy-internet/">информационных ресурсах</a> и предоставлять пользователям услугу быстрого поиска. Таким образом, мы подходим к понятию автономного инструмента поиска – информационно-поисковой сис-темы.</p> <p><b>Информационно-поисковая система </b>(ИПС) –это система,обеспечивающая поиск и отбор необходи-мых данных в специальной базе с описаниями источников информации (индексе) на основе информа-ционно-поискового языка и соответствующих правил поиска.</p> <p><b>Главной задачей </b>любой<b><i> ИПС </i> </b>является поиск информации релевантной информационным потребно-стям пользователя. Очень важно в результате проведенного поиска ничего не потерять, то есть найти все документы, относящиеся к запросу, и не найти ничего лишнего. Поэтому вводится качественная ха-рактеристика процедуры поиска – релевантность.</p> <p><b>Релевантность </b>–это соответствие результатов поиска сформулированному запросу.</p> <p>Основными показателями ИПС для WWW являются пространственный масштаб и специализация.</p> <p>По пространственному масштабу ИПС можно разделить на:</p> <p>‒ локальные;</p> <p>‒ глобальные;</p> <p>‒ региональные;</p> <p>‒ специализированные.</p> <p><b>Локальные поисковые системы </b>могут быть разработаны для быстрого поиска страниц в масштабе от-дельного сервера. <b><i>Региональные ИПС </i> </b> описывают информационные ресурсы определенного региона, например, русскоязычные страницы в Интернете. <b><i>Глобальные поисковые системы </i> </b>, по возможности наиболее полно, описывают ресурсы всего информационного пространства сети Интернет. <b><i>Специали-зированные ИПС </i> </b>сосредоточены на поиске определенных источников информации:документовWWW,файлов, адресов и т.д.</p> <p>Рассмотрим подробнее основные задачи, которые должны решить разработчики ИПС. Как следует из определения, ИПС для WWW проводят поиск в собственной базе (индексе) с описанием распределен-ных источников информации. Следовательно, сначала нужно описать информационные ресурсы и соз-дать индекс. Построение индекса начинается с определения начального набора URL источников ин-формации. Затем проводится процедура индексирования.</p> <p><b>Индексирование </b>–описание источников информации и построение специальной базы данных(индекса)для эффективного поиска.</p> <p>В некоторых информационно-поисковых системах описание источников информации проводится пер-соналом ИПС, то есть, людьми, которые составляют краткую аннотацию на каждый ресурс. Затем, как правило, проводится сортировка аннотаций по темам (составление тематического каталога). Конечно, описание, составленное человеком, будет совершенно адекватно источнику. Правда, в этом случае про-цедура описания занимает значительный период времени, поэтому формируемый индекс имеет, как правило, ограниченный объем. Зато поиск в подобной системе можно будет проводить так же легко, как</p> <p>в тематических каталогах библиотек.</p> <p>В ИПС другого типа процедура описания информационных ресурсов автоматизирована. Для этого раз-рабатывается специальная программа-робот, которая по определенной технологии обходит ресурсы, описывает их (проводит индексирование) и анализирует ссылки с текущей страницы для расширения области поиска. Как может описать документ программа? Чаще всего просто составляется список слов, которые встречаются в тексте и других частях документа, при этом учитывается частота повторения и местоположение слова, то есть, слову приписывается своеобразный весовой коэффициент в зависимо-сти от его значимости. Например, если слово находится в названии Web-страницы, робот пометит этот факт для себя. Поскольку описание автоматизировано, затраты времени невелики, и индекс может ока-заться очень большим по размеру.</p> <p>Следовательно, следующей задачей для ИПС второго типа является разработка робота-индексировщика. <b><i>Робот-индексировшик </i> </b> – программа, которая служит для сканирования Интернет и поддержки базы данных индекса в актуальном состоянии. Для поиска в системах <a href="/tools/js-preobrazovanie-stroki-javascript-preobrazovanie-tipov-dannyh-preobrazovanie-znachenii-v-stroki/">данного типа</a> пользо-вателю придется научиться составлять запросы, в простейшем случае состоящие из нескольких слов. Тогда ИПС будет искать в своем индексе документы, в описаниях которых встречаются слова из запро-са. Для проведения более качественного поиска необходимо разрабатывать <a href="/tips/obshchenie-na-nemeckom-yazyke-izuchenie-nemeckogo-cherez-obshchenie-s/">специальный язык</a> запросов для пользователя. В зависимости от особенностей построения модели индекса и поддерживаемого язы-ка запросов разрабатывается механизм поиска и алгоритм сортировки результатов поиска. Поскольку индекс имеет значительный объем, количество найденных документов может оказаться достаточно большим. Следовательно, чрезвычайно важно, как поисковая машина проведет поиск и отсортирует его результаты. Не последнее значение имеет внешний вид поисковой системы, предстающий перед поль-зователем, поэтому одной из задач является разработка удобного и красивого интерфейса. Наконец, ис-ключительно важна форма представления результатов поиска, поскольку пользователю необходимо уз-нать как можно больше о найденном источнике информации, чтобы принять <a href="/what-to-do/pravilnye-metody-udaleniya-dublei-stranic-dubli-stranic-reshenie/">правильное решение</a> о не-обходимости его посещения.</p> <p>Для обращения к поисковому серверу пользователь использует стандартную программу-клиент для всемирной паутины, то есть браузер. По адресу домашней страницы ИПС пользователь работает с ин-терфейсом поисковой системы, который служит для общения пользователя с поисковым аппаратом сис-темы (системой формирования запросов и просмотра результатов поиска).</p> <p>Основным компонентом ИПС является поисковая машина, которая служит для перевода запроса поль-зователя в формальный запрос системы, поиска ссылок на информационные ресурсы и выдачи резуль-татов поиска пользователю.</p> <p>Как уже говорилось ранее, поиск осуществляется в специальной базе, именуемой индексом. Архитекту-ра индекса устроена таким образом, чтобы поиск проходил максимально быстро, и при этом можно бы-ло отследить ценность каждого из найденных ресурсов. Некоторые системы сохраняют запросы пользо-вателя в его личной базе данных, поскольку на отладку каждого запроса уходит много времени, и чрез-вычайно важно хранить запросы, на которые получен удовлетворительный ответ.</p> <p><b>Web-сайты </b>–те информационные ресурсы,доступ к которым обеспечивает ИПС.</p> <p>Как известно, Web-страница – это сложный документ, состоящий из множества элементов. При описа-нии подобного документа программой-роботом необходимо учитывать, в какой именно части Web-страницы встретилось данное слово. Источниками индексирования для документов WWW являются:</p> <p>‒ Заголовки (Title).</p> <p>‒ Заглавия (H1-H6).</p> <p>‒ Аннотация (Description).</p> <p>‒ Списки ключевых слов (KeyWords).</p> <p>‒ Полные тексты документов.</p> <p>Поисковые системы, которые описывают абсолютно весь текст документа WWW, называются полно-текстовыми.</p> <p>Для того, чтобы описать файл в <a href="/utilities/rib-po-organizacii-instrukciya-po-nastroike-raspredelennoi-informacionnoi/">ресурсе FTP</a> используется его URL. Для описания статьи в группе ново-стей источниками индексирования являются поля Тема (Subject) и Keywords (ключевые слова).</p> <p>Во время процедуры индексирования часто производится нормализация лексики (приведение слова к базовой форме), некоторые неинформативные слова, например, союзы или предлоги, игнорируются. В каждой ИПС существует свой список так называемых стоп-слов, которые игнорируются в процессе ин-</p> <p>дексирования. В системах с сильно изменяемыми языками, например, русским, проводится учет морфо-логии. Учет морфологии означает умение работать с различными формами слов конкретного языка. Следует отметить достаточную сложность русского языка, слова которого изменяются по числам, па-дежам, родам и временам, причем зачастую неожиданным образом. Например: идет, шел, пойдет, идут</p> <p>и т.д. Все существующие ИПС с учетом морфологии русского языка используют "Грамматический сло-варь русского языка", составленным Андреем Анатольевичем Зализняком. Словарь включает 90000 словарных статей, по каждому слову даются сведения о том, изменяемо ли оно, и как именно оно скло-няется или спрягается.</p> <p>Итак, <b><i>обобщенная технология поиска </i> </b> состоит из следующих этапов:</p> <p>1. Пользователь формулирует запрос.</p> <p>2. Система проводит поиск документов (или их поисковых образов).</p> <p>3. Пользователь получает результат (сведения о документах).</p> <p>4. Пользователь совершенствует или реформирует запрос.</p> <p>5. Организация нового поиска.</p> <p>Из вышеизложенного следует, что основными инструментами поиска информации в WWW являются ИПС. Однако в Интернет существуют средства поиска, имеющие принципиальные отличия от рассмот-ренных. В общем случае, можно выделить следующие поисковые инструменты для WWW:</p> <p>‒ поисковые системы;</p> <p>‒ метапоисковые системы;</p> <p>‒ программы ускоренного поиска.</p> <p>Центральное место по праву принадлежит поисковым системам, которые в свою очередь подразделяют-ся на каталоги, автоматические индексы (поисковые машины) и каталоги-индексы. Только поисковые системы почти в полном объеме обладают возможностями и свойствами ИПС.</p> <p><b>Каталог </b>–поисковая система с классифицированным по темам списком аннотаций со ссылками наweb-ресурсы. Классификация, как правило, проводится людьми.</p> <p><b>Поисковая машина </b>–поисковая система с формируемой роботом базой данных,содержащей информа-цию об информационных ресурсах.</p> <p><b>Метапоисковая система </b>–система,не имеющая своего индекса,способная послать запросы пользова-теля одновременно нескольким поисковым серверам, затем объединить полученные результаты и пред-ставить их пользователю в виде документа со ссылками.</p> <p><b>Программа ускоренного поиска </b>–это программа с возможностями метапоисковой системы,устанавли-ваемая на локальном компьютере.</p> <p>Принципиальным отличием метапоисковых систем и программ ускоренного поиска от ИПС является отсутствие своего собственного индекса. Зато они превосходно умеют использовать результаты работы других поисковых систем.</p> <p>Рассмотрим особенности систем-каталогов.</p> <p>Поиск в каталоге очень удобен и проводится посредством последовательного уточнения тем. Тем не менее, каталоги поддерживают возможность быстрого поиска определенной категории или страницы по ключевым словам с помощью локальной поисковой машины. База данных ссылок (индекс) каталога обычно имеет ограниченный объем, заполняется вручную персоналом каталога. Некоторые каталоги используют <a href="/what-to-do/kak-udalit-obnovleniya-prilozheniya-video-kak-otklyuchit-avtomaticheskoe/">автоматическое обновление</a> индекса. Результат поиска в каталоге представляется в виде списка, состоящего из краткого описания (аннотации) документов с гипертекстовой ссылкой на перво-источник. Среди самых популярных зарубежных каталогов можно упомянуть:</p> <p>‒ Yahoo (www.yahoo.com),</p> <p>‒ Magellan (www.mckinley.com),</p> <p>‒ Российские каталоги:</p> <p>‒ @Rus (www.atrus.ru)</p> <p>‒ Weblist (www.weblist.ru)</p> <p>‒ Созвездие интернет (www.stars.ru).</p> <p>Отличительной чертой поисковых машин является тот факт, что база данных, содержащая информацию об Web-страницах, статьях Usenet и т.д., формируется программой-роботом. Поиск в такой системе проводится по запросу, составляемому пользователем, состоящему из набора ключевых слов или фразы, заключенной в кавычки. Индекс формируется и поддерживается в актуальном состоянии роботами-индексировщиками. Для сужения области поиска возможна сортировка содержимого индекса по кате-гориям. Как правило, поисковые машины поддерживают два режима: <b><i>режим <a href="/utilities/kodeks-informacionno-pravovaya-sistema-atributnyi-prostoi-poisk-osnovnye/">простого поиска</a> </i> </b> и <b><i>ре-жим расширенного поиска </i> </b>.</p> <p>Рассмотрим обобщенные возможности формирования запроса в режиме простого поиска. Можно про-сто вводить через пробел одно или несколько слов; поиск слов со всевозможными окончаниями моде-лируется символом * в конце слова. Многие системы позволяют искать словосочетания или фразу, для этого необходимо ее заключить в кавычки. Возможно обязательное включение или исключение опреде-ленных слов. Основная проблема поиска по примитивно составленному запросу (в виде перечисления ключевых слов) заключается в том, что поисковая машина найдет все страницы, на которых указанные слова встречаются в любой части документа. Как правило, количество найденных страниц будет слиш-ком велико. Для улучшения качества поиска в режиме простого поиска допустимо использование логи-ческих операторов и операторов, позволяющих ограничить область поиска, а также выбор определен-ной категории документов из представленного списка.</p> <p>В качестве операторов, устанавливающих отношения между ключевыми словами, большинство поис-ковых систем используют следующие:</p> <p>‒ <b>AND (И) & </b>–обязательное присутствие всех ключевых слов;</p> <p>‒ <b>OR (ИЛИ) | </b>–присутствие хотя бы одного из ключевых слов;</p> <p>‒ <b>NOT (НЕ) ! </b>–отсутствие ключевого слова;</p> <p>‒ <b>NEAR (ОКОЛО) ~ </b>–определенный интервал между ключевыми словами.</p> <p>Многие поисковые системы включают в свой язык составления запросов специальные операторы, по-зволяющие проводить поиск в определенных зонах документа, например, в его заголовке, или искать документ по известной части его адреса. Интересной возможностью является поиск документов в сети, ссылающиеся на страницу с указанным вами адресом (URL). Таким образом, можно найти в сети стра-ницы, на которых есть ссылки на ваш Web-сайт. Некоторые системы позволят ограничить область по-иска внутри указанного домена.</p> <p>В качестве дополнительных специальных операторов можно выделить:</p> <p>‒ Операторы поиска документов с определенным <a href="/office-programs/kakie-byvayut-formaty-failov-formaty-graficheskih-failov-opisanie-rasshirenii/">графическим файлом</a>;</p> <p>‒ Операторы ограничения по дате искомых страниц;</p> <p>‒ Операторы близости между словами;</p> <p>‒ Операторы учета словоформы;</p> <p>‒ Операторы сортировки результатов (по релевантности, свежести, старости).</p> <p>Следует заметить, что на сегодняшний день не существует стандарта на количество и синтаксис под-держиваемых операторов для различных поисковых систем. Поэтому пользователь, обращаясь к опре-деленной поисковой системе, непременно должен в первую очередь ознакомиться с ее правилами со-ставления запросов. Как правило, на домашней странице будет обязательно присутствовать ссылка По-мощь (Help), по которой можно перейдете к справочной информации.</p> <p>Режим расширенного или детального запроса в разных системах реализован индивидуально, но чаще всего это бланк, в котором упомянутые операторы и ключевые элементы реализуются простой установ-кой соответствующих флажков или выбором параметров из списка.</p> <p>Рассмотрим способы представления результатов поиска в поисковых машинах. Чаще всего количество найденных документов превышает несколько десятков, а в отдельных случаях может достигать сотен тысяч! Поэтому в качестве формы выдачи составляется список документов по 5-10-15 единиц на стра-нице с возможностью перехода к следующей порции внизу страницы. Обязательно указывается заголо-вок и URL(адрес) найденного документа, иногда система указывает в процентах степень релевантности документа.</p> <p>В описании документа чаще всего содержится несколько первых предложений или выдержки из текста документа с выделением ключевых слов. Как правило, указана дата обновления (проверки) документа, его размер в килобайтах, некоторые системы определяют язык документа и его кодировку (для русскоя-зычных документов).</p> <p>Что можно делать с полученными результатами? Если название и описание документа соответствует вашим требованиям, можно немедленно перейти к его первоисточнику по ссылке. Это удобнее делать в новом окне, чтобы иметь возможность далее анализировать результаты выдачи. Многие поисковые сис-темы позволяют проводить поиск в найденных документах, причем вы можете уточнить ваш запрос введением дополнительных терминов. Если интеллектуальность системы высока, вам могут предло-жить услугу поиска похожих документов. Для этого вы выбираете особо понравившийся документ и указываете его системе в качестве образца для подражания. Однако, автоматизация определение похо-жести – весьма нетривиальная задача, и зачастую эта функция работает неадекватно вашим надеждам. Некоторые поисковики позволяют провести пересортировку результатов. Для экономии вашего време-ни можно сохранить результаты поиска в виде файла на <a href="/programming/papka-kak-lokalnyi-disk-kak-podklyuchit-setevoi-disk-v-windows-kak/">локальном диске</a> для последующего изучения в автономном режиме.</p> <p>Наиболее популярные поисковые машины за рубежом и в России.</p> <p>Зарубежные поисковые машины:</p> <p>Google www.google.com</p> <p>Altavista www.altavista.com</p> <p>Excite www.excite.com</p> <p>HotBot www.hotbot.com</p> <p>Nothern Light www.northernlight.com</p> <p>Go (Infoseek) www.go.com (infoseek.com)</p> <p>Fast www.alltheweb.com</p> <p>Российские поисковые машины:</p> <p>Яndex www.yandex.ru (или www.ya.ru)</p> <p>Рэмблер www.rambler.ru</p> <p>Апорт www.aport.ru</p> <p>Белорусские поисковые системы:</p> <p>Система 09 www.09.open.by</p> <p>Поисковая система Unibel http://search.unibel.by</p> <p>Система *.BY http://search.promedia.minsk.by/</p> <p>Белорусский интенет-каталог Акавiта http://akavita.kryvia.net/</p> <p>Обратите внимание на то, что различные поисковые системы описывают разное количество источников информации в Интернет. Поэтому нельзя ограничиваться поиском только в одной из указанных поиско-вых системах.</p> <p>Теперь познакомимся с инструментами поиска, которые не формируют собственный индекс, но умеют использовать возможности других поисковых систем. Это метапоисковые системы (поисковые службы)</p> <p>– системы, способные послать запросы пользователя одновременно нескольким поисковым серверам, затем объединить полученные результаты и представить их пользователю в виде документа со ссылка-ми.</p> <p>Здесь приведены адреса известных метапоисковых систем.</p> <p>MetaCrawlerwww.metacrawler.com</p> <p>SavvySearchwww.savvysearch.com</p> <p>Наконец, рассмотрим последний в списке инструмент поиска – программы ускоренного поиска.</p> <p><b>Программа ускоренного поиска </b>–это программа,устанавливаемая на компьютере пользователя и спо-собная:</p> <p>‒ посылать запросы к нескольким поисковым серверам;</p> <p>‒ сортировать результаты поиска по релевантности;</p> <p>‒ удалять дубликаты;</p> <p>‒ проверять наличие документов в сети.</p> <p>WebFerret, NewsFerret www.ferretsoft.com</p> <p>Inforia Quest 99 http://www.inforia.com/quest</p> <p>Subject Search Spider (SSSpider) www.kryltech.com.</p> <p>После подробного изучения основных возможностей инструментов обратимся к проблеме <b><i>эффектив-ности поиска </i> </b>.Основными параметрами эффективности поиска является полнота как отношение числанайденных документов к общему числу релевантных документов (то есть, найдены все документы, со-ответствующие запросу), и точность поиска – отношение числа релевантных документов к общему чис-лу полученных документов (то есть не найдено ничего лишнего, не относящегося к делу). Это и означа-ет понятие релевантности. Немаловажное значение имеет актуальность ссылок на документы, то есть существование в настоящий момент найденных документов в сети, и скорость поиска.</p> <p>Таким образом, можно выделить следующие факторы, влияющие на эффективность поиска:</p> <p>‒ Свойства и возможности поисковой системы.</p> <p>‒ Качество формулировки запроса пользователем.</p> <p>‒ Каким образом можно оценить качество поискового инструмента? Поисковые системы обычно сравнивают по следующим параметрам:</p> <p>‒ Количество проиндексированных страниц (объем индекса).</p> <p>‒ Количество поддерживаемых операторов.</p> <p>‒ Стандартный оператор, объединяющий несколько ключевых слов. Если стандартным операто-ром является оператор И, поисковая машина автоматически будет искать документы, на которых</p> <p>обязательно будут присутствовать все введенные ключевые слова. В противном случае (оператор ИЛИ) будут найдены документы со всеми ключевыми словами и с каждым по отдельности</p> <p>‒ Поиск точной фразы.</p> <p>‒ Поиск слов с различными окончаниями.</p> <p>‒ Учет словоформ. В случае автоматического режима учета словоформ система будет искать в до-кументах слово со всеми его изменениями.</p> <p>‒ Чувствительность к заглавной букве. Если система не различает заглавные и <a href="/browser/v-vorde-pomenyat-zaglavnye-bukvy-na-strochnye-bukvy-v-vorde/">строчные буквы</a>, ре-зультаты поиска будут менее качественными.</p> <p>‒ Поиск мультимедийных файлов.</p> <p>‒ Форма представления результатов.</p> <p>‒ Период обновления индекса. Этот показатель влияет на такой параметр как актуальность най-денных ссылок. Чем чаще обновляется индекс, тем реже в результатах поиска будут встречаться устаревшие ссылки.</p> <p>‒ Задержка перед пропиской. <a href="/utilities/kak-poluchit-svedeniya-o-kompyutere-gde-i-kak-posmotret-svoistva-kompyutera-v/">Данный параметр</a> указывает на временной интервал перед занесени-ем описания Web-страницы в индекс после просьбы ее автора.</p> <p>Теперь рассмотрим, как лучше подготовиться пользователю к составлению запроса. Прежде всего, не-обходимо провести всесторонний лексический анализ информации, которую вы собираетесь искать. За-тем необходимо составить набор ключевых слов (при необходимости, на нескольких языках) в виде от-дельных терминов, словосочетаний, профессиональной лексики и клише.</p> <p>‒ Тестовые запросы из 1-2 ключевых слов или фразы.</p> <p>‒ Анализ количественного отклика.</p> <p>‒ Корректировка запроса по релевантности отклика.</p> <p>Исходя из вышеизложенного, можно выделить следующие приемы эффективного поиска:</p> <p>‒ Поиск <a href="/browser/kak-propiarit-svoi-server-minecraft-raskrutit-server-mainkraft-v/">общей информации</a> в каталогах. В каталогах вы, как правило, обязательно выйдете на специализированные сервера в искомой области.</p> <p>‒ Поиск узкоспециальной информации в поисковых машинах. Для проведения более обширного поиска ограниченного числа ссылок в каталогах явно недостаточно. Кроме того, узкоспециаль-ная информация в каталогах может просто отсутствовать. Поэтому необходимо проводить поиск в поисковых машинах, обладающих индексами большого объема.</p> <p>‒ Использование операторов или бланка расширенного запроса для сужения области поиска. Для проведения качественного поиска необходимо ознакомиться с языком запросов конкретной по-исковой машины. Эффективным и <a href="/office-programs/kak-udalit-avg-tri-proverennyh-sposoba-kak-udalit-avg-antivirus-samye-prostye/">простым способом</a> решения проблемы составления качест-венного запроса является использование режима расширенного запроса.</p> <p>‒ Использование функции поиска в найденном. Большинство поисковых систем поддерживают возможность поиска внутри полученных результатов. Как правило, для этого нужно включить специальный флажок Искать в найденном и ввести дополнительные слова для повторного поис-ка среди найденных по запросу страниц.</p> <p>‒ Использование поиска похожих документов.</p> <p>‒ Использование метапоисковых систем и программ ускоренного поиска информации. Для полу-чения общего обзора документов целесообразно использовать возможности метапоисковых сис-тем или программ ускоренного поиска. Напоминаем, данные инструменты поиска отправляют ваш запрос сразу нескольким поисковым системам и от каждой системы получают несколько са-мых релевантных ссылок.</p> <p>‒ Просмотр раздела Ссылки на специализированных сайтах. Авторы многих специализированных Web-узлов накапливают свои коллекции ссылок по тематике сайта. Зачастую вы зайдете в этих коллекциях много полезных источников, сэкономив время, затрачиваемое на самостоятельный поиск с использованием рассмотренных выше инструментов.</p> <p>‒ Поиск ответов на вопросы в группах новостей. При желании можно обратиться с конкретным вопросом о помощи в специализированную группу новостей. Найти нужную группу можно, ис-пользуя специальные инструменты поиска, которые мы рассмотрим далее.</p> <p>‒ Подписка на специализированные списки рассылки. Подписавшись на специализированный спи-сок рассылки, вы сможете получать по электронной почте свежую информацию по вашей тема-тике, а также задавать вопросы вашим коллегам-подписчикам.</p> <p>Обсудим проблему поиска такого источника информации, как статьи в группах новостей. Инструмен-тами поиска в данном случае могут являться рассмотренные поисковые машины WWW, которые ин-дексируют не только пространство WWW, но и статьи в телеконференциях и имеют специальный ре-жим поиска именно в этом ресурсе. Поиск в группах новостей поддерживает, например, поисковый сер-вер Altavist а. Следует отметить, что поисковые системы WWW весьма оперативно индексируют группы новостей и содержат информацию о статьях, реально существующих в сети. Для поиска в архивах ново-стей существую специализированные системы, самой известной из которых является система Deja (www.deja.com). Эта система позволяет проводить как поиск отдельных статей, содержащих введенный термин, так и поиск определенных групп новостей, посвященных обсуждению заданной темы. Можно зарегистрироваться в Deja и подписаться на определенные группы новостей.</p> <p>Теперь рассмотрим инструменты, позволяющие проводить поиск файлов. Многие поисковые системы</p> <p>WWW стали оказывать услугу поиска мультимедийных файлов (Altavista, Aport,…). Для этого вовсе нет необходимости знать специальные операторы, а достаточно перейти с домашней страницы по ссыл-кам Картинки (Images), MP3/Audio или Video к специальному режиму поиска. Поиск проводится по возможному имени файла или по тексту в комментарии к ссылке на мультимедийный файл. Вы можете спрогнозировать имя файла, например, файл с изображением орла может называться eagle.gif. Или до-гадаться, что фото Билла Гейтса будет иметь соответствующую подпись.</p> <p>Что касается поиска <a href="/administrator/vidy-licenzionnogo-programmnogo-obespecheniya-varianty-postavki/">программного обеспечения</a>, во всемирной паутине существуют поисковые Web-серверы с коллекциями условно-бесплатного ПО, некоторые из них специализируются на поиск про-граммного обеспечения для Интернета или для конкретной операционной системы. Эти системы в ко-нечном итоге приведут вас к конкретному серверу, с которого и можно скачать искомый программный продукт. Следует упомянуть серверы Archie, также оказывающие услугу поиска файлов на FTP-серверах, однако пользоваться Web-серверами гораздо удобнее.</p> <p>Рассмотрим поисковые инструменты для поиска адресной информации. Введем понятие Белого(White) и Желтого (Yellow) поиска.</p> <p><b>White-поиск </b>–поиск адресной информации по заранее известному собственному имени адресата(имячеловека или организации)</p> <p><b>Yellow-поиск </b>–поиск собственного имени по дополнительным признакам(по роду деятельности,погеографическому признаку), а затем поиск его адресной информации.</p> <p>Обычно Yellow Pages системы фактически сразу включают в себя и White Pages – у найденного адреса-та сразу видны его телефон и <a href="/tools/pochtovyi-adres-podderzhki-yandeksa-kak-sluzhba-podderzhki-yandeks-pochty-nauchilas/">почтовый адрес</a>. Кроме того, некоторые Yellow Pages позволяют искать просто в алфавитном списке своих абонентов (white-поиск). С другой стороны, White pages также со-держат элементы yellow-поиска – кроме задания собственного имени они обычно позволяют указать название города, штата и другие, сужающие поиск, данные (что необходимо в случае многих однофа-мильцев). Возможно, именно поэтому многие on-line телефонные справочники, выполняющие, факти-чески white-поиск, называют себя Yellow pages.</p> <p>Здесь приведены адреса Web-систем для поиска адресной информации для людей и организаций.</p> <p>Поиск людей:</p> <p>‒ Поиск людей на Yahoo (http://people.yahoo.com).</p> <p>‒ Система WhoWhere (www.whowhere.com).</p> <p>‒ Система Bigfoot (www.bigfoot.com).</p> <p>Поиск организаций:</p> <p>‒ раздел Желтые страницы (Yellow pages) на поисковых системах</p> <p>‒ специализированные сервера</p> <p>‒ www.yellowpages.com – для поиска в США и других странах</p> <p><b>РАБОТА С ПОЧТОВЫМ КЛИЕНТОМ </b></p> <p>Как упоминалось выше, одним из направлений использования Интернета является обмен информацией.</p> <p>Рассмотрим основные средства обмена информацией, доступные через <a href="/administrator/prezentaciya-globalnaya-kompyuternaya-set-internet-prezentaciya-na-temu/">глобальную сеть</a>:</p> <p><b>Электронная почта </b>,позволяющая очень быстро отправлять <a href="/administrator/poleznye-frazy-dlya-delovoi-perepiski-kopiya-i-skrytaya-kopiya-v/">электронные письма</a> на электронные ад-реса пользователей Интернета.</p> <p><b>Списки рассылки </b>,на которые можно подписаться,как на журнал,и затем периодически получать насвой <a href="/tools/u-23-e-mail-elektronnaya-pochta-pravilnoe-napisanie-adresa/">электронный адрес</a> подборку статей на заданную тему. Впоследствии можно отправлять свои со-общения всем подписчикам.</p> <p><b>Группы новостей </b>,которые позволяют публиковать сообщения по интересам на специальных серверахв сети. Сообщения можно читать, подключившись к серверу и выбрав тему для себя. Далее, по жела-</p> <p>Чрезвычайно популярным ресурсом является <b><i>IRC </i> </b>, который служит для прямого общения группы лю-дей в режиме реального времени с помощью ввода текста с клавиатуры и немедленного появления его на общей доске.</p> <p>Разработаны <a href="/browser/kak-vosstanovit-dannye-s-povrezhdennoi-sd-karty-kak-vosstanovit/">специальные программы</a> для общения в реальном режиме времени, позволяющие после установления связи передавать текст, вводимый с клавиатуры, а также звук, свое изображение и любые файлы. С помощью этих программ можно организовать <a href="/what-is-it/kak-sozdat-tekstovyi-fail-v-google-doc-dokumenty-google-docs-registraciya/">совместную работу</a> удаленных пользователей с программой, запущенной на локальном компьютере.</p> <p>‒ С помощью специального оборудования и программного обеспечения через Интернет можно проводить аудио- и видеоконференции, то есть передавать звук и изображение от одного ко мно-гим.</p> <p>‒ В Интернете есть свои пейджинговые системы, в которых можно зарегистрироваться и получить свой <a href="/utilities/ruchnaya-nastroika-kanalov-trikolor-model-gs-b520-vosstanovlenie/">персональный номер</a>. Зная персональный номер другого человека, можно через централь-ный сервер пейджинговой службы отправить ему сообщение с предложением установить соеди-нение и пообщаться. Самой популярной пейджинговой системой в Интернете является система</p> <p>‒ Интернет-телефонией называется система, позволяющая вести разговор в реальном времени че-рез сеть Интернет.</p> <p>Приступим к более <a href="/browser/g-mail-pochta-gmail-vhod-na-svoyu-stranicu-podrobnoe-opisanie/">подробному описанию</a> средств обмена информацией в Интернете. Начнем с самого древнего для <a href="/tools/setevoi-etiket-pri-obshchenii-v-seti-internet-pravila-setiketa-kak/">сетевого общения</a> средства под названием электронная почта. Введем определение:</p> <p><b>Электронная почта </b>–средство обмена информацией,подготовленной в электронном виде,междулюдьми, имеющими доступ к компьютерной сети.</p> <p>Основными областями применения <a href="/programming/kak-poslat-pozdravitelnuyu-otkrytku-po-elektronnoi-pochte-podrobno-o/">электронной почты</a> являются ведение личной переписки и работа с некоторыми информационными ресурсами Интернета, такими как списки рассылки, off-line группы но-востей и системы пересылки файлов по электронной почте. Конечно, имея вариант подключения к Ин-тернету в режиме on-line, удобнее для копирования файлов использовать любой FTP-клиент или про-грамму загрузки файлов. Однако иногда для пользователей, имеющих способ подключения по протоко-лу UUCP, <a href="/tips/kak-sbrosit-telefon-do-zavodskih-nastroek-honor-huawei-honor-hard/">единственным способом</a> получить файл с FTP-сервера является заказ его по почте с исполь-зованием специальной службы файлы-почтой. Кроме того, почтовая система не требует вашего непре-менного присутствия в Интернете, поэтому возможность получить архив с программой приличного размера по электронной почте иногда удобнее даже для пользователей, имеющий полноценный доступ ко всем ресурсам Интернета.</p> <p>Как реализована технология клиент/сервер в случае электронной почты. Серверную часть представля-ет почтовый сервер.</p> <p><b>Почтовый сервер </b>–программа,пересылающая сообщения из почтовых ящиков на другие серверы илина компьютер пользователя по запросу его почтового клиента. На почтовом сервере создают почтовые ящики для пользователей с определенным именем и паролем для доступа.</p> <p>Клиентскую часть сервиса представляет почтовый клиент. <b><i>Почтовый клиент </i> </b> (мейлер) – программа, помогающая составлять и посылать <a href="/tips/elektronnaya-podpis-pkcs-7-pervichnaya-klassicheskaya-podpis-pravila-formirovaniya/">электронные сообщения</a>, получать и отображать письма на компью-тере пользователя.</p> <p>Работа с почтой может проводиться в режиме off-line. Это означает, что для получения и отправки поч-ты в назначенный час вы устанавливаете соединение с провайдером. Затем вы даете команду вашему <a href="/tools/skachat-programmu-mozilla-thunderbird-rabota-s-pochtovym-klientom-mozilla-thunderbird/">почтовому клиенту</a>, по которой он подключается к вашему <a href="/what-to-do/server-i-kak-on-vyglyadit-chto-takoe-server-vidy-i-osobennosti-chto-takoe/">почтовому серверу</a>, отсылает подготовлен-ные письма и забирает на <a href="/administrator/podklyuchenie-k-printeru-na-drugom-kompyutere-podpisatsya-na/">локальный компьютер</a> сообщения, пришедшие за истекший период на ваш <a href="/security/pochta-com-bez-telefona-elektronnaya-pochta-gde-mozhno-ee-sozdat-kak-zaregistrirovat-pochtovyi-yashchik/">почтовый ящик</a>. Писать письма и читать полученные с сервера сообщения вы можете в автономном ре-жиме, то есть, без подключения к Интернету.</p> <p>Теперь рассмотрим почтовые протоколы.</p> <p>Одним из вариантов подключения к Интернету является подключение по протоколу UUCP. UUCP (протокол копирования с Unix на Unix) использовался для передачи информации по компьютерным се-тям очень давно, до изобретения протокола TCP/IP. <b><i>UUCP (протокол копирования сUnixнаUnix) </i> </b> – устаревающий протокол для передачи информации по <a href="/administrator/chto-ne-harakterno-dlya-lokalnoi-seti-kompyuternye-seti-vidy-i-klassifikaciya-rabota-i-standarty-a/">компьютерным сетям</a>. В то время единственным средством общения была электронная почта, которая и передавалась по упомянутому протоколу, досто-инством которого является неприхотливость к ресурсам компьютера, параметрам модема и качеству <a href="/browser/kak-podklyuchit-ip-telefoniyu-dlya-ofisa-i-vybrat-effektnyi-nomer-organizaciya/">телефонной линии</a> связи. На сегодняшний день протокол UUCP безнадежно устарел, он не относится к Интернет-протоколам, то есть, не базируется на TCP/IP. Тем не менее, следует упомянуть о программе-</p> <p>клиенте, разработанной российскими программистами специально для работы с почтой по этому прото-колу – программе, работающей под упра</p> <p>Поиск информации в Интернете</p> <p><b>Поиск информации в Интернете </b></p> <p><b>Для поиска информации </b> в обычно используются <b>три способа </b> (См. Рис.1). <b>Первый </b> из них - поиск по адресу. Он применяется, когда пользователю известен адрес информационного ресурса, содержащего необходимую ему информацию. При организации поиска информации по адресу (форма адреса - IP, доменный или URL - в этом случае значения не имеет) пользователю достаточно просто ввести адрес ресурса в соответствующее поле браузера - программы, предназначенной для обеспечения доступа к сетевым ресурсам.</p> <p>Рис. 1. Способы поиска информации в гипертекстовых базах данных</p> <p><b>Второй </b> - поиск с помощью навигации по гиперсвязям. При использовании этого вида поиска случае пользователь сначала должен получить доступ к серверу, связанному с соответствующей БД. После этого можно найти документ, используя гиперссылки. Очевидно, что этот способ удобен, когда адрес ресурса неизвестен пользователю. Для использования в качестве исходной точки для поиска при реализации этого способа предназначены Web-порталы - серверы, предоставляющие прямой доступ к некоторому множеству серверов, включая установленные на них информационные ресурсы, а также Web-приложения, которые реализуют Web-сервисы, соответствующие назначению портала. Доступные через портал серверы могут относиться к определенной системе (например - корпоративной) или различным системам и быть специально подобраны по видовому, тематическому или другим признакам документов и данных, содержащихся на их сайтах. Обычно порталы совмещают в себе разнообразные функции с целью удержать клиента как можно дольше. Доминирующим сервисом портала является сервис <a href="/tools/telefon-mts-kruglosutochnyi-sluzhba-podderzhki-mts/">справочной службы</a>: поиск, рубрикаторы, финансовые индексы, информация о погоде и т.д. Если Web-сайты в большинстве случаев представляют собой наборы статических Web-страниц, то порталы являются совокупностями <a href="/multimedia/vidy-programmnogo-obespecheniya-gis-programmnoe-obespechenie-i/">программных средств</a> и заранее неструктурированной информации, которую эти средства превращают в структурированные данные по запросу конкретных пользователей.</p> <p><b>Третий </b> способ поиска предполагает использование поисковых серверов Интернета. Поисковыми серверами называют выделенные хост - компьютеры, в которых размещаются базы данных ресурсов Интернета. <a href="/multimedia/etapy-razrabotki-interfeisa-programmy-sroki-ceny-principy-proektirovaniya/">Пользовательский интерфейс</a> такого сервера имеет поле для ввода ключевых слов, описывающих тему, интересующую пользователя (См. Рис. 2).</p> <p><img src='https://i2.wp.com/help.rgsu.net/netcat_files/Image/pi2m.jpg' height="119" width="200" loading=lazy></p> <p>Рис.2. Вид окна поискового сервера системы Яндекс</p> <p>Эти слова сервер воспринимает как информационный запрос, в соответствии с которым он осуществляет поиск ресурсов и представляет список найденных документов пользователю. Очевидно, что при реализации этого способа возможны ошибки как 1-го (пропуск цели), так и 2-го рода (информационный шум). Следует упомянуть, что различаются две группы поисковых серверов: поисковые машины и предметные каталоги. Их отличие обусловлено способом создания и последующего пополнения базы данных ресурсов Интернета, которой <a href="/security/oblicovochnyi-kamen-inurl-view-video-php-ne-vykladyvaite-vazhnye-dannye-na-web-server/">данный сервер</a> осуществляет информационный поиск. Так, поисковые машины имеют в своем составе специальную программу - поисковый робот. Она осуществляет постоянный мониторинг сети, собирает информацию с <a href="/what-to-do/programma-chtoby-sdelat-skrinshot-web-stranicy-skrinshot/">Web- страниц</a>, индексирует их и фиксирует их поисковый образ в своей базе данных. В предметных каталогах база данных о документах Интернета формируется «вручную» специалистами-редакторами. Поскольку в Интернете отсутствует единое администрирование, постольку его информационные ресурсы постоянно меняются. В нём могут появляться новые и исчезать существующие документы. Частота обновления информации в документах для разных сайтов различна: для некоторых — это несколько раз в час, для некоторых — раз в сутки, день, месяц и т.д. Поэтому очень важно понимать, что при использовании информационно-поисковых систем для нахождения информации в Интернете, поиск осуществляется не на реальном пространстве документов Сети, а в некоторой модели, содержание которой может значительно отличаться от действительного содержания Интернет в момент проведения поиска. По степени охвата индексируемых ресурсов поисковые системы можно разделить на две группы: международные и русскоязычные. Первые индексируют все опубликованные в Интернете документы подряд. Вторые индексируют ресурсы, расположенные в <a href="/office-programs/proverit-domennoe-imya-vo-vseh-massovaya-proverka-domenov-na-zanyatost/">доменных зонах</a> с преобладанием русского языка. Список наиболее популярных систем приведен в Табл. 1.</p> <p><b><span>Табл. 1. Наиболее популярные поисковые системы </span> </b></p> <table cellspacing="1" cellpadding="1" border="1" style="width: 384px; height: 178px;"><tr><th scope="col">Международные </th> <th scope="col">Русскоязычные </th> </tr><tbody><tr><td><a target="_blank" href="http://Google.com">Google</a> </td> <td>Яндекс (44,4 % Рунета) </td> </tr><tr><td>Yahoo! </td> <td>Rambler (10,6 % Рунета) </td> </tr><tr><td>Bing </td> <td>Mail.ru (7,3 % Рунета) </td> </tr><tr><td>MSN </td> <td>Nigma (0,5 % Рунета) </td> </tr><tr><td>AltaVista </td> <td>Gogo.ru (0,3 % Рунета) </td> </tr><tr><td>Ask </td> <td>Aport (0,2 % Рунета) </td> </tr></tbody></table><p>Примечание: Рунет - это русскоязычная часть Интернета, составляющая домены с именами <i>ru и рф </i>. </p> <p>Необходимо упомянуть, что существует особая категория поисковых серверов - метапоисковые системы. Их принципиальное отличие от поисковых машин и предметных каталогов состоит в том, что у них отсутствует собственная индексная база данных, и поэтому они, получив запрос пользователя, перенаправляют его сразу к нескольким поисковым серверам (См. Рис. 3).</p> <p><img src='https://i0.wp.com/help.rgsu.net/netcat_files/Image/pi3m.jpg' height="91" width="200" loading=lazy></p> <p>Рис. 3. Схема работы метапоисковой системы</p> <p>Возможность одновременного использования нескольких поисковых серверов по одному запросу является очевидным преимуществом метапоисковых систем. В настоящее широкое применение время нашла система Metabot.ru, интерфейс которой представлен на Рис. 4. Эта система позволяет использовать для поиска ресурсов как международные, так и русскоязычные поисковые серверы.</p> <p><img src='https://i1.wp.com/help.rgsu.net/netcat_files/Image/pi4m.jpg' height="114" width="200" loading=lazy></p> <p>Поиск информации - задача, которую человечество решает уже многие столетия. По мере роста объема информационных ресурсов, потенциально доступных одному человеку, были выработаны все более изощренные и совершенные поисковые средства, и приемы, позволяющие найти необходимый документ.</p> <p>По книге К. Маннинга «Введение в информационный поиск» , можно сказать, что эффективная работа любой ИПС основана на быстроте и возможностях многоаспектной выборки нужных данных из большого массива (поиск информации) для внутренней работы с данными. Это накладывает определённые требования на организацию правил поиска, построение пользовательского и программного интерфейса и формы предоставления информации.</p> <p>Реализация вышеперечисленных требований возложена на следующий ряд структурных компонентов, так называемых блоков [приложение 4].</p> <p>По книге Варфоломеева А.А. «Основы <a href="/utilities/vidy-informacionnyh-ugroz-i-vredonosnogo-po-informacionnaya/">информационной безопасности</a>» , в основе выбора именно такой структуры информационно-поисковой системы лежит очень простая логика - любой блок системы должен получать данные, обрабатывать их и выдавать пользователю в определенном порядке, обеспечивая логику процесса.</p> <p>Невозможно говорить об информационно-поисковых системах, не упомянув про такое понятие, как поисковая машина. Как пишет Д.Н. Колисниченко в книге «Поисковые системы и продвижение сайтов в Интернете» , <b>Поисковая машина </b> - система с формируемой роботом базой данных, содержащей информацию об информационных ресурсах. Отличительной чертой поисковых машин является тот факт, что база данных, содержащая информацию об Web-страницах, формируется программой-роботом. При получении результата, если название и описание документа соответствует вашим требованиям, можно немедленно перейти к его первоисточнику по ссылке. Это удобнее делать в новом окне, чтобы иметь возможность далее анализировать результаты выдачи. Многие поисковые системы позволяют проводить поиск в найденных документах, причем имеется возможность уточнить запрос введением дополнительных терминов. Если интеллектуальность системы высока, то присутствует так же возможность поиска похожих документов. Однако, автоматизация определение похожести - весьма нетривиальная задача, и зачастую эта функция работает не всегда правильно. Некоторые поисковики позволяют провести пересортировку результатов. Стоит обратить внимание на то, что различные поисковые системы описывают разное количество источников информации в интернете. Поэтому нельзя ограничиваться поиском только в одной из указанных поисковых систем. Существуют различные инструменты поиска, которые не формируют собственный индекс, но умеют использовать возможности других поисковых систем. Это, как пишет Н.А. Гайдмамакин в книге «Автоматизированные информационные системы, базы и банки данных» , <b>метапоисковые системы </b> (поисковые службы) - системы, способные послать запросы пользователя одновременно нескольким поисковым серверам, затем объединить полученные результаты и представить их пользователю в виде документа со ссылками.</p> <p>Так же, Д.Н. Колисниченко пишет, что для наиболее точного и быстрого нахождения <a href="/browser/tochnoe-vremya-podpischikov-na-yutube-imeet-li-rabotodatel-pravo/">необходимой информации</a> в сети, ИПС используют <i>индексирование </i>.</p> <p><b>Поисковый индекс </b> - структура данных, которая содержит информацию о документах и используется в поисковых системах.</p> <p><b>Индексирование </b> (или индексация), совершаемое поисковой машиной, - процесс сбора, сортировки и хранения данных с целью обеспечить быстрый и точный поиск информации. Создание индекса включает междисциплинарные понятия из лингвистики, математики и информатики.</p> <p>Популярные поисковые машины сосредотачиваются на полнотекстовой индексации документов, написанных на естественных языках. Мультимедийные документы, такие как видео и аудио и графика также могут участвовать в поиске.</p> <p>А.Ю. Келина в книге «Основы информационной безопасности» пишет о том, что метапоисковые машины используют индексы других <a href="/security/zakupki-gov-ne-rabotaet-poisk-oshibki-v-eis-samye-rasprostran-nnye-problemy/">поисковых сервисов</a> и не хранят локальный индекс, в то время как поисковые машины, основанные на кэшированных страницах, долго хранят как индекс, так и текстовые корпусы. В отличие от полнотекстовых индексов, частично-текстовые сервисы ограничивают глубину индексации, чтобы уменьшить размер индекса.</p> <p>Архитектура поисковой системы различается по способам индексирования. Индексы бывают следующих типов [Приложение 5]:</p> <ul><li>· <b>Прямой индекс. </b>Прямой индекс хранит список слов для каждого документа.</li> <li>· <b>Инвертированный индекс. </b>Хранилище списка вхождений каждого критерия поиска.</li> </ul><p>Индекс - это только часть поискового аппарата, скрытая от пользователя. Второй частью этого аппарата является <b>информационно-поисковый язык (ИПЯ) </b>, про который подробно пишет Варфоломеев А.А. в книге «Основы информационной безопасности» . ИПЯ- это язык, позволяющий сформулировать запрос к системе в простой и <a href="/what-to-do/naglyadno-informacionnye-formy-vzaimodeistviya-s-roditelyami-v-dou/">наглядной форме</a>. Если даже пользователю предлагается вводить запросы на естественном языке, то это еще не значит, что система будет осуществлять семантический разбор запроса пользователя. Основная суть заключается в том, что обычно фраза разбивается на слова, из этого списка удаляются запрещенные и общие слова, иногда производится нормализация лексики, а затем все слова связываются либо логическим AND, либо OR.</p> <img src='https://i2.wp.com/vuzlit.ru/imag_/15/121482/image002.png' height="127" width="254" loading=lazy><p>Возможны и варианты, на что указывает Н.А. Чурсин в книге «Популярная информатика» . Так, в большинстве систем, некоторые фразы будут опознаны как ключевые, и не будет разделяться на отдельные слова. Другой подход заключается в вычислении близости между запросом и документом. К настоящему времени известно около дюжины различных мер близости. Именно эти проценты соответствия документа запросу и выдаются в качестве справочной информации при списке найденных документов.</p> <p>Наиболее продвинутым языком запросов из современных информационно-поисковых <a href="/programming/internet-kak-globalnaya-sistema-prezentaciya-internet-internet-eto/">систем Internet</a>, по мнению К. Маннинга , обладает AltaVista. Кроме обычного набора AND, OR, NOT, эта система позволяет использовать еще и NEAR. Последний оператор позволяет организовать контекстный поиск. Все документы в системе разбиты на поля, поэтому в запросе можно указать в какой части документа пользователь хочет увидеть ключевое слово (в ссылке, заголовке и т.п.).</p> <p>(Для более подробных сведений об информационно-поисковых языках сети интернет см. приложение )</p> <p>Из книги Ю.И. Кудинова «Основы современной информатики» можно узнать, что наиболее распространенными моделями представления документов в информационно-поисковой системе являются различные вариации на тему представления документа как набора терминов. Как уже упоминалось ранее, это не весь текст документа, а только небольшой набор терминов, который отражает его содержание. Базируясь на таком представлении о документе и нужно рассматривать различные информационно-поисковые языки.</p> <p>Наиболее распространенным ИПЯ является традиционный язык, позволяющий составить логические выражения из набора терминов. При этом используются булевые операторы AND, OR, NOT.</p> <p>Такая схема достаточно проста, и поэтому наиболее широко применяется в современных информационно-поисковых системах. Но еще 20 лет тому назад были хорошо известны и ее недостатки.</p> <p>Булевый поиск плохо масштабирует выдачу. Оператор AND может очень сильно сократить число документов, которые выдаются на запрос. При этом все будет очень сильно зависеть от того, насколько типичными для базы данных являются поисковые термины. Оператор OR напротив может привести к неоправданно широкому запросу, в котором полезная информация затеряется за информационным шумом. Для успешного применения этого ИПЯ следует хорошо знать лексику системы и ее тематическую направленность. Как правило, для системы с таким ИПЯ создаются специальные документально лексические базы данных со сложными словарями, которые называются тезаурусами и содержат информацию о связи терминов словаря друг с другом.</p> <p>К. Маннинг указывает на то, что модификацией булевого поиска является взвешенный булевый поиск. Идея такого поиска достаточно проста. Считается, что термин описывает содержание документа с какой-то точностью, и эту точность выражают в виде веса термина. При этом взвешивать можно как термины документа, так и термины запроса. Запрос может формулироваться на ИПЯ, описанном выше, но выдача документов при этом будет ранжироваться в зависимости от степени близости запроса и документа. При этом измерение близости строится таким образом, чтобы обычный булевый поиск был бы частным случаем взвешенного булевого поиска.</p> <p>Но, в отличие от Варфоломеева А.А. , И.С. Ашманов в своей книге «Продвижение сайта в поисковых системах» пишет, что хоть ИПЯ сейчас не совершенны, особое внимание стоит уделять алгоритму <b>ранжирования </b> (упорядоченного выстраивания) полученных ссылок, так как он не менее важен. Наиболее часто используемыми критериями при ранжировании в ИПС являются наличие слов из запроса в документе, их количество, близость к началу документа, близость к друг другу;</p> <p>Наличие слов из запроса в заголовках и подзаголовках документов (заголовки должны быть специально отформатированы);</p> <p>Количество ссылок на <a href="/tools/vosstanovit-povrezhdennyi-dokument-word-vosstanavlivaite-dannye/">данный документ</a> с других документов; «респектабельность» ссылающихся документов.</p> <p>Различные поисковые системы используют различные алгоритмы ранжирования, однако основные принципы определения релевантности следующие:</p> <ul><li>· Количество слов запроса в текстовом содержимом документа (т.е. в html-коде).</li> <li>· Тэги, в которых эти слова располагаются.</li> <li>· Местоположение искомых слов в документе.</li> <li>· Удельный вес слов, относительно которых определяется релевантность, в общем количестве слов документа.</li> </ul><p>Эти принципы применяются всеми поисковыми системами.</p> <p>База данных выводит ранжированный подобным образом список документов с HTML и возвращает его человеку, сделавшему запрос. Различные поисковые механизмы также выбирают <a href="/administrator/razlichnye-sposoby-zapolneniya-i-vyvoda-massiva-dvumernye-massivy/">различные способы</a> показа полученного списка - некоторые показывают только ссылки; другие выводят ссылки c первыми несколькими предложениями, содержащимися в документе или заголовок документа вместе с ccылкой. Ранжирование результатов поиска является неотъемлемой частью <i>информационного поиска. </i></p> <p>Аспекты <a href="/what-is-it/1-v-chem-sut-processa-szhatiya-informacii-ponyatie-szhatiya-dannyh-arhivirovanie/">данного понятия</a> хорошо представлены в книге К. Маннинга «Введение в информационный поиск» . <b>Информационный поиск </b> подразумевает использование определённых стратегий, методов, механизмов и средств. Поведение пользователя, осуществляющего управление процессом поиска, определяется не только информационной потребностью, но и инструментальным разнообразием системы - технологиями и средствами, предоставляемыми системой.</p> <p><b><i>Стратегия поиска </i> </b> - общий план (концепция, предпочтение, установка) поведения системы или пользователя для выражения и удовлетворения информационной потребности пользователя, обусловленный как характером цели и видом поиска, так и системными "стратегическими" решениями - архитектурой БД, методами и средствами поиска в конкретной ИПС. Выбор стратегии в общем случае является оптимизационной задачей. На практике в значительной степени он определяется искусством достижения компромисса между практическими потребностями и возможностями имеющихся средств.</p> <p><b><i>Метод поиска </i> </b> - совокупность моделей и алгоритмов реализации отдельных технологических этапов: построения поискового образа запроса, отбора документов (сопоставление поисковых образов запросов и документов), расширения запроса, локализации и оценки выдачи.</p> <p><b><i>Поисковый образ запроса </i> </b><i> </i>- записанный на ИПЯ текст, выражающий смысловое содержание информационного запроса и содержащий указания, необходимые для наиболее эффективного осуществления информационного поиска.</p> <p>Процесс поиска информации представляет последовательность шагов, приводящих при посредстве системы к некоторому результату, и позволяющих оценить его полноту. Так как пользователь обычно не имеет исчерпывающих знаний об информационном содержании ресурса, в котором проводит поиск, то оценить адекватность выражения запроса, равно как и полноту получаемого результата, он может, основываясь лишь на внешних оценках или на промежуточных результатах и обобщениях, сопоставляя их, например, с предыдущими.</p> <p>Процесс поиска можно представить в виде следующих основных компонентов:</p> <ul><li>1) формулирование запроса на естественном языке, выбор поисковых системы и сервисов, формализация запроса на соответствующем ИПЯ;</li> <li>2) проведение поиска в одной или нескольких поисковых системах;</li> <li>3) обзор полученных результатов (ссылок);</li> <li>4) предварительная обработка полученных результатов: просмотр содержания ссылок, извлечение и сохранение релевантных данных;</li> <li>5) при необходимости, модификация запроса и проведение повторного (уточняющего) поиска с последующей обработкой полученных результатов.</li> </ul><p>Для уменьшения объёма отобранных материалов осуществляют фильтрацию результатов поиска по типу источников (сайтов, порталов), тематике и другим основаниям.</p> <p>По используемым поисковым технологиям ИС можно разбить на 4 категории:</p> <ul><li>1. Тематические каталоги;</li> <li>2. Специализированные каталоги (онлайновые справочники);</li> <li>3. Поисковые машины (полнотекстовый поиск);</li> <li>4. Средства метапоиска.</li> </ul><p><i>Тематические каталоги </i> предусматривают обработку документов и отнесение их к одной из нескольких категорий, перечень которых заранее задан. Фактически это индексирование на основе классификации. Индексирование может проводиться автоматически или вручную с помощью специалистов, просматривающих популярные веб-узлы и составляющих <a href="/what-to-do/chto-takoe-touch-id-ploho-rabotaet-touch-id-tach-aidi-na-aifone-kak-pravilno/">краткое описание</a> документов-резюме (ключевые слова, аннотация, реферат).</p> <p><i>Специализированные каталоги </i> или <i>справочники </i> создаются по отдельным отраслям и темам, по новостям, по городам, по адресам электронной почты и т. п.</p> <p><i>Поисковые машины </i> (самое развитое средство поиска в Интернете) реализуют технологию полнотекстового поиска. Индексируются тексты, расположенные на опрашиваемых серверах. Индекс может содержать информацию о нескольких миллионах документов.</p> <p>При использовании средств <i>метапоиска </i> запрос осуществляется одновременно несколькими поисковыми системами. Результат поиска объединяется в общий, упорядоченный по степени релевантности список. Каждая система обрабатывает только часть узлов сети, что позволяет расширить базу поиска.</p> <p>Так же очень важна так называемые «организация поиска» и «реализация поиска», о чем пишет Д.Н. Колисниченко в книге «Поисковые системы и продвижение сайтов в Интернете» .</p> <p><b>Организация поиска </b></p> <p>Процедура поиска необходимой информации разделяется на девять основных этапов:</p> <ul><li>· Определение области знаний;</li> <li>· Выбор типа и источников данных;</li> <li>· Сбор материалов необходимых для наполнения <a href="/tools/2-rezultatom-processa-formalizacii-yavlyaetsya-tipy/">информационной модели</a>;</li> <li>· Отбор наиболее <a href="/tips/kak-udalit-kitaiskuyu-programmu-s-noutbuka-kak-udalit-baidu-s/">полезной информации</a>;</li> <li>· Выбор метода обработки информации (классификация, кластеризация, регрессионный анализ и т.д.);</li> <li>· Выбор алгоритма поиска закономерностей;</li> <li>· Поиск закономерностей, формальных правил и структурных связей в собранной информации;</li> <li>· Творческая интерпретация полученных результатов;</li> <li>· Интеграция извлеченных "знаний".</li> </ul><p>Для проведения поиска первоначально на компьютере пользователя загружается интерфейс работы с соответствующей БД. Это может быть локальная или удалённая БД. Первоначально следует определиться с видом поиска (простой, расширенный и т.д.). Затем с набором предлагаемых для поиска полей. ИПС могут предложить для ввода одно или несколько полей. В последнем случае это обычно поля: автора, заглавия (названия), временного периода, вида документа, ключевых слов, рубрик и др.</p> <p><b>Реализация поиска </b></p> <p>Общепринята организация поиска по начальным фрагментам слова (поиск с усечением справа), например, вместо слова "библиотечный" можно ввести его фрагмент "библиоте*". При этом будут найдены документы, в которых содержится не только слово "библиотечный", но и "библиотека", "библиотекарь", "бибилотековедение" и др. В каждом случае пользователь должен представлять, что именно он хочет найти, так как в предложенном ему варианте будет найдено гораздо большее количество документов, чем при задании данного слова полностью (без усечения). В подобном случае возможно в полученном массиве информации провести уточняющий поиск и в результате получить более релевантные данные.</p> <p>ИПС характеризуются также временем выполнения поиска, интерфейсом, предоставляемым пользователю и видом отображаемых результатов. При выборе ИПС обращают внимание на такие их параметры, как охват и глубина. Под <i>охватом </i> понимается объём базы поисковой машины, измеряемый тремя показателями: общим объёмом проиндексированной информации, количеством уникальных серверов и количеством уникальных документов. Под <i>глубиной </i> понимается - существует ли ограничение на количество страниц или на глубину вложенности директорий на одном сервере.</p> <p>Так же, некоторые аспекты информационного поиска освещены в книге В.А. Гвоздевой «Основы построения автоматизированных <a href="/administrator/avtomatizirovannaya-informacionnaya-sistema-soderzhit-informacionnaya/">информационных систем</a>» . Как написано в книге, каждая поисковая машина имеет свои алгоритмы сортировки результатов поиска. Чем ближе к началу списка, полученного в результате проведения поиска, оказывается нужный документ, тем выше релевантность и лучше работает поисковая машина. Все они позволяют по ключевым словам, тематическим рубрикам и даже отдельным буквам оперативно находить в сети, например, все или почти все тексты, где эти слова присутствуют. При этом пользователю сообщаются адреса сайтов, где найденные результаты постоянно присутствуют. Однако ни одна из них не имеет подавляющих преимуществ перед другими. Для проведения надежного поиска по <a href="/office-programs/prostye-sql-zaprosy---korotkaya-spravka-i-primery-yazyk-zaprosov/">сложным запросам</a> специалисты рекомендуют использовать последовательно или параллельно (одновременно) различные ИПС.</p> <p>Из книги Д.Н. Кадеева «<a href="/what-is-it/instrumentarii-informacionnyh-sistem-informacionnyh/">Информационные технологии</a> и электронные коммуникации» можно узнать о таком понятии, как «полнотекстовая поисковая машина». Она индексирует все слова видимого пользователю текста. Наличие морфологии дает возможность находить искомые слова во всех склонениях или спряжениях. Некоторые машины умеют искать словосочетания или слова на заданном расстоянии, что часто бывает важно для получения разумного результата. Кроме этого, в <a href="/administrator/vstavka-specsimvolov-v-html-specsimvoly-html-probely-i-probelnye-simvoly-v/">языке HTML</a> существуют тэги, которые также могут обрабатываться поисковой машиной (заголовки, ссылки, подписи к картинкам и т.д.). При этом необходимо знать, что чем меньше количество ключевых слов включено в эти теги, тем с большей частотой они могут встречаться в текстах страниц сайта и, следовательно, тем выше их релевантность. Оптимальным считается частота таких слов не более 5%. Ключевых слов должно быть не очень много, они в большей степени должны состоять из одного или двух слов, образуя наиболее употребляемые термины. Чем большую релевантность имеют ключевые слова, тем большую конкурентоспособность они придают документу с точки зрения поисковых машин.</p> <p>Полноту и точность ответа пользователь получает в зависимости от точности сформулированного им запроса. В результате поиска ему обычно предоставляется гораздо больше информации, чем ему необходимо, часть которой может вообще не иметь отношение к сформированному запросу. Легко заметить, что многое зависит не только от грамотно сформулированного запроса, но и от возможностей поисковых систем, которые весьма различны. При этом достаточно ярко проявляется тот факт, что в полученных данных можно пропустить главные, необходимые сведения. Простые запросы в виде отдельных достаточно распространенных терминов приводят к извлечению тысяч (сотен тысяч) документов, абсолютное большинство которых пользователю не требуется (<i>информационный шум </i>).</p> <p>Важным аспектом также является возможность ИПС поддерживать многоязычность, то есть способность обрабатывать запросы на различных языках. Так же, обычно поиск в полнотекстовых БД осуществляется с использованием морфологических анализаторов (как правило, русских и английских), позволяющих автоматически находить существующие словоформы по фрагменту слова, слову, фразе, даже если в словах запроса присутствуют некоторые опечатки.</p> <p>Ещё, нельзя не упомянуть про такую особенность ИПС, как с<b><i>редства поиска и структурирования </i> </b>, иногда называемые <b><i>поисковыми механизмами </i> </b>. Как пишет И.С. Ашманов в своей книге «Продвижение сайта в поисковых системах» , поисковые механизмы используются для того, чтобы помочь людям найти информацию, в которой они нуждаются. Средства поиска типа агентов, пауков, кроулеров и роботов используются для сбора информации о документах, находящихся в Сети Интернет. Это специальные программы, которые занимаются поиском страниц в Сети, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют информацию, которую они находят для построения базы данных. Каждый поисковый механизм имеет собственный набор правил, определяющих, как находить и обрабатывать документы. Некоторые следуют за каждой ссылкой на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц, и так далее. Некоторые игнорируют ссылки, которые ведут к графическим и <a href="/browser/kakoe-ustroistvo-osushchestvlyaet-process-diskretizacii-zvuka/">звуковым файлам</a>, файлам мультипликации; другие проинструктированы, что нужно просматривать прежде всего наиболее популярные страницы. Классификация поисковых механизмов лучше всего представлена в книге Варфоломеева А.А. «Основы информационной безопасности” :</p> <ul><li>· <b>Агенты </b>- самые "интеллектуальные" из поисковых средств. Они могут делать больше, чем просто искать: они могут выполнять даже транзакции от Вашего имени. Уже сейчас они могут искать cайты специфической тематики и возвращать списки cайтов, отсортированных по их посещаемости. Агенты могут обрабатывать содержание документов, находить и индексировать другие виды ресурсов, не только страницы. Они могут также быть запрограммированы для извлечения информации из уже существующих баз данных. Независимо от информации, которую агенты индексируют, они передают ее обратно базе данных поискового механизма.</li> <li>· Общий поиск информации в Сети осуществляют программы, известные как <b>пауки </b>. Пауки сообщают о содержании найденного документа, индексируют его и извлекают итоговую информацию. Также они просматривают заголовки, некоторые ссылки и посылают проиндексированную информацию базе данных поискового механизма.</li> <li>· <b>Кроулеры </b> просматривают заголовки и возвращают только первую ссылку.</li> <li>· <b>Роботы </b> могут быть запрограммированы так, чтобы переходить по различным ссылкам различной глубины вложенности, выполнять индексацию и даже проверять ссылки в документе. Из-за их природы они могут застревать в циклах, поэтому, проходя по ссылкам, им нужны значительные ресурсы Сети, однако, имеются методы, предназначенные для того, чтобы запретить роботам поиск по сайтам, владельцы которых не желают, чтобы они были проиндексированы.</li> </ul><p>В завершение можно сказать, что ИПС в сети, при всем их внешнем разнообразии, своей классификацией, которая описана в книге Л.Г. Гагариной «Автоматизированные информационные системы» :</p> <p>Классификационные информационно-поисковые системы</p> <p>В классификационных ИПС используется иерархическая (древовидная) организация информации, которая называется КЛАССИФИКАТОРОМ. Разделы классификатора называются РУБРИКАМИ. Библиотечный аналог классификационной ИПС - систематический каталог. Классификатор разрабатывается и совершенствуется коллективом авторов. Затем его использует другой коллектив специалистов, называемых СИСТЕМАТИЗАТОРАМИ. Систематизаторы, зная классификатор, читают документы и приписывают им классификационные индексы, указывающие, каким разделам классификатора эти документы соответствую.</p> <p>Предметные ИПС (Web-кольца)</p> <p>Предметная ИПС с точки зрения пользователя устроена наиболее просто. Ищи название нужного предмета своего интереса (предметом может быть и нечто невещественное, например, индийская музыка), а с названием связаны списки соответствующих ресурсов Интернет. Это было бы особенно удобно, если полный перечень предметов невелик.</p> <p>Словарные ИПС</p> <p>Культурные проблемы, связанные с использованием классификационных ИПС, привели к созданию ИПС словарного типа, с обобщенным англоязычным названием <i>search engines </i>. Основная идея словарной ИПС - создать словарь из слов, встречающихся в документах Интернет, в котором при каждом слове будет храниться список документов, из которых взято данное слово.</p> <p>Основываясь на сведениях из книги А.Ю. Келиной «Основы информационной безопасности» , можно выяснить что есть два основных алгоритма работы словарных ИПС: с использованием ключевых слов и с использованием дескрипторов (<u><i>Дескриптор </i> </u><i>- лексическая единица (слово, словосочетание) информационно-поискового языка, служащая для описания основного смыслового содержания документа или формулировки запроса при поиске документа (информации) в информационно-поисковой системе </i>). В первом случае, для оценки содержимого документа используются только те слова, которые в нем встречаются, и по запросу ИПС сопоставляет слова из запроса со словами документа, определяя по количеству, расположению, весу слов из запроса в документе его релевантность. ИПС по историческим причинам используют этот алгоритм, в различных модификациях.</p> <script>document.write("<img style='display:none;' src='//counter.yadro.ru/hit;artfast_after?t44.1;r"+ escape(document.referrer)+((typeof(screen)=="undefined")?"": ";s"+screen.width+"*"+screen.height+"*"+(screen.colorDepth? screen.colorDepth:screen.pixelDepth))+";u"+escape(document.URL)+";h"+escape(document.title.substring(0,150))+ ";"+Math.random()+ "border='0' width='1' height='1' loading=lazy>");</script> </div> <footer class="entry-footer"> </footer> </article> </div> <div class="col-lg-3 col-md-3 col-sm-12 col-xs-12 side-bar main-sidebar"> <div class="side-bar-inner"> <section id="custom_html-2" class="widget_text widget widget_custom_html"> <h3 class="widget-title">Популярное</h3> <div class="textwidget custom-html-widget"> <div class="popular_post_link"> <a href="/multimedia/skolko-vesit-vindovs-10-domashnyaya-kakoi-obem-ssd-nuzhen-dlya-windows-ustanovka/">Какой объем ssd нужен для Windows</a> <a href="/tools/v-krymu-kak-doma-tele2-skolko-stoit-kak-podklyuchit-otklyuchit/">Тарифы Теле2 в Крыму Теле2 интернет в крыму</a> <a href="/browser/usilitel-dlya-naushnikov-na-moshchnyh-polevyh-lampovo-tranzistornyi-unch/">Лампово-транзисторный УНЧ для наушников и колонок (6Н23П)</a> <a href="/office-programs/huawei-ascend-g610s-chernyi-smartfon-otzyvy-proshivka-smartfona-huawei-g610-u20/">Прошивка смартфона Huawei G610-U20 Карты памяти используются в мобильных устройствах для увеличения объема памяти для сохранения данных</a> <a href="/office-programs/kak-zaiti-v-elektronnyi-dnevnik-elektronnyi-dnevnik-s-vhodom-dlya/">Электронный дневник с входом для родителей: Что нужно знать Электронный дневник вход для родителей</a> </div> <div class="popular_post_form"> </div> <script> (function() { var a = document.querySelector('.side-bar-inner'), b = null, P = 90; window.addEventListener('scroll', Ascroll, false); document.body.addEventListener('scroll', Ascroll, false); function Ascroll() { if (b == null) { var Sa = getComputedStyle(a, ''), s = ''; for (var i = 0; i < Sa.length; i++) { if (Sa[i].indexOf('overflow') == 0 || Sa[i].indexOf('padding') == 0 || Sa[i].indexOf('border') == 0 || Sa[i].indexOf('outline') == 0 || Sa[i].indexOf('box-shadow') == 0 || Sa[i].indexOf('background') == 0) { s += Sa[i] + ': ' + Sa.getPropertyValue(Sa[i]) + '; ' } } b = document.createElement('div'); b.style.cssText = s + ' box-sizing: border-box; width: ' + a.offsetWidth + 'px;'; a.insertBefore(b, a.firstChild); var l = a.childNodes.length; for (var i = 1; i < l; i++) { b.appendChild(a.childNodes[1]); } a.style.height = b.getBoundingClientRect().height + 'px'; a.style.padding = '0'; a.style.border = '0'; } var Ra = a.getBoundingClientRect(), R = Math.round(Ra.top + b.getBoundingClientRect().height - document.querySelector('.site-content').getBoundingClientRect().bottom); // селектор блока, при достижении нижнего края которого нужно открепить прилипающий элемент if ((Ra.top - P) <= 0) { if ((Ra.top - P) <= R) { b.className = 'stop'; b.style.top = -R + 'px'; b.style.padding = '0 0 50px'; } else { b.className = 'sticky2'; b.style.top = P + 'px'; } } else { b.className = ''; b.style.top = ''; } window.addEventListener('resize', function() { a.children[0].style.width = getComputedStyle(a, '').width }, false); } })() </script> </div> </section> </div> </div> </div> </div> </div> </div> </div> </div> <div id="footer" class="site-footer"> <footer id="footer-copyright" class="footer-copy"> <div class="container"> <div class="row"> <div class="col-md-4 footer-left">© 2024 mosgensovet.ru - Мир бесплатных программ и полезных обзоров</div> <div class="col-md-4 footer-center"> <a href="">О сайте</a>       <a href="/feedback/">Контакты</a> </div> <div class="col-md-4 footer-right"> <ul id="main-nav-socials"> <li><a class="vimeo" title="ВКонтакте" href="https://vk.com/share.php?url=https://mosgensovet.ru/security/poisk-i-hranenie-informacii-v-seti-internet-prakticheskaya-rabota/" target="_blank"><i class="fa fa-vk"></i></a></li> <li><a class="facebook" title="Facebook" href="https://www.facebook.com/sharer/sharer.php?u=https://mosgensovet.ru/security/poisk-i-hranenie-informacii-v-seti-internet-prakticheskaya-rabota/" target="_blank"><i class="fa fa-facebook"></i></a></li> <li><a class="youtube" title="Youtube" href="https://youtube.com/" target="_blank"><i class="fa fa-youtube-play"></i></a></li> <li><a class="twitter" title="Twitter" href="https://www.twitter.com/share?url=https://mosgensovet.ru/security/poisk-i-hranenie-informacii-v-seti-internet-prakticheskaya-rabota/" target="_blank"><i class="fa fa-twitter"></i></a></li> <li><a class="googleplus" title="Google Plus" href="" target="_blank"><i class="fa fa-google-plus"></i></a></li> </ul> </div> </div> </div> </footer> </div> </div> </div> <div class="popup-wrap-newletter mfp-hide mfp-with-anim" data-timeshow="0"> <div class="container-fluid"> <div class="wrapper-newletter-content"> <div class="row no-gutters"> <div class="col-md-12 col-sm-12 wrapper-newletter-popup"> <div class="newletter-popup-content"> </div> </div> </div> </div> </div> </div> <div id="back-to-top"><i class="fa fa-angle-up"></i></div> <script type='text/javascript' src='https://mosgensovet.ru/wp-content/plugins/contact-form-7/includes/js/scripts.js?ver=4.9.2'></script> <script type='text/javascript' src='https://mosgensovet.ru/wp-content/plugins/delphinus_core/assets/js/functions.min.js'></script> <script type='text/javascript' src='https://mosgensovet.ru/wp-content/plugins/easy-utm-tracking-with-contact-form-7/js/ucf7_scripts.js?ver=version'></script> <script type='text/javascript' src='https://mosgensovet.ru/wp-content/themes/delphinus/assets/js/plugins.js'></script> <script type='text/javascript' src='/wp-includes/js/mediaelement/wp-mediaelement.min.js?ver=df5cbb97a194801225e379c7772c477f'></script> <script type='text/javascript' src='/assets/functions1.min1.js'></script> <script type='text/javascript' src='/wp-includes/js/wp-embed.min.js?ver=df5cbb97a194801225e379c7772c477f'></script> <script type='text/javascript' src='https://mosgensovet.ru/wp-content/plugins/easy-fancybox/fancybox/jquery.fancybox-1.3.8.min.js?ver=1.6.2'></script> <script type='text/javascript' src='https://mosgensovet.ru/wp-content/plugins/easy-fancybox/js/jquery.easing.min.js?ver=1.4.0'></script> <script type='text/javascript' src='https://mosgensovet.ru/wp-content/plugins/easy-fancybox/js/jquery.mousewheel.min.js?ver=3.1.13'></script> <div class="footer-advanced-js"> <script type="text/javascript"> jQuery(document).ready(function() { }); </script> </div> <script type="text/javascript"> jQuery(document).on('ready post-load', function() { jQuery('.nofancybox,a.pin-it-button,a[href*="pinterest.com/pin/create"]').addClass('nolightbox'); }); jQuery(document).on('ready post-load', easy_fancybox_handler); jQuery(document).on('ready', easy_fancybox_auto); </script> <script> jQuery(function($) { var owl = $(".inner_page .vc_row_kt"); owl.owlCarousel({ items: 3, autoPlay: false, slideSpeed: 300, loop: true, paginationSpeed: 400, transitionStyle: "fade", responsive: { 0: { items: 1 }, 600: { items: 2 }, 1000: { items: 3 } } }); var owl = $(".popular_post_link"); owl.owlCarousel({ items: 1, autoPlay: false, slideSpeed: 300, loop: true, paginationSpeed: 400, transitionStyle: "fade", }); $('label span.agree').click(function() { $(this).toggleClass('click'); }); /*if(document.documentElement.clientWidth < 1024) { var owl = $(".home .popular_service .vc_row_kt"); owl.owlCarousel({ items: 1, autoPlay : false, slideSpeed : 300, loop: true, paginationSpeed : 400, transitionStyle : "fade", } ); } ;*/ }); </script> </body> </html>