Организация поиска данных в internet. Организация поиска информации в сети Интернет

МИНОБРНАУКИ РОССИИ

Государственное образовательное учреждение высшего профессионального образования

«РОССИЙСКИЙ

ГОСУДАРСТВЕННЫЙ ГУМАНИТАРНЫЙ УНИВЕРСИТЕТ»

Филиал РГГУ в г. Санкт-Петербурге.

Санкт-Петербург 2011

Введение 3

1. Сеть интернет как современный источник информации 4

2. Специфика информации в учебной деятельности студента 6

3. Особенности использования сети интернет в поиске информации для учебной деятельности студента 8

Заключение 13

Список источников и литературы 14

Введение

Сегодня студенту не обойтись без ПК. Общение с компьютером начинается еще со школы, где ученики осваивают азы компьютерных технологий, знакомятся с образовательными веб-сайтами Интернета. Как правило, при поступлении в вуз многие абитуриенты уже хорошо знакомы с компьютером, и у большинства он есть дома.

Чтобы облегчить себе учебный процесс зачастую студенты прибегают к помощи Интернета, скачивая рефераты и сочинения. До поры до времени такое отношение к занятиям может сходить с рук. Однако обучение в вузе предполагает более серьезный подход, требует освоения разных специфических наук. В этом смысле Интернет уже перестает быть достоверным источником информации, а в некотором смысле и вовсе вреден.

Современный Интернет имеет много социальных и культурных граней он является универсальной информационной средой. В связи с этим вопрос Интернета как источника информации в учебной деятельности студента является актуальным.

Задачами работы являются:

    Дать характеристику сети интернет как современного источника информации.

    Раскрыть специфику информации в учебной деятельности студента.

    Рассмотреть особенности использования сети интернет в поиске информации для учебной деятельности студента.

1. Сеть интернет как современный источник информации

Согласно сайту wikipedia.org: Интернет (произносится [интэрнэт]; англ. Internet) – всемирная система объединенных компьютерных сетей, построенная на использовании протокола IP и маршрутизации пакетов данных. Интернет образует глобальное информационное пространство, служит физической основой для Всемирной паутины и множества других систем (протоколов) передачи данных. Часто упоминается как «Всемирная сеть» и «Глобальная сеть». В обиходе иногда говорят «инет» 1 .

В настоящее время, когда слово «Интернет» употребляется в обиходе, чаще всего имеется в виду Всемирная паутина и доступная в ней информация, а не сама физическая сеть.

Сегодня, Интернет становится одним из основных источников информации благодаря гиганскому количеству данных, размещенных в сети и возможностью легкого к ним доступа. При этом поиск в сети приобретает все большую практическую ценность поскольку с быстрым увеличением объема доступных данных все более усложняется и процедура поиска необходимой информации 2 .

В сети наличествует гигантское количество информационных ресурсов. По некоторым оценкам, число документов превысило 65 млн. и продолжает стремительно расти 3 . Такой объем информации требует правильной организации процесса поиска и применения специальных технологических средств, таких как поисковые машины. Простой поиск по ключевому слову дает обычно от десятков тысяч до нескольких миллионов ссылок очевидно, что работа с таким большим количеством документов практически невозможна, то есть содержит информацию, не относящуюся к делу.

Помимо проблемы поиска существует проблема достоверности информации в интернет. Легкость доступа и публикации данных делает возможным легкое распространение ошибочной, а зачастую и намеренно лживой информации 4 .

Эти две проблемы: поиска и достоверности определяют специфику интернета как источника информации.

2. Специфика информации в учебной деятельности студента

Согласно сайту wikipedia.org: Термин информация происходит от латинского слова information, что означает «сведения, разъяснения, изложения» 5 .

В настоящее время наука пытается найти общие свойства и закономерности, присущие понятию «информация», но пока это понятие во многом остается интуитивным и получает различные смысловые наполнения в разнообразных отраслях человеческой деятельности.

В обиходе информацией называют любые данные или сведения, которые кого-либо интересуют, например сообщение о каких-либо событиях, о чьей-либо деятельности и т.п. «Информировать» в этом смысле означает «сообщить нечто, неизвестное раньше».

Информация - сведение об объектах и явлениях окружающей среды, их параметрах, свойствах и состоянии, которые уменьшают имеющуюся о них степень неопределенности, неполноты знаний 6 .

Одно и тоже информационное сообщение (статья в газете, объявление, письмо, телеграмма, справка, рассказ, чертеж, радиопередача, и т.п.) может содержать разное количество информации для разных людей в зависимости от их накопленных знаний, от уровня понимания этого сообщения и интереса к нему 7 .

Исходя из вышеизложенного, можно заключить, что информация в учебной деятельности студента должна обладать рядом специфичных особенностей.

1. Информация должна соответствовать степени подготовленности студента, его уровню знаний. Слишком высокий уровень сложности снижает усвояемость и понижает мотивацию студентов. Слишком низкий уровень – снижает информативность и отрицательно влияет на эффективность процесса обучения.

2. Информация, используемая студентом должна быть актуальна, т.е. соответствовать современному уровню научных знаний и развитию общества.

3. Информация, используемая студентом должна быть достоверна.

4. Информация, должна быть доступна с точки зрения ее каталогизации и поиска.

3. Особенности использования сети интернет в поиске информации для учебной деятельности студента

Современный студент, вооруженный персональным компьютером, хорошо осведомлен о том, что и где находится в Интернете. Он вполне виртуозно добывает в Интернете все то, что ему нужно для создания очередного обязательного творения: сочинения, реферата, курсового проекта, диплома и т.п. И после небольшой доработки, которая часто заключается лишь в указании своей фамилии и номера группы, распечатав на принтере, сдает «свою работу» преподавателю 8 .

При этом его лень возрастает многократно, и такой подход уменьшает вероятность на успех в будущей карьере. Стоит отметить, что практика списывания, которая по существу является плагиатом, распространена в России намного больше чем на Западе, что уменьшает шансы получить престижную работу в конкуренции с выпускниками западных Вузов.

Чтобы достичь успеха в конкурентной борьбе, следует научиться обрабатывать колоссальные объемы информации, уметь просматривать образцы письменных работ, подмечая в них слабые и сильные стороны, пробовать «препарировать» чужой текст, чтобы выделить из него наиболее существенную часть. На основе полученного скелета студенту следует научиться создавать требуемую работу. По существу такая работа проводилась в библиотеках с книгами до того как случился информационных бум Интернет 9 . Здесь также важна работа преподавателя, которому следует грамотно направлять студента, не запрещая использование Интернет, а указывая на возможные подводные камни и давая наставления по использованию. Например, чтобы сузить круг поиска преподаватель может посоветовать те или иные информационные ресурсы, таким образом обеспечивается адаптация обучающего материала к подготовке студента, вдобавок преподаватель поможет отфильтровать ложную и некорректную информацию.

В современном информационном обществе все больше возрастает роль преподавателя. Так например учителя «старой школы» могут годами читать одни и теже лекции, нисколько не интересуясь последними достижениями в данной отрасли, сфере деятельности. Более того, студент с любым мобильным устройством, подключенным к Интернет может поставить в тупик любого преподавателя. Преподаватель уже не воспринимается как единственный источник знания. В любой момент студент с Интернетом может и поправить преподавателя, и покритиковать и поставить перед неразрешимым вопросом. Преподаватель должен быть к этому готовым, таков вызов современного общества к современной системы образования. Преподаватель не должен злиться, уходить от ответа или сочинять ответ на ходу. Если раньше отношение преподаватель-студент строились по принципу старший-младший, то теперь они должны быть более приближены к принципу интернет: равный-равному.

Есть еще одна опасность, которая хранит в себе мобильность интернета, а именно отсутсвие необходимости что-либо запоминать. А зачем? Если всегда можно спросить у Яндекса. Чтобы не попасть в эту ловушку студент должен выполнять все задания предавателя, не лениться, записывать, запоминать, учить. Именно багаж знаний в человеческой памяти образует его общую эрудицию и способность решать прикладные задачи в заданной предметной области. Крайняя степень этого эффекта мобильности заключается в том, что студент, встретив незнакомый термин, говорит себе: «Я могу посмотреть значение этого термина в Интернет в любой момент. Сейчас у меня нет времени, я потом посмотрю» - вот таким образом и наступают пробелы в образовании. До эры Интернет студент бы размышлял по-другому: «Я могу посмотреть значение этого термина в словаре (учебнике, энциклопедии, …). Сейчас у меня нет времени, но мне придется посмотреть значение этого термина и запомнить его, потому что я не могу все время ходить со словарем».

С точки зрения самообразования перед студентом, да и перед всем обществом стоит проблема информационного кризиса 10 . Информационный кризис заключается в противоречивом единстве «информационного голода» и «информационного взрыва», то есть в дефиците информации в условиях ее перепроизводства 11 . Количество информации по определенной области человеческой деятельности перевалиливает за способности человеческого мозга 12 . Поэтому возрастает необходимость в систематизации информации и в фильтрации информационных шумов. Студенту следует использовать проверенные источники, рекомендованные преподавателем, указанные в списках литературы учебников.

Скорость роста информации поддается оценке. Библиотекарь Р. Бартон и физик Р. Кеблер из США ввели понятие «полупериод жизни» научных статей по аналогии с периодом полураспада радиоактивных веществ. Полупериод жизни публикации – это время в течение которого была опубликована половина всей используемой в настоящее время литературы по какой-либо отрасли или предмету 13 . Например, если полупериод жизни публикации по физике равен 4,6 года, то это означает, что 50% всех ныне используемых (цитируемых) публикаций по этой отрасли имеют возраст не более 4,6 года. Хотя такое определение дает численную оценку старения информации, к такой оценке нужно относится осторожно и в конечном свете каждый специалист сам определяет глубину и степень давности, необходимую ему в каждом конкретном случае 14 . Для студента степень актуальности информации поможет определить научный руководитель.

Еще одной особенностью информации в интернет является ее рассеяние по ансамблю источников – закон Брэдфорда 15 . Упрощенно это можно сформулировать так: 1/3 научных статей по конкретной теме будет опубликована в малом количестве источников, непосредственно касающихся данной темы. Следующая треть будет опубликована в большем количестве источников, касающихся данной темы. И последняя треть будет опубликована в источниках, не имеющих никакого отношения к теме, причем соотношение количества источников в этих зона по Бредфорду равны. Учитывая эту закономерность, следует отметить, что достижение полной информативности по конкретной теме невозможно, если исследователь ограничивается кругом источников по данной проблеме, не прибегая к помощи специальных информационно-сервисных и библиографических служб. В большинстве случаев студенту будет достаточно первой трети, однако для более глубоких работ, таких как курсовые работы по профильным дисциплинам, дипломная работа, студенту необходимо обращаться за помощью к такого рода электронным каталогам.

Несмотря на то, что свобода доступа пользователей Интернета к информационным ресурсам не ограничивается государственными границами, но языковые границы сохраняются. Преобладающим языком Интернета является английский язык. Вторым по популярности является китайский язык, а третьим - испанский. Русский язык занимает 9 место 16 . В связи с этим студент, владеющий иностранными языками, в первую очередь английским, получает доступ к гораздо большей информации. Если говорить о разделении информации в сети Интернет, то стоит отметить, что информация по различным областям человеческой деятельности представлена не равномерно в плане объема. В интернет больше технической информации, связанной с программированием, информационными технологиями, устройством компьютера и меньше информации связанной с гуманитарными науками. Это можно объяснить тем, что технические специалисты так или иначе связаны с информационными технологиями и Интернет по роду своей деятельности, и поэтому количество публикуемых ими материалов выше.

Заключение

Подводя итог рассмотренным аспектам Интернета как источника информации в учебной деятельности студента можно выделить основные ключевые особенности и рекомендации.

    Студент должен уметь пользоваться Интернетом и при этом постоянно совершенствовать свои навыки использования Интернета.

    Студенту следует, полагаясь на информацию в Интернет проверять ее степень достоверности и актуальности.

    Для поиска информации по заданной тематике целесообразно использование специализированных электронно-библиографических каталогов.

    Для увеличения эффективности использования Интернет студенту следует совершенствовать английский язык, как наиболее распространенный в Интернет.

    Отвечая вызовам информационного общества, студент должен уметь обрабатывать большие объемы данных, выделяя из них ключевую информацию и отфильтровывая избыточные и ненужные данные.

    Интернет дает не только огромные возможности по получению информации, но и таит в себе опасность в виде шпаргалки, которая часто оказывает медвежью услугу в процессе обучения.

Следует заметить, что по пунктам 2 и 3 студент должен работать в непосредственном контакте со своим научным руководителем.

Список источников и литературы

Литература

    Блюменау, В. И. Информация и информационный сервис. / Д. И. Блюменау. – Л.: Наука, 1989.– 192 с.

    Галеева, И. С. Интернет как инструмент библиографического поиска / И. С. Галеева; науч. ред. М. И. Вершинин. – СПб.: Профессия, 2007. – 248 с.

    Ефимов, А. Н. Информационный взрыв: проблемы реальные и мнимые / А. Н. Ефимов. – М.: Наука, 1985. – 160 с.

    Информационный поиск в сети Интернет: учеб. пособие / В. И. Аверченков, В. В. Мирошников, С. М. Рощин и др.,; Брян. гос. техн. ун-т.­­ – Брянск, 2001. – 28 с.

    Кузин, Ф. А. Кандидатская диссертация: методика написания, правила оформления и порядок защиты: практ. Пособие для аспирантов и соискателей учен. Степени / Ф. А. Кузин. – . – М.: Ось-89, 1999. – 208 с.

    Кузнецов И. Н. Интернет в учебной и научной работе: Практическое пособие. – 2-е изд. – М.: Издателско-торговая корпорация «Дашков и К о », 2005. – 192 с.

    Кузнецов И. Н. Учебник по информационно-аналитической работе. М.: Яуза, 2001. – 320 с.

    Михайлов, О. А. Новое в поиске в Интернете по источникам 2000-го года / О. А. Михайлов; Рос. гос. арх. науч.-техн. документации. – М.: Макс Пресс, 2001. – 171 с.

    Паршукова Г. Б. Методика поиска профессиональной информации: учеб.-метод. Пособие / Г. Б. Паршукова.­– СПб.: Профессия, 2009. – 224 с.

    Соломенчук В. Г. Интернет: Краткий курс. СПб.: Питер, 2001 – 322 с.

Ресурсы Интернет

    URL: Интернет

    URL: http://ru.wikipedia.org/wiki/Информация

1 URL: http://ru.wikipedia.org/wiki/ Интернет

Цель работы: изучение принципов организации поиска в сети Internet и приобретение практических навыков составления поисковых запросов.

2.1 Простые приемы поиска Web -страниц

Простые приемы поиска не предполагают использования мощных поисковых возможностей сети Internet и основываются на знании принципов формирования символьных доменных имен и интуиции.

Поиск коммерческих Web -сайтов. Чтобы получить искомый адрес, к названию фирмы, предприятия, организации или простому английскому существительному (ключевому слову) можно добавить домен. com, подставить впереди www. Web-страницы, в адресе которых обозначен домен верхнего уровня. com., чаще всего содержат информацию на английском языке .

Пример 1. Возьмем название фирмы SONY, добавим домен. com, а впереди www. - получим адрес Web-страницы фирмы SONY: www . sony . com . Аналогичным образом можно получить:

www . cnn . com - всемирные новости CNN;

www . mtv . com - музыкальные новости MTV;

www. - журнал COSMOPOLITAN.

Если ввести ключевое слово в адресной строке Internet Explorer и нажать Ctrl + Enter , то обозреватель попробует перейти к точному URL-адресу, автоматически добавляя имя протокола и признак Web, например http://www. и домен верхнего уровня. com. Например, если набрать в адресной строке me и нажать Ctrl-Enter, то обозреватель Internet Explorer попробует открыть Web-узел с адресом http :// www . me . com . Если узел не открывается, значит, он не существует.

Поиск по регионам. Для российского и других регионов приведенный выше прием остается в силе. В данном случае к ключевому слову добавляется домен верхнего уровня региона (двухбуквенный код страны), что дает адрес Web-страницы. Например, для поиска российских серверов к ключевому слову можно попробовать добавить домен. ru.

Пример 2. Известно, что есть сервер www . audi . com . Можно попытаться найти его филиал в России, заменяя домен. com на домен. ru, - www . audi . ru .

Поиск крупных учебных заведений. К названию или аббревиатуре учебного заведения добавляется домен. edu (в основном, для американского и европейского регионов), что, как правило, дает нужный адрес.

Пример 3. Возьмем университет OXFORD, добавим домен. edu, а впереди www. - получим адрес Web-страницы университета OXFORD: www . oxford . edu . Часто в адресе Web-страницы учебного заведения отсутствует домен. edu. Заре­гистрированным доменом второго уровня (или псевдонимом домена) может быть сокращенное английское название учебного заведения. Для поиска рос­сийского учебного заведения можно взять его английскую аббревиатуру, на­пример MSU (Moscow State University), добавить домен. ru - www . msu . ru - Мо­сковский государственный университет имени.

Часто в адресе Web-страницы присутствует доменное имя поставщика услуг Internet, на компьютере которого установлена данная Web-страница, например, www . kgtu . runnet . ru - адрес Красноярского государственного технического университета, где ***** - доменное имя поставщика услуг Internet.

Многие страны имеют зарегистрированный домен второго уровня для учебных заведений. Например, для Великобритании - это домен AC (Aca­demic). Любая Web-страница может иметь несколько адресов-псевдонимов, при обращении к которым пользователь попадает на одну и ту же Web-страницу. Например, для университета OXFORD это адреса www . ox . ac . uk и www . oxford . edu .

Прочий поиск Web -страниц. Можно манипулировать ключевыми словами и доменами верхнего уровня для поиска правительственных (.gov), военных (.mil) и других организаций (.org). Например, адрес Белого дома правительства США: www . whitehouse . gov .

2.2 Поисковые системы сети Internet

В Internet имеются мощные средства поиска любой информации: доку­ментов, изображений, программ, Web-страниц и т. д. Поиск осуществляется в так называемых поисковых системах, которые также называют поисковыми программами, поисковыми серверами, поисковыми машинами. Поисковых систем в Internet множество. Наиболее известные системы поиска информации приведены в таблице 2.1. Список ссылок на различные поисковые системы раз­мещен на Web-странице www . monk . newmail . ru .

Таблица 2.1 - Наиболее популярные поисковые системы

Название поисковой системы

Адрес

Яндекс (русскоязычная)

http://www. *****

Рамблер (русскоязычная)

http://www *****

Апорт (русскоязычная)

http://w w w. *****

Yahoo! (англоязычная)

AltaVista (англоязычная)

Google (русскоязычная)

http://www. *****

Поисковая система реализована в виде Web-страницы с обычным адресом, которая содержит так называемую строку для поиска и кнопку Поиск (Search ), а также может содержать тематический каталог ресурсов, ссылки на популяр­ные страницы и т. п.

Для вызова поисковой системы необходимо ввести в адресной строке обозревателя Internet ее адрес. После загрузки поисковой системы в строке для поиска необходимо ввести запрос (query ), который представляет собой строку текста (на любом языке), - ключевую фразу искомых документов в Internet и щелкнуть кнопку Поиск. Для более эффективного поиска необходимо, чтобы запрос содержал слова или фразу, которые будут на искомой Web-странице или в искомом документе (их нужно «угадать»). Через некоторое время на экране появится список адресов Web -страниц, содержащий ссылки на искомые до­кументы, которые, как правило, сопровождаются комментариями. Щелкнув ссылку, можно перейти к любому из найденных документов.

Чтобы перейти к следующей странице списка найденных документов, необходимо щелкнуть соответствующий номер (1, 2, 3, ...) в главном окне с результатом поиска. Обычно документы из первой десятки найденных максимально соответствуют запросу.

Основу любой поисковой системы составляет специальная программа -сетевой робот или spider (паук), иногда можно встретить названия worm (червь), crawler (ползучее растение). Поисковая система рассылает в Internet таких «пауков», которые просматривают максимальное количество (по возможности) представленных в Internet Web-страниц, а затем регистрируют их адрес (URL) и содержимое в своей базе данных . После ввода пользователем запроса и щелчка кнопки Поиск поисковая система просматривает базу данных и выводит на экран результат поиска.

Кроме того, практически все поисковые системы позволяют зарегистри­ровать страницу пользователя, размещенную в Internet. Для этого на странице крупной поисковой системы, например, такой как YAHOO!, нужно вызвать режим регистрации и ввести URL и описание своей страницы. Далее поисковая система распространит вашу регистрационную информацию на все другие крупные поисковые узлы, те, в свою очередь, на другие и т. д. Имеются также глобальные регистрационные серверы.

Поисковые каталоги имеются, например, на поисковых серверах Rambler, Yahoo!, AltaVista и др. Чтобы осуществить поиск по каталогу, необходимо выбирать «мышью» темы, углубляясь и сужая круг поиска до тех пор, пока список выведенных ссылок не уменьшится до нескольких страниц, которые можно просмотреть вручную, либо до достаточно большой группы, в которой можно осуществить обычный поиск (например, в поисковой системе Япёех: Учеба Высшее образование Московский государственный университет).

2.3 Правила выполнения запросов в поисковых системах

При выполнении запросов имеются определенные правила, которые отчасти могут различаться в разных поисковых системах, однако основные действия схожи. Правила выполнения запросов всегда можно узнать на Web-странице конкретной поисковой системы в разделе Помощь (этот раздел может называться Help , Как искать, Советы поиска, Правила выполнения запросов и т. п.). Правила запросов обычно включают в себя использование языка запросов для расширенного поиска.

Самое простое правило, существующее для всех поисковых систем, - указать любую фразу и щелкнуть Поиск.

В следующем пункте будут рассмотрены некоторые правила выполнения запросов на примере системы Яндекс. Многие из этих правил применимы и к другим поисковым системам. Примеры запросов взяты со страниц помощи поисковой системы Яндекс.

2.4 Примеры простых запросов в поисковой системе Яndex

Обычно запрос - это просто одно или несколько ключевых слов, например: микропроцессоры компании Intel . По такому запросу находятся документы, в которых встречаются все слова запроса. Некоторые слова в запросе игнорируются (союзы, предлоги и т. п.), так как не несут смысловой нагрузки. Например, по запросу яблоки на снегу будут найдены все документы, в которых встречаются одновременно два слова: «яблоко» и «снег» (однако порядок их отображения в списке будет различным). Где в пределах документа расположены слова, в какой грамматической форме они находятся - не важно. Предлог на игнорируется. Поэтому приведенный запрос можно написать и так: снег на яблоке. Результат поиска будет таким же.

Важное и очень полезное свойство поисковых систем: независимо от того, в какой грамматической форме вы пишете в запросе слово, оно находится в документах во всех своих формах. Например, по запросу человек шел будут найдены среди прочих и документы, содержащие текст «люди идут». Распознавание всех форм работает для обычных слов русского языка . Для экзотических слов, неологизмов и т. п. оно не осуществляется.

Операторы Яндекс, их назначение и примеры использования можно найти в пункте помощи системы.

Для визуального создания сложных запросов можно использовать возможности расширенного поиска на странице «Расширенный поиск».

1. Ознакомьтесь с теоретическими сведениями.

2. Составьте адрес Web-сайта всемирно известной фирмы (Intel, IBM, Sony и т. д.) и откройте его в Internet Explorer . Сохраните найденные Web-страницы в отдельной папке.

3. Используя тот же прием, перейдите на Web-сайт Санкт-Петербургского государственного университета и тем же способом откройте Web-сайт факультета прикладной математики этого же университета. Сохраните найденные Web-страницы в отдельной папке.

4. В каждой поисковой системе (таблица 2.1) выполните несколько запросов, затрагивающих интересующие вас проблемы, и откройте найденные документы.

5. Опробуйте поиск по тематическим каталогам.

6. С помощью расширенного поиска на Яндексе сравните популярность следующих сайтов по количеству страниц, ссылающихся на них: Президента и Правительства Российской Федерации; Московского государственного университета и Санкт-Петербургского государственного университета; Эрмитажа и Лувра. Сохраните найденные Web-страницы в отдельной папке. Создайте текстовый файл, где зафиксируйте количество ссылок на каждую из них.

7. Найдите информацию о том, когда и где родился. Составьте список его произведений. Найдите его фотографии в разные годы жизни. Сохраните всю информацию в отдельной папке.

8. Осуществите поиск информации в сети Internet по выбранной теме курсовой работы . По результатам поиска создайте в текстовом редакторе Word таблицу согласно образцу (таблица 2.3) и заполните ее.

Таблица 2.3 - Образец оформления отчета о результатах поиска

и/и

Характеристика результатов поиска

URL найденного ресурса

Краткое описание ресурса

9. Пригласите преподавателя для отчета о проделанной работе.

10. Удалите сохраненные в процессе работы файлы из рабочей папки.

2.6 Контрольные вопросы

1. Охарактеризуйте простые приемы поиска информации в сети Internet.

2. Каковы принципы работы поисковых систем сети Internet?

3. Сформулируйте основные правила составления поисковых запросов.

4. Какие из рассмотренных Вами поисковых систем имеют возможности использования языка запросов?

5. Какие из рассмотренных Вами поисковых систем имеют тематический каталог ресурсов?

6. Какие из рассмотренных Вами поисковых систем имеют возможности поиска по различным категориям информационных ресурсов?

Кто владеет информацией, тот владеет миром. Для помощника руководителя желание обладать определенными знаниями продиктовано вовсе не тщеславием или идеями завоевать мир, а чаще всего профессиональной необходимостью. Умение добыть полезные данные является, бесспорно, одним из ключевых в работе персонального ассистента, поскольку далеко не всегда истинная или нужная информация лежит на поверхности.

Что такое конфиденциальность информации?

Согласно п. 7 ст. 2 Федерального закона от 27.07.2006 № 149-ФЗ «Об информации, информационных технологиях и о защите информации» (в ред. от 24.11.2014) конфиденциальность информации - обязательное для выполнения лицом, получившим доступ к определенной информации, требование не передавать такую информацию третьим лицам без согласия ее обладателя . Другое понятие конфиденциальности - это недоступность для определенного круга пользователей информации. Так или иначе, это информация, которая передается только по определенным правилам, установленным ее правообладателем, будь то юридическое лицо (организация) или физическое лицо (обычный гражданин, ставший нам по каким-то причинам интересным). Так, с одной стороны, конфиденциальность обеспечивает защиту правообладателю информации, а с другой - создает препятствия для того, кого интересует доступ к ней.

Информационный puzzle

Одним из особых свойств информации является то, что она «живет», т.е. передается тем или иным способом, с использованием различных методов и инструментов. По этой причине даже конфиденциальная информация, заполучить которую путем подачи официального запроса оказывается зачастую невозможным, появляется в общем доступе из-за невнимательности ее правообладателя или беспечного отношения к своим данным. Сегодня, ввиду активного использования современных технических устройств, а также сети Интернет чаще всего кусочки мозаики от общего информационного образа ее правообладателя хаотично разбросаны в интернет-пространстве. Для того чтобы скрыть данные, необходимо делать это целенаправленно, кроме того, нужно обладать определенными умениями и навыками. Да и потом, разве кому-то придет в голову, что по поводу его персоны или организации кто-то задумает провести информационное расследование?

Словом, для того чтобы добыть необходимые сведения, ассистенту руководителя достаточно иметь доступ в Интернет, сделать необходимые запросы, собрать данные и в полной мере использовать свои аналитические способности.

Шпионские мотивы

Недостаток информации - основной мотив для пополнения информационного запаса. Известно, что действия, предпринятые в условиях дефицита информации, могут привести к неприятным последствиям. Целеполагание в «информационном расследовании» играет большую роль, с одной стороны, в определении ожидаемого результата, с другой - в выборе источников для поиска нужных данных. В профессиональной деятельности помощник руководителя может получать различные поручения от своего начальства, касающиеся поиска какого-либо рода сведений. Их перечень индивидуален, и, вероятно, его границы необозримы. Однако можно выделить основные ситуации, для разрешения которых ассистенту руководителя будет полезно прибегнуть к сбору дополнительной информации.

  • Собеседование. Смена места работы и поиск нового требуют ответственности и тщательного анализа полученных о работодателе данных. Бывает, что по итогам одного или нескольких этапов собеседования, недостаточно данных для принятия взвешенного решения «за» или «против». Или по причине того, что работодатель не предоставил необходимые материалы из-за отсутствия времени или просто не придав им значения, или из-за желания намеренно их скрыть. В любом случае, представители компании вряд ли готовы на собеседовании отвечать на «тонкие» частные вопросы честно, например, на вопросы о задержке заработной платы, текучке кадров или связанные с общими проблемами в организации.

При наличии исходных данных ассистенту руководителя рекомендуется до прохождения собеседования найти максимум полезной информации о компании: с одной стороны, чтобы подстраховаться и задать необходимые вопросы, с другой - чтобы иметь возможность проявить профессионализм и блеснуть осведомленностью и подготовленностью к встрече.

  • Профессиональные задачи. Деятельность современных организаций неизбежно связана с сотрудничеством между друг другом. Каждая фирма имеет партнеров, заказчиков, исполнителей-контрагентов и т.д. Так, например, до заключения договора с определенной компанией на поставку продукции или оказание услуг, юрист запрашивает для проверки необходимый пакет документов, содержащий минимальный или максимально полный перечень - в зависимости от требований вашей организации к контрагентам. Не всегда проверкой компаний занимается юрист, в некоторых случаях это делает ассистент руководителя по поручению своего начальства. Поэтому поиск информации о новой компании или его руководстве может входить в обязанности персонального помощника.
  • Личные и профессиональные контакты. Помощник руководителя ежедневно общается с большим количеством людей (коллегами, подрядчиками, новыми знакомыми по работе или в частной жизни). Бывают случаи, когда по каким-то причинам необходимо собрать дополнительную информацию о человеке, например, при приеме на работу нового сотрудника: кем он работал ранее, чем увлекается, есть ли какие-то недочеты в профессиональной биографии и т.д. Относительно личных контактов дополнительные знания тоже лишними не будут, поскольку в большинстве случаев людям свойственно скрывать о себе личные сведения (в лучшем случае - ввиду простой человеческой подозрительности, в худшем - когда действительно есть что скрывать).

В крупных организациях часто создается т.н. служба безопасности. Она занимается профессиональным поиском всей информации о частных лицах или организациях, если того требует обеспечение деловой, экономической, промышленной безопасности компании. Как правило, у специалистов этой службы имеются в распоряжении свои ресурсы для наведения справок и сбора данных. Если в вашей организации существует служба безопасности, то рекомендуется обратиться к ее специалистам для получения нужной информации из надежных источников.

Исходные данные

При проведении «информационного расследования» никакие детали «мелкими» или лишними не бывают. Кроме того, в условиях недостатка сведений любой информационный «крючок» является необходимой зацепкой для нахождения полезных данных шаг за шагом. «Крючками» для поиска нужных материалов в интернет-пространстве являются верно сформулированные запросы, как и любые исходные данные, которыми ассистент руководителя в настоящий момент обладает. Достаточно будет самых «скромных», на первый взгляд, новостей, чтобы начать поиск.

Запрос по наименованию организации:

  • даст информацию о наименовании сайта компании;
  • позволит получить контактную информацию;
  • предоставит результаты поиска по данным новостных и рекламных ресурсов;
  • даст информацию о сфере деятельности, регистрационных данных, местонахождении и т.д.

Запрос по Ф.И.О. руководителя организации или частного лица:

  • поможет получить информацию о наименовании компании и сфере деятельности;
  • позволит ознакомиться с информацией рекламных, деловых, новостных ресурсов;
  • предоставит результаты поиска по резюме, биографиям, справочным материалам;
  • даст информацию о «присутствии» в деловых и развлекательных социальных сетях и т.д.

Запрос по номеру телефона компании или номеру мобильного телефона:

  • позволит получить информацию о компании в случае, если это офисный номер телефона;
  • даст информацию о принадлежности номера мобильного телефона к определенному региону России;
  • предоставит данные поиска по рекламным сайтам, объявлениям, размещенным вакансиям и предложениям организации или частного лица и т.д.

На заметку. Указанные исходные данные можно считать базовыми для дальнейшего сбора информации. Результаты поиска по указанным запросам необходимо использовать как данные для последующих запросов. Например, если изначально был известен только номер телефона организации, то по результатам такого запроса можно получить данные о наименовании организации, а следом и информацию с данными руководителей и учредителей.

Рассмотрим пример поиска информации и ее использования.

В поисковой системе вводим изначально известный номер телефона. Получаем следующий результат (рис. 1):

Далее по наименованию организации набираем следующий запрос и получаем несколько сайтов со справочной информацией об организациях. В данном случае знакомимся с результатами на сайте rusprofile . ru (рис. 2).

В каких случаях эта информация может быть полезна?

  • Ассистент руководителя получил задание связаться с редакцией журнала для размещения рекламы;
  • помощнику руководителя поручено подготовить официальное письмо на имя генерального директора, однако имя генерального директора изначально не было известно;
  • руководителю поступил звонок с определением номера телефона и имени контактного лица и помощника попросили уточнить, из какой компании звонили.

По запросам по Ф.И.О., номеру телефона и наименованию компании поисковые системы, как правило, предоставляют множество результатов со ссылками на различные ресурсы и сайты. Ассистенту руководителя рекомендуется внимательно ознакомиться со справочными материалами и тщательно отфильтровать полезные данные от «спама», уделяя также особое внимание источнику информации: официальный сайт организации в этом случае окажется более надежным, чем, например, рекламно-справочный веб-ресурс.

Таким образом, имея минимум исходных данных и навыки работы с поисковыми системами сети Интернет, помощник руководителя может найти необходимую в настоящее время информацию или получить дополнительные данные для дальнейших запросов и продолжения «информационного расследования».

«Элементарно, Ватсон!»

В интернет-пространстве каждый из пользователей так или иначе оставляет свои «следы», а сведения, когда-либо размещенные им, имеют «хвосты». Так, при использовании запросов в строке поиска Google, Yandex или других поисковых систем ассистент может ознакомиться с информацией:

  • о размещенных пользователем объявлениях на сайтах поиска работы или сотрудников, частных объявлениях о продаже или покупке, об оказываемых или требующихся услугах;
  • об опубликованных новостях организации или о должностных лицах, об участии в каких-либо деловых мероприятиях, выставках, прочей деятельности компании;
  • о созданных резюме и биографиях, если речь идет о частном лице;
  • о присутствии в социальных сетях и группах;
  • об отзывах о продукции компании или отзывах о компании как работодателе и мн. др.

Даже в случае, если информация о поиске работы или сотрудников, размещенные объявления и новости не являются актуальными, они не всегда удаляются правообладателями - по забывчивости или при отсутствии необходимости.

Что и где ищем? Как используем?

В зависимости от того, какую информационную задачу предстоит решить персональному ассистенту (будь то сбор максимально полной информации или только проверка определенных данных об организации или частном лице), могут быть выбраны и другие эффективные методы поиска в Интернете. Для их использования необходимы также исходные данные (достаточно будет информации о наименовании компании, или контактных данных, или Ф.И.О. руководителя или частного лица) (см. таблицу).

Вид информации и примеры ее использования

Вид информации

Примеры использования

Полное наименование компании и ее виды деятельности

Полное название, организационно-правовая форма и официально зарегистрированные виды осуществляемой деятельности - основная информация о компании. Она будет полезна как при поиске нового места работы для сбора данных о работодателе, так и в работе персонального ассистента для проверки деятельности партнера или контрагента.

Часто недобросовестные сотрудники организаций представляют свои компании как «крупные» или даже «международные», а на деле оказывается, что это обычные ИП, в перечень видов деятельности которых не входят те работы, для которых ваша компания планировала их привлечь

Дата регистрации в государственных органах

Дата регистрации предприятия в государственных органах имеет значение в том случае, если для вашей организации важен многолетний опыт работы контрагента или партнера в определенной области.

Например, если компания сообщила вам, что присутствует на рынке более 10 лет, а на самом деле зарегистрирована несколько месяцев назад, это может вызвать сомнения относительно солидности и надежности фирмы.

Информация о длительности функционирования предприятия будет полезна как в профессиональной работе помощника руководителя, так и в случае, если необходимо собрать наиболее полные данные о новом работодателе

Данные об учредителях и руководителях организации

Информация о руководстве и учредителях компании может включать сведения о количестве учредителей, их Ф.И.О., долях участия, количестве руководителей и их Ф.И.О. Польза этих данных состоит в том, что они могут послужить основой для последующего поиска информации. Так, например, зная учредителей и руководителей компании, необходимо сделать дальнейший запрос по Ф.И.О. и участию этих лиц в деятельности других организаций. Таким образом можно понять, насколько «крупными» являются учредители, и если их доли участия велики, возможно, они являются и инвесторами нескольких компаний. По результатам поиска можно пойти дальше и ознакомиться с деятельностью новых найденных компаний - для создания наиболее ясной картины деловой активности ее участников.

Кроме того, дополнительно полученные данные об учредителях и директорах можно проанализировать с разных точек зрения. Например, если в списке лиц одинаковые фамилии, вероятно, компания является семейной. Если встречаются фамилии иностранных лиц, возможно, предприятие имеет связи с зарубежными партнерами или головными организациями

Адреса и телефоны компании

Необходимость контактных данных переоценить сложно. Они исполняют свою основную роль: дают возможность связаться с организацией или отдельными ее сотрудниками. Однако порой имеет смысл сделать дополнительные запросы по адресу организации и по ее телефонам.

Случается, что по одному и тому же адресу компании могут находиться несколько юридических лиц. Таковыми зачастую являются как дочерние предприятия, так и сторонние организации. Кроме того, к регистрации по одному и тому же адресу часто прибегают недобросовестные организации, не имеющие средств для аренды полноценного офиса. Тогда на определенных условиях покупается юридический адрес, а фактически компания по указанному адресу не располагается.

По запросу помощника руководителя телефон компании может появиться в различных «ответах» поисковой системы. Необходимо тщательно ознакомиться с результатами, чтобы понять, нет ли в них информации, например, о занесении телефонного номера в черные списки работодателей и т.п.

Адрес официального сайта предприятия

Адрес официального сайта компании является очень информативным ресурсом:

  • если у организации нет сайта, то вероятно, у компании нет средств на его создание или она была создана относительно недавно;
  • имеет значение объем предоставленной компанией информации: наличие или отсутствие данных о руководителях, сотрудниках, новости, информация о партнерах или заказчиках и т.д.;
  • дата создания сайта и его интерфейс говорят о том, когда сайт был создан и насколько профессионально выполнен технически и с точки зрения дизайна;
  • наличие или отсутствие контактных данных (см. выше);
  • адрес домена сайта содержит дополнительную информацию, при помощи которой существует возможность дополнительной проверки

Размер уставного капитала компании

Большое значение имеет размер уставного капатала организации. Существует минимальный размер уставного капитала, и многие компании при регистрации им ограничиваются. Однако если компания поставляет вашему предприятию продукцию или оказывает услуги на сумму, в десятки или сотни раз превышающую ее уставный капитал, стоит помнить о том, что в случае недобросовестной работы или поставки ваша организация получит только то, что имеется в фонде компании

Наличие задолженностей перед налоговыми органами

Данные об отсутствии долгов являются только плюсом и говорят о компании как о добросовестном налогоплательщике. Однако наличие задолженностей перед налоговыми органами, как и размер этих задолженностей, необходимо обязательно учесть.

При трудоустройстве на работу будет полезно знать, нет ли у компании долгов перед Пенсионным фондом.

При сотрудничестве компании как с контрагентом или партнером задолженности могут стать показателем ее недобросовестного делового подхода или же убыточного положения

Участие в судебных разбирательствах

Информация об участии в судебных разбирательствах важна, однако при этом необходимо ознакомиться с их содержанием. Одно дело - неуплата штрафов за неправильную парковку служебного автомобиля, другое - трудовые споры или иные серьезные дела. Важно также учесть, выступала компания в роли истца или ответчика

Дисквалификация должностного лица

Случается, что должностные лица организаций, будь то руководители или иные должностные лица, дисквалифицируются в судебном порядке в соответствии с законодательством. Эта информация станет полезной для анализа новых компаний-партнеров или при трудоустройстве на работу. Особенно это важно для ассистента руководителя, работа которого напрямую связана с профессиональной деятельностью начальства

Адрес электронной почты контактного лица

По адресу электронной почты организации или ее сотрудника можно судить о ее «солидности». Как правило, в современных организациях принято пользоваться корпоративными электронными адресами, размещенными на своих доменах (доменный адрес после значка @), в целях информационной безопасности и показателя определенной корпоративной культуры. В случае, если адрес компании находится на общедоступном сервере, например mail.ru или yandex.ru, то имеет смысл дополнительно его проверить путем введения запроса по адресу в поисковой строке. По результатам поиска можно проанализировать, в каких статьях использовался адрес, в каких объявлениях был указан и не попал ли он в черные списки пользователей

Номер мобильного телефона

По номеру мобильного телефона можно узнать его принадлежность к определенной компании - фигурирует ли он по результатам поиска в объявлениях от имени юридического лица. Кроме того, он может быть зафиксирован и на сайтах частных объявлений - полезно будет ознакомиться с их содержанием. Необходимо обратить внимание, не занесен ли он в какие-либо черные списки пользователей и нет ли к нему комментариев.

Кроме того, по номеру мобильного телефона можно узнать его принадлежность к определенным телефонному оператору и региону

Личные данные

С целью характеристики личности будущего руководителя, новых коллег или же тех, с кем помощник руководителя пересекается на нынешнем месте работы, часто бывают полезными личные данные. Семейное положение, фотографии, увлечения, стиль общения, круг друзей, интересы - все это зачастую доступно в социальных сетях. Не рекомендуется тратить время на поиск подобной информации из праздного интереса, однако для дополнительной характеристики человека социальные сети могут предоставить персональному ассистенту различные данные: как положительно, так и отрицательно характеризующие личность

Отзывы работников, списки работодателей

Отзывы бывших сотрудников организаций, а также тех, кто участвовал в собеседованиях, проводимых организацией, имеют значение в том случае, если помощник руководителя планирует осуществлять в ней свою профессиональную деятельность. Стоить учесть, что всегда есть «обиженные» и «недовольные», не рекомендуется делать выводы исходя только из отзывов и комментариев частных лиц. Однако необходимо их учесть и сопоставить с другими данными о компании.

Кроме того, существуют официальные ресурсы, которые периодически публикуют списки как лучших, так и недобросовестных работодателей

В Интернете существует множество ресурсов, предлагающих предоставить пользователям информацию об организации. При этом есть те, на которых сведения представлены в свободном доступе, а также коммерческие сайты. Часто платные веб-страницы предлагают предоставить вам за деньги те данные, которые на другой странице вы найдете совершенно бесплатно. Не торопитесь оплачивать первую попавшуюся информацию, тщательно изучите имеющиеся ресурсы, в т.ч. надежные источники - официальные сайты различных служб, прежде чем прибегнуть к платному запросу.

Справочно. Как правило, данные по компаниям, опубликованные на справочных ресурсах, получены из открытых источников (ЕГРЮЛ и Росстат) и не подпадают под действие Федерального закона от 27.07.2006 № 152-ФЗ «О персональных данных» (в ред. от 21.07.2014) согласно ст. 6 Федерального закона от 08.08.2001 № 129-ФЗ «О государственной регистрации юридических лиц и индивидуальных предпринимателей» (в ред. от 30.03.2015; с изм. от 18.05.2015).

  • www .egrul .nalog .ru . Официальный сайт Федеральной налоговой службы предоставит ассистенту руководителя бесплатную информацию, опубликованную в соответствии с законодательством и не являющуюся конфиденциальной. Этот ресурс позволяет получить данные сразу по нескольким позициям, указанным в таблице.

Необходимые исходные данные для поиска: наименование юридического лица или ИП, ОГРН или ИНН (рис. 3).

В этом случае мы осуществляем поиск по наименованию юридического лица. Регион места нахождения вводить не обязательно, однако при наличии таких сведений их рекомендуется указать, чтобы получить наиболее полные результаты поиска. После введения данных нажимаем кнопку Найти и получаем результат (рис. 4).

При поиске на сайте Федеральной налоговой службы появляются результаты в формате pdf. Документы доступны для скачивания и содержат полную информацию о регистрации компании: данные об учредителях, руководителях, о дате регистрации, зарегистрированных видах деятельности, адресные данные и др. (рис. 5).

Ресурс налоговой службы удобен также тем, что предоставляет возможность поиска по другим базам данных, которым можно воспользоваться бесплатно, нажав на нужную ссылку и введя необходимые для запроса исходные данные. Ассистент руководителя легко найдет информацию о дисквалифицированных лицах, юридических лицах, которые имеют задолженность по уплате налогов, и другие полезные данные.

Стоит отметить, что для поиска может понадобиться дополнительная информация, например, для поиска по задолженностям - ИНН налогоплательщика (рис. 6). В случае если изначально ИНН известен не был, его можно посмотреть в сведениях о регистрации юридических лиц, полученных по результатам поиска по наименованию компании.

Признаки компаний-однодневок

Извлечение
из Общедоступных критериев самостоятельной оценки рисков для налогоплательщиков, используемые налоговыми органами в процессе отбора объектов для проведения выездных налоговых проверок,
утвержденных приказом ФНС России от 30.05.2007 № ММ-3-06/333@
«Об утверждении Концепции системы планирования выездных налоговых проверок»

(в ред. от 10.05.2012)

[…] При оценке налоговых рисков, которые могут быть связаны с характером взаимоотношений с некоторыми контрагентами, налогоплательщику рекомендуется исследовать следующие признаки:

Отсутствие личных контактов руководства (уполномоченных должностных лиц) компании-поставщика и руководства (уполномоченных должностных лиц) компании-покупателя при обсуждении условий поставок, а также при подписании договоров;

Отсутствие документального подтверждения полномочий руководителя компании-контрагента, копий документа, удостоверяющего его личность;

Отсутствие документального подтверждения полномочий представителя контрагента, копий документа, удостоверяющего его личность;

Отсутствие информации о фактическом местонахождении контрагента, а также о местонахождении складских и/или производственных и/или торговых площадей;

Отсутствие информации о способе получения сведений о контрагенте (нет рекламы в СМИ, нет рекомендаций партнеров или других лиц, нет сайта контрагента и т.п.). При этом негативность данного признака усугубляется наличием доступной информации (например, в СМИ, наружная реклама, Интернет-сайты и т.д.) о других участниках рынка (в том числе производителях) идентичных (аналогичных) товаров (работ, услуг), в том числе предлагающих свои товары (работы, услуги) по более низким ценам;

Отсутствие информации о государственной регистрации контрагента в ЕГРЮЛ (общий доступ, официальный сайт ФНС России www.nalog.ru).

Наличие подобных признаков свидетельствует о высокой степени риска квалификации подобного контрагента налоговыми органами как проблемного (или «однодневки»), а сделки, совершенные с таким контрагентом, сомнительными.

Дополнительно повышают такие риски одновременное присутствие следующих обстоятельств:

Контрагент, имеющий вышеуказанные признаки, выступает в роли посредника;

Наличие в договорах условий, отличающихся от существующих правил (обычаев) делового оборота (например, длительные отсрочки платежа, поставка крупных партий товаров без предоплаты или гарантии оплаты, несопоставимые с последствиями нарушения сторонами договоров штрафными санкциями, расчеты через третьих лиц, расчеты векселями и т.п.);

Отсутствие очевидных свидетельств (например, копий документов, подтверждающих наличие у контрагента производственных мощностей, необходимых лицензий, квалифицированных кадров, имущества и т.п.) возможности реального выполнения контрагентом условий договора, а также наличие обоснованных сомнений в возможности реального выполнения контрагентом условий договора с учетом времени, необходимого на доставку или производство товара, выполнение работ или оказание услуг;

Приобретение через посредников товаров, производство и заготовление которых традиционно производится физическими лицами, не являющимися предпринимателями (сельхозпродукция, вторичное сырье (включая металлолом), продукция промысла и т.п.);

Отсутствие реальных действий плательщика (или его контрагента) по взысканию задолженности. Рост задолженности плательщика (или его контрагента) на фоне продолжения поставки в адрес должника крупных партий товаров или существенных объемов работ (услуг);

Выпуск, покупка/продажа контрагентами векселей, ликвидность которых не очевидна или не исследована, а также выдача/получение займов без обеспечения. При этом негативность данного признака усугубляет отсутствие условий о процентах по долговым обязательствам любого вида, а также сроки погашения указанных долговых обязательств больше трех лет;

Существенная доля расходов по сделке с «проблемными» контрагентами в общей сумме затрат налогоплательщика, при этом отсутствие экономического обоснования целесообразности такой сделки при одновременном отсутствии положительного экономического эффекта от ее осуществления и т.п.

Как проверить компанию-контрагента на «реальность»?

  1. Воспользоваться электронными сервисами на сайте ФНС России (http://www.nalog.ru/) :
  • «Сведения о лицах, в отношении которых факт невозможности участия (осуществления руководства) в организации установлен (подтвержден) в судебном порядке» (https://service.nalog.ru/svl.do ). По ОГРН или ИНН организации можно узнать, не заявляло ли лицо, которое, по сведениям ЕГРЮЛ, является руководителем или учредителем организации, о том, что оно не имеет никакого отношения к ней;
  • «Сведения, опубликованные в журнале "Вестник государственной регистрации", о принятых регистрирующими органами решениях о предстоящем исключении недействующих юридических лиц из Единого государственного реестра юридических лиц (http://www.vestnik-gosreg.ru/publ/fz83/ ). Такое решение налоговая может принять, если компания в течение года не представляла налоговую отчетность и не проводила операций хотя бы по одному банковскому счету. Исключение компании из ЕГРЮЛ приравнивается к ее ликвидации, а значит, она не может заключать и исполнять договоры.

Наш совет: распечатайте или сохраните на своем компьютере интернет-страницы (скриншоты) с информацией о компании. Это поможет в дальнейшем доказать, что вы проводили проверку.

  1. Запросите заверенные копии следующих документов:
  • устава организации;
  • свидетельства о государственной регистрации организации;
  • свидетельства о постановке организации на учет в налоговом органе по месту ее нахождения;
  • решения об избрании (назначении) руководителя организации;
  • паспорта руководителя организации (с. 2, 3);

Кстати: действительность паспорта можно проверить по его серии и номеру, воспользовавшись сервисом «Проверка по списку недействительных российских паспортов» на сайте ФМС России (http://services.fms.gov.ru/info-service.htm?sid=2000 ).

  • лицензии, если сделка с организацией заключается в рамках лицензируемой деятельности. Кроме того, информацию о лицензиях, выданных компании, можно проверить на сайтах лицензирующих органов;
  • бухгалтерской отчетности за год, предшествующий году заключения сделки. Данные бухгалтерской отчетности организации за любой период также можно бесплатно получить в Росстате (при условии, что компания сдает бухотчетность в органы статистики). Для этого нужно направить в любой территориальный орган Росстата запрос по утвержденной форме.

Результаты проведенной проверки можно оформить в виде справки и представить руководителю.

Видеоинструкция по проверке контрагента - на сайте http://egrul.nalog.ru/ .

  • www . fssprus . ru . Официальный сайт Федеральной службы судебных приставов России предоставляет пользователям возможность ознакомиться с банком исполнительных производств и осуществить поиск, используя простую форму (http://fssprus.ru/iss/ip/) (рис. 7).

База данных содержит сведения по юридическим, физическим лицам. Для того чтобы осуществить поиск, необходимо ввести соответственно данные физического, юридического лица или в отдельной вкладке формы поиска - номер исполнительного производства, если он известен (рис. 8).

Обратите внимание! В отличие от сайта Федеральной налоговой службы введение данных о территориальных органах на сайте ФССП является обязательным.

Если компания или физическое лицо имеет какие-либо задолженности и в их отношении возбуждены исполнительные производства, то в результатах поиска ассистент руководителя получит следующие данные: полное наименование компании и адрес местонахождения, номер и дата возбуждения исполнительного производства, реквизиты исполнительного документа, а также сумму непогашенной задолженности. В примере удалены некоторые данные таблицы, однако графы сохранены для наглядности отображения результатов поиска.

  • www . rusprofile . ru . Проект «РусПрофайл» представляет собой справочную систему по компаниям, которой можно воспользоваться для быстрого поиска организации, контактных данных и сведений о регистрации.

В разделе «Компании» необходимо ввести наименование предприятия и получить результаты поиска (рис. 9).

Интернет предоставляет неограниченный доступ к информационным ресурсам, как в области юридической науки, так и практического законотворчества. Поисковые системы значительно облегчают задачу по нахождению необходимой информации, каких либо данных, статей, монографий и программ. Интернет-ресурсы становятся эффективным средством приобретения новых знаний, а также реализуют доступ к электронным версиям не только юридических журналов и газет, но и к множеству юридической литературы, доступной как в бесплатной, так и платной форме.

Практически любой юрист может попробовать себя в качестве «дистанционного консультанта» по юридическим проблемам. Для этого необязательно создавать персональную web-страничку, достаточно стать участником одного из уже действующих Интернет-проектов. Например, большой популярностью в отечественном Интернете пользуется так называемая «Виртуальная Юридическая Консультация» (www.uristy.ru). Принять участие в работе этой консультации может любой специалист, имеющий юридическое образование, достаточно лишь зарегистрироваться в системе.

Но нельзя не отметить, что доступность и простота размещения информации, а также практически полная независимость серверов друг от друга в Интернете, превратила всемирное достижение в хаос. Вот почему год от года проблема поиска необходимой информации в Интернете становится все актуальнее. Особенно это важно в условиях ограниченного времени и в том случае, когда принятие решения должно опираться на конкретный документ.

Самая простая возможность что-то найти, это ввести ключевые слова прямо в адресную строку браузера. Поиск происходит в майкрософтовской системе WSN Search.

Рис.18 Система WSN Search

Другой способ поиска дает кнопка Поиск на панели браузера. При использовании этой кнопки окно делится на две части. Слева находится строка для ввода ключевых слов, список найденных страниц, а справа можно просматривать выбранные страницы. Можно использовать другую поисковую систему, используя кнопку Настроить в панели Поиск .

Поисковые системы Интернет:

Поисковые системы можно подразделить на следующие группы:

    поисковые каталоги

    поисковые машины или поисковые указатели

Поисковые каталоги.

Каталоги ресурсов – глобальные, локальные, специализированные – представляют собой размещаемые в Сети базы данных с адресами ресурсов. Эти базы данных могут иметь разный объем накопленной информации. Обычно они имеют иерархическую структуру.

Поисковые каталоги устроены по тому же принципу, что и тематические каталоги крупных библиотек. Обратившись к адресу поискового каталога, мы находим на его основной странице список тематических категорий, например таких как «Юриспруденция», «Образование», «Спорт» и т.д.

Каждая запись в списке категорий – это гиперссылка. Щелчок по ней открывает следующую страницу поискового каталога, на котором выбранная тема представлена более подробно. Продолжая погружаться в тему, можно дойти до списка конкретных Web-страниц и выбрать тот ресурс, который наиболее подходит для решения Вашей задачи. Также в поисковом каталоге можно использовать кнопку Поиск для уточнения поиска нужных страниц.

Поисковые каталоги создаются в основном вручную высококвалифицированными редакторами, которые просматривают пространство WWW, отбирают то, что по их мнению представляет общественный интерес и заносят адреса в каталог.

Yahoo (www.yahoo.com) – признан наиболее популярным каталогом во всем мире. Возможен поиск на русском языке.

Российские каталоги:

« List . Ru » (www . list . ru ),

«Созвездие Интернет» (www . stars . ru ),

«Russia on the Net» (www.ru ) и другие.

Введение. - 4

1. Информационно-поисковая система. - 5

1.1. Документографическая ИПС. - 6

1.2. Фактографическая ИПС. - 8

2. Поисковая система глобальной сети "Интернет". - 9

2.1. Как работают механизмы поиска. - 9

2.2. Технология поиска. - 14

3. Поисковые машины глобальной сети "Интернет". - 18

3.1. Как искать в Интернете - 18

3.2. Поисковые каталоги. - 21

3.3. Поисковые указатели. - 23

4. Сравнительная характеристика двух поисковых

систем на базе Rаmbler.ru и Yandex.ru. - 29

4.1. Rаmbler.ru - 29

4.2. Yandex.ru. - 35

Заключение. - 40

Литература. - 42

Приложение. - 43

Введение


Интернет во многом упростил жизнь современного общества, глобализовал его, увеличил возможности одних людей и уменьшил возможности других. Сегодня гораздо удобнее и выгоднее пользоваться почтовыми услугами через Интернет (к примеру, письмо из Тобольска в Лондон дойдет за 5 секунд).

По моим наблюдениям Интернет стал источником бизнеса, источником мировой культуры, источником обучения, средством массовой информации.

Сегодня любой пользователь в Интернете может за пару секунд получить доступ ко всем мировым биржам, музеям. Любой пользователь может получить образование через Интернет, ознакомится с ведущими мировыми электронными газетами.

Информация стала виртуальным золотом наших дней, и тот добьется быстрого и большего успеха, кто сможет быстрее ее раздобыть. И не важно кто вы, бизнесмен, ищущий новый рынок сбыта или студент, ищущий материал к курсовой работе, обоим нужна информация и Интернет может дать ее им если они будут обладать достаточными знаниями чтобы взять ее.

Мне долго бы пришлось перечислять выгоды Интернета для граждан Земли, но боюсь что нескоро бы закончил.

Я хочу отметить главное в Интернете, некий его “краеугольный камень”, это - информация и главные ее свойства:

1) Широкая доступность

2) Быстрота

У неопытных пользователей есть миф о том, что в Интернете есть все. На самом деле, мой опыт работы в Интернете доказал, что это не так. Материалы для размещения в Сети готовят живые люди, и потому там можно найти лишь то, что они сочли нужным (в смысле полезным или выгодным для себя) опубликовать. Впрочем, река питается ручьями, и благодаря их творчеству сегодня в Интернете уже образовалось около двух миллиардов Web-страниц. В результате каталогизация имеющихся в Сети ресурсов стала серьезной проблемой. Несмотря на то, что ею занимаются тысячи организаций, проблема не только не приближается к разрешению, но и становится острее. Процент каталогизированных (или индексированных) ресурсов неуклонно падает. В последние два года это падение стало катастрофическим. Так, если в 2000 г. процент индексированных ресурсов приближался к 40%, то всего лишь за один следующий год он опустился до 25% . Вывод простой: пространство Web быстрее наполняется, чем систематизируется. К сожалению, у Internet-специалистов нет оснований предполагать, что в ближайшее время что-нибудь может измениться к лучшему. В итоге поиск информации в World Wide Web можно считать самой трудной задачей в Интернете.

В связи с вышесказанным, качественный поиск информации в Интернете одна из самых актуальнейших тем в наше время, эта проблема не раз затрагивала и меня.

Тема моей курсовой заинтересовала меня своей нестандартностью и новизной и я хочу постараться раскрыть ее. Моей задачей будет качественная организация поиска информации в сети Интернет.

1. Информационно-поисковая система


Прежде чем дойти до конкретных механизмов поиска в глобальной сети "Интернет" необходимо разобрать теоретическую основу таких вопросы, как "что такое информация?", "Информационные процессы?", "Информационно-поисковая система и ее типы?".

Однозначного ответа что такое информация нет, можно лишь привести часть свойств характеризующий данный термин:

" Информация - это сведения, являющиеся объектом хранения; это содержание сообщения, сигнала, памяти, а также сведения, содержащиеся в сообщении, сигнале, памяти."

Процессы передачи, хранения и переработки информации, всегда играли важную роль в жизни общества. Люди обмениваются устными сообщениями, записками, посланиями. Они передают друг другу просьбы, приказы, отчеты о проделанной работе, описи имущества; публикуют рекламные объявления и научные статьи; хранят старые письма и документы; долго размышляют над полученными известиями или немедленно кидаются выполнять указания начальства. Все это - информационные процессы. Информация всегда связана с материальным носителем, а ее передача - с затратами энергии. Однако одну и ту же информацию можно хранить в различном материальном виде (на бумаге, в виде фотонегатива, на магнитной ленте, ...) и передавать с различными энергетическими затратами (по почте, по телефону, с курьером и т.д.), причем последствия - в том числе и материальные - переданной информации совершенно не зависят от физических затрат на ее передачу. Например, легкое нажатие кнопки опускает тяжелый театральный занавес или взрывает большое здание, красный свет светофора останавливает поезд, а неожиданное неприятное известие может вызвать инфаркт. Поэтому информационные процессы не сводимы к физическим, и информация, наряду с материей и энергией, является одной из фундаментальных сущностей окружающего нас мира. В 20 в. с развитием техники появились новые устройства: средства связи, устройства автоматики, а с 40-х гг. - вычислительной техники. Выяснилось, что эффективность их работы с помощью физических понятий описать невозможно и что существенные характеристики таких устройств нужно описывать совсем другими способами. В результате впервые возникли точное понятие информации и математическая теория информации. Стало ясно, что средства связи, какие бы физические процессы они ни использовали, - это средства передачи информации. Объединение понятий "информация" и "управление" привело Н.Винера в 40-х гг. к созданию кибернетики, которая, в частности, впервые указала на общность информационных процессов в технике, обществе и живых организмах.

Использование понятия информации оказало существенное влияние на развитие современной биологии, особенно таких ее разделов, как нейрофизиология и генетика. И наконец, в связи с развитием вычислительной техники, стимулировавшей информатизацию всего общества, возник комплекс наук о различных аспектах работы с информацией - информатика.

" Информационно-поисковая система - это система, где хранится информационный массив, из которого по требованиям пользователей выдается нужная информация."

Поиск информации по требованию пользователя осуществляется либо автоматически, либо вручную (как в библиотеках, когда с запросом к работнику справочного фонда обращается читатель, а работник пользуется системой каталогов). Во втором случае используются ЭВМ, снабженные специальными программными средствами, анализирующими процессы запросов, поиска и выдачи нужных документов. Таким образом, информационно-поисковые системы (ИПС) реализуют вопросно-ответное отношение, что сближает задачи, стоящие перед создателями таких систем, с теми задачами, которые решают создатели человеко-машинных систем.

Информационно-поисковые системы делятся на два типа:

1. Документографическая ИПС.

2. Фактографическая ИПС.

1.1 Документографическая ИПС


В такой ИПС все хранимые документы индексируются некоторым специальным образом. Каждому документу (статье, отчету, протоколу и т.п.) присваивается индивидуальный код, составляющий поисковый образ документа. Поиск идет не по самим документам, а по их поисковым образам, которые содержат информацию (адрес) о местонахождении документа. Именно так ищут книги по заказам читателя в больших библиотеках (в маленьких библиотеках библиотекарь обычно ищет книги сам). По требованию читателя сначала находят карточку в каталоге, а потом по шифру, указанному на ней, отыскивается и сама книга.

Различия документографических ИПС определяются тем, как устроен поисковый образ документа. В простейшем случае это просто его индивидуальное название (например, название, автор, год издания книги). В более сложных случаях нет однозначного соответствия между поисковым образом документа и самим документом. Вполне возможен случай, когда поисковый образ документа соответствует нескольким различным документам и, наоборот, один и тот же документ соответствует не одному, а нескольким поисковым образам.


Такой неоднозначностью обладают, например, поисковые образы документов в дескрипторных системах. "Дескриптор - слово или словосочетание, которое тесно связано с содержанием документа. Совокупность дескрипторов определяет группу документов со сходным содержанием." В последнее время журналы, публикующие научные статьи, требуют от своих авторов, чтобы для каждой статьи они указывали список ключевых слов, которые и играют роль дескрипторов. Если, например, описать статью, которую вы читаете с помощью ключевых слов, то один из возможных списков будет следующим: информационный поиск, информационно-поисковая система, дескриптор, тезаурус, поисковый образ документа.

По набору этих ключевых слов (набору дескрипторов) можно найти данную статью среди всех статей книги, если ввести ее постатейное содержание в какую-либо ИПС дескрипторного типа.

Общая блок-схема ИПС дескрипторного типа показана на рис-1. Эта схема имеет два входа. По одному происходит пополнение хранящегося в системе информационного массива документов, а по второму поступают запросы пользователей.

1.2 Фактографическая ИПС

В отличие от документо-графических ИПС в ИПС такого типа хранятся не документы, а факты, относящиеся к какой-либо предметной области. Хранимые факты могут быть извлечены из различных документов. К примеру необходимо переработав историю восемнадцатого века в базе фактов они связываются между собой системой разнообразных отношений. Такая сеть в ИПС носит название тезауруса предметной области. Запросы поступающие в фактографические ИПС, используют тезаурус для поиска ответов на запросы. Поиск осуществляется методом поиска, по образцу широко применяющемуся в базах знаний систем искусственного интеллекта.

К примеру необходимо переработав историю восемнадцатого века, собрать все сведения о Екатерине-II.

ИПС фактографического типа постепенно приближаются по своей организации и функционированию к развитым базам данных и знаний.

2. Поисковая система глобальной сети "Интернет".


Я не хочу влезать в дебри внутренней работы поисковой системы (на электронном уровне), т.к. это не отвечает целям моей работы, и на мой взгляд эта работа программистов высшего уровня к которому я сейчас стремлюсь.

Я хочу разобрать и разложить по "полочкам", то как мне стала понята технология поиска информации, и сам механизм поиска информации.

2.1 Технология поиска информации в Интернете


Сама технология поиска становится более понятной на рис-2.

1) Для начала пользователь решает такую задачу, что он хочет найти, и где это может находится.

2) Затем заходит в Интернет, в обыкновенное Internet Exploer окно(Браузер).(Рис-3). Если пользователь знает имя сайта на котором находится интересующая его информация, то он просто сообщает его имя и заходит в его.

Пример. Пользователь желает узнать кинопрокат на сегодняшний день и заходит на сайт film.ru.(рис-3).

Это самый примитивный способ поиска информации в Интернете, на этом поиск может и закончится.

информацию о фильме давно вышедшем из проката, к примеру найти фильм "Брат-2" , достаточно в окне



Поиск производится автоматически на базе учета количества найденных слов на сервере. На его компьютер будет передана первая группа найденных ссылок с лучшими показателями по числу найденных вхождений искомых слов.

Часто вместе с ссылкой может быть выведена краткая информация по документу. Если среди найденных документов нет нужных, то можно вывести следующую группу - общее число документов обычно исчисляется тысячами. Для того, чтобы перейти на сервер, на котором находится найденная информация, достаточно просто щелкнуть по ссылке в результате поиска.

Это самый примитивный способ поиска информации в интернете, на этом поиск может и закончится.

Существуют и внутри сайтовые(локальные) системы поиска.

Пример. В том же film.ru есть возможность просмотреть

информацию о фильме давно вышедшем из проката, к

примеру найти фильм "Брат-2" , достаточно в окне

поиска набрать слово Брат-2 .(рис-3)

3) Если пользователь не знает имя сайта где он может найти интересующую его информацию, то он прибегает к помощи какой-нибудь поисковой системы. В сети работает значительное число справочных систем. Зайдя на указанный сервер, он получит на экране форму запроса, в которую надо ввести информацию для поиска. Обычно в форме существует возможность ограничения зоны поиска (например, по тематике). Он можете ввести нужный термин, определить область поиска и попытаться получить ответ.

Поиск производится автоматически на базе учета количества найденных слов на сервере. На его компьютер будет передана первая группа найденных ссылок с лучшими показателями по числу найденных вхождений искомых слов. Часто вместе с ссылкой может быть выведена краткая информация по документу. Если среди найденных документов нет нужных, то можно вывести следующую группу - общее число документов обычно исчисляется тысячами. Для того, чтобы перейти на сервер, на котором находится найденная информация, достаточно просто щелкнуть по ссылке в результате поиска.

Обычно поиск по паре ключевых слов приводит к получению десятков тысяч ссылок на документы, содержащие эти термины. Такой объем результатов редко позволяет эффективно отыскать "жемчужину" среди не имеющих отношения к теме поиска материалов. Что можно посоветовать?

Во-первых, пользователю необходимо сузить зону поиска. Попытаться определить на серверах какого профиля, в какой стране и т.п. наиболее вероятно можно встретить интересуемые материалы. Подумать, какие другие ключевые слова могут характеризовать объекты поиска, использовать несколько ключевых слов.

Если объектом поиска указаны несколько терминов, то поисковая система ищет вхождение каждого слова в документ независимо. То есть, можно результатом поиска получить документ, который содержит только одно слово, но несколько раз. Поэтому при определении терминов, по которым производится поиск, можно и нужно использовать логические операции.

Например, ввод слово_1&слово_2 заставит искать те страницы, где употреблен как первый, так и второй термин.

Во-вторых, необходимо провести поиск по всем известным поисковым системам. В каждой из них используется своя, несколько отличающаяся от других технология поиска. Поэтому абсолютно аналогичные поиски могут привести к различающимся результатам. Большинство поисковых систем бесплатны, поэтому ничто не мешает проводить столько операций поиска, сколько нужно.

В-третьих, очень часто результат может принести поиск документов на основе возможных ссылок на них.

Пользователь должен пытаться определить, какие известные документы могут содержать упоминание его тем. И уже через гипертекстовые связи в документах выйти на желаемый источник. Часто этот путь эффективен. Попытайтесь найти организации (WWW-сервера), имеющие профиль, сходный с темой поиска. Иногда, через ссылки в документах этих серверов можно выйти на нужные материалы.

В-четвертых, попытаться найти конференцию по сходной тематике т.е. просто зайти в какой-нибудь CHAT. Например в www.anekdotov.net.ru. Часто вопрос, "брошенный" в телеконференцию, позволяет получить достаточно справочной информации.

И, наконец, не забывать спросить своих знакомых. Они могут подсказать неожиданное решение.

В любом случае нужно настроиться на то, что поиск может занять достаточно длительный период времени и потребовать от, него немалых усилий.

Пример. Пользователь заходит в поисковую систему Yandex.ru , и в поисковом окне набирает слово Брат-2, дальше происходит поиск всего что может хоть как- нибудь связано с данным словом. Yandex порекомендует обратится ко многим сайтам и в том числе и к film.ru и непосредственно к сайту о самом фильме. (рис-4)

2.2 Как работают механизмы поиска

Поисковая система обычно ищет нужную информацию с помощью трех этапов:

I) Этап: Робот (агент, паук или кроулер) перемещается по Сети и собирает информацию.

II) Этап: Вся информация, собираемая роботами поступает в базу данных в виде ссылок - индексируется.

III) Этап: Запускается поисковый механизм, который пользователи используют как интерфейс для взаимодействия с базой данных. т.е. произошла выдача базой данных гиперссылок и дальше идет обыкновенный перебор нужных ссылок пользователем.

Эти этапы ярко выражены в работе блок-схемы (рис-2)

Два первых являются подготовительными и незаметны для пользователя.

Рассмотрим более подробно этапы поиска информации в

Поисковой системе:

I) Этап. Поисковая система собирает информацию из World Wide Web. Для этого используют специальные программы, аналогичные браузерам. Они способны скопировать заданную Web-страницу на сервер поискового указателя, просмотреть ее, найти все гиперссылки, которые на ней имеются, перейти по указанным в них URL-адресам, скопировать те ресурсы, которые найдены там, снова разыскать имеющиеся в них гиперссылки и т.д. Это специальные программы, типа агентов, пауков, кроулеров и роботов, которые занимаются поиском страниц в Сети, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют информацию, которую они находят для построения базы данных. Каждый поисковый механизм имеет собственный набор правил, определяющих, как собирать документы. Некоторые следуют за каждой ссылкой на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц, и так далее. Некоторые игнорируют ссылки, которые ведут к графическим и звуковым файлам, файлам мультипликации; другие проинструктированы, что нужно просматривать прежде всего наиболее популярные страницы.

Агенты - самые "интеллектуальные" из поисковых средств. Они могут делать больше, чем просто искать: они могут оставлять сообщение о вашем посещении сайта. Уже сейчас они могут искать cайты специфической тематики и возвращать списки cайтов, отсортированных по их посещаемости. Агенты могут обрабатывать содержание документов, находить и индексировать другие виды ресурсов, не только страницы. Они могут также быть запрограммированы для извлечения информации из уже существующих баз данных. Независимо от информации, которую агенты индексируют, они передают ее обратно базе данных поискового механизма.

Общий поиск информации в Сети осуществляют программы, известные как пауки. Пауки сообщают о содержании найденного документа, индексируют его и извлекают итоговую информацию. Также они просматривают заголовки, некоторые ссылки и посылают проиндексированную информацию базе данных поискового механизма.

Кроулеры просматривают заголовки и возвращают только первую ссылку.

Роботы могут быть запрограммированы так, чтобы переходить по различным cсылкам различной глубины вложенности, выполнять индексацию и даже проверять ссылки в документе. Из-за их природы они могут застревать в циклах, поэтому, проходя по ссылкам, им нужны значительные ресурсы Сети. Однако, имеются методы, предназначенные для того, чтобы запретить роботам поиск по сайтам, владельцы которых не желают, чтобы они были проиндексированы.

Роботы извлекают и индексируют различные виды информации. Некоторые, например, индексируют каждое отдельное слово во встречающемся документе, в то время как другие индексируют только наиболее важных 100 слов в каждом, индексируют размер документа и число слов в нем, название, заголовки и подзаголовки и так далее.

Вид построенного индекса определяет, какой поиск может быть сделан поисковым механизмом и как полученная информация будет интерпретирована.

Люди желающие предоставить информацию широкой общественности, или желающие большей посещаемости своего сайта, помещают краткие выдержки о чем этот сайт прямо в индекс, заполняя особую форму для того раздела, в который по их предположению обратится поисковый робот и вытащит в базу данных этот сайт и предоставит ее какому-нибудь пользователю.

Когда кто-либо хочет найти информацию, доступную в Интернет, он посещает страницу поисковой системы и заполняет форму, детализирующую информацию, которая ему необходима. Здесь могут использоваться ключевые слова, даты и другие критерии. Критерии в форме поиска должны соответствовать критериям, используемым роботами при индексации информации, которую они нашли при перемещении по Сети.

Проиндексированная информация отсылается базе данных поискового механизма так же, как было описано выше.

II) Этап: После копирования разысканных Web-ресурсов на сервер поисковой системы начинается второй этап работы - индексация. В ходе индексации создаются специальные базы данных, с помощью которых можно установить, где и когда в Интернете встречалось то или иное слово. Индексированная база данных - это своего рода словарь. Она необходима для того, чтобы поисковая система могла очень быстро отвечать на запросы пользователей.

База данных отыскивает предмет запроса, основанный на информации, указанной в заполненной форме, и выводит соответствующие документы, подготовленные базой данных. Чтобы определить порядок, в котором список документов будет показан, база данных применяет алгоритм ранжирования. В идеальном случае, документы, наиболее релевантные пользовательскому запросу будут помещены первыми в списке.

“Операция сортировки полученных результатов называется ранжированием.”

Различные поисковые системы используют различные алгоритмы ранжирования, однако основные принципы определения релевантности следующие:

Количество слов запроса в текстовом содержимом документа (т.е. в html-коде).

Тэги, в которых эти слова располагаются.

Местоположение искомых слов в документе.

Удельный вес слов, относительно которых определяется релевантность, в общем количестве слов документа.

Эти принципы применяются всеми поисковыми системами. А представленные ниже используются некоторыми, но достаточно известными (вроде AltaVista, HotBot).

Время - как долго страница находится в базе поискового сервера. Поначалу кажется, что это довольно бессмысленный принцип. Но, если задуматься, как много существует в Интернете сайтов, которые живут максимум месяц! Если же сайт существует довольно долго, это означает, что владелец весьма опытен в данной теме и пользователю больше подойдет сайт, который пару лет вещает миру о правилах поведения за столом, чем тот, который появился неделю назад с этой же темой.

Индекс цитируемости - как много ссылок на данную страницу ведет с других страниц, зарегистрированных в базе поисковика. База данных выводит ранжированный подобным образом список документов с HTML и возвращает его пользователю, сделавшему запрос. Различные поисковые механизмы также выбирают различные способы показа полученного списка - некоторые показывают только ссылки; другие выводят ссылки с первыми несколькими предложениями, содержащимися в документе или заголовок документа вместе с ссылкой.

III) Этап. Происходит обработка запроса пользователя и выдача ему результатов поиска в виде списка гиперссылок. Затем идет работа пользователя по переработке ссылок, предоставленной базой данных. Когда он щелкает на ссылку к одному из документов, который его интересует, этот документ запрашивается у того сервера, на котором он находится, если информация пользователя на данном сайте его не удовлетворила, он щелкает на другую ссылку. Этот этап может затянутся и оказаться самым сложным для пользователя.


3. Поисковые машины

В Интернете великое множество поисковых машин(поисковых систем), они имеют разные виды, у каждой свои возможности преимущества и недостатки. Пользователя всегда будут одолевать такие вопросы: как искать в Интернете, какая машина лучше. Так что постараюсь ответить на эти вопросы.

3.1 Как искать в Интернете

При поиске в Интернет важны две составляющие - полнота (ничего не потеряно) и точность (не найдено ничего лишнего). Обычно это все называют одним словом - релевантность, то есть соответствие ответа вопросу.

1. Охват и глубина. Под охватом имеется в виду объем базы поисковой машины: который измеряется тремя показателями - общим объемом проиндексированной информации, количеством уникальных серверов и количеством уникальных документов. Под глубиной понимается - существует ли ограничение на

количество страниц или на глубину вложенности директорий на одном сервере.

Как проверить: Некоторые машины пишут на своем сайте статистику робота. Но можно проверить и самому - надо задать несколько поисковых запросов, состоящих из одного слова (чтобы исключить влияние языка запросов, в том числе - различного трактования пробела), и при этом смотреть на статистику результатов, выдаваемую машиной - обычно в начале списка указано, сколько всего было найдено документов. Помимо того, что слова должны быть из разных областей, хорошо еще взять слова разных "весов" - редкие, "средние" и "тяжелые" (частотные), и сравнить количество найденного. Тяжелые слова, в частности, тестируют полнотекстовость (индексацию всех слов документа) поисковой машины.

Глубину хождения робота проверить сложнее - для этого надо взять какие-то сайты, например, с разветвленной структурой архивов, и проверить, проиндексированы ли документы, на которые можно попасть только, например, за 6 переходов по ссылкам.

2. Скорость обхода и актуальность ссылок.

Скорость обхода Сети показывает, насколько быстро происходит индексация свеже-добавленного ресурса и насколько быстро обновляется информация в базе. Важным показателем качества поисковой машины (ее робота) является не только "захват" новых территорий: но и

отслеживание состояния уже охваченных. Сервера исчезают и появляются, страницы на них обновляются. Ссылки, которые выдает поисковая машина в списке найденного, должны, во-первых, существовать, и, во-вторых, их содержание должно соответствовать запросу.

Как проверить: Объективную информацию можно получить, проанализировав логи серверов - робот поисковой машины представляется обычно именем своей машины (или похожим образом), так что можно увидеть, как часто он бывает на сервере, сколько страниц просматривает и т.д. К сожалению, обычно для изучения бывает доступен лог только своего сайта, поэтому остается экспериментальный способ.

Для определения скорости обхода надо создать где-нибудь страничку текста, добавить ее в поисковики и посмотреть, как быстро она начнет находиться. Или изменить уже имеющуюся страничку. Для определения актуальности ссылок - проверить документы хотя бы на первой странице списка найденного по нескольким запросам. Сообщение "Not Found" свидетельствует о том, что документ более не существует.

3. Качество поиска (субъективный показатель).

Каждая поисковая машина имеет свои алгоритм сортировки результатов поиска. Чем ближе к началу списка оказывается нужный вам документ, тем лучше работает релевантность.

Как проверить: Только путем эксперимента. Рекомендуется для сравнения делать запросы разной длины. Можно также использовать язык запросов, при этом те, кому неохота читать описание, могут воспользоваться развернутой страницей запроса ("расширенный поиск" в Апорте и Яндексе, "детальный запрос" в Рэмблере - варианты перевода на русский язык "advanced search").

Кроме релевантности, существуют важные пользовательские характеристики.

1. Скорость поиска. Если поисковая машина отвечает медленно, работать с ней неэффективно. Стоит добавить, что видимая пользователю скорость зависит не только от самой поисковой машины, но и от Интернет-каналов.

Как проверить: Путем эксперимента - надо поискать запросы разной длины, разной "тяжести" слов и в разное время суток (загрузка серверов существенно неравномерна по суткам, пик - около трех-четырех часов дня).

2. Поисковые возможности (работа с языком документа, язык запросов). Еще один пункт сравнения - что именно и как поисковая машина вносит в индекс. Полнотекстовая поисковая машина индексирует все слова видимого пользователю текста. Наличие морфологии дает возможность находить искомые слова во всех склонениях или спряжениях. Кроме этого, в языке HTML существуют тэги, которые также могут обрабатываться поисковой машиной (заголовки, ссылки, подписи к картинкам и т.д.). Язык запросов в виде стандартных логических операторов (И, ИЛИ, НЕ) есть практически у всех машин. Некоторые умеют искать словосочетания или слова на заданном расстоянии - это часто важно для получения разумного результата. Дополнительной возможностью является поиск в зонах документа - заголовках, ссылках, ключевых словах (META KEYWORDS) и т.д. Дополнительная возможность языка запросов - естественно-языковый запрос, который не требует знания операторов.

Как проверить: Обычно эта информация публикуется на сервере поисковой машины (в Help"е). Тем не менее, рекомендуется проверить на реальных запросах, поскольку иногда желаемое выдается за действительное.

3. Дополнительные удобства. Это - дополнительные возможности, которые предоставляет пользователям поисковая машина. Сюда входит всевозможные варианты поиска (специализированные страницы, поиск похожих документов, ограничение области поиска), и список найденных серверов, и поиск по датам и серверам, и удобный интерфейс поисковой машины, и возможность его персонализации.

Как проверить: Информация может быть частично опубликована на сервере поисковой машины, но лучше всего попробовать самому поработать с этими возможностями.

Поисковые машины состоят из поисковых каталогов и поисковых указателей, многие поисковые указатели содержат в себе и каталоги. Рассмотрим их.

3.1 Поисковые каталоги

Любая книга начинается с содержания и заканчивается Алфавитным указателем. Несмотря на то, что они расположены в разных местах книги и выглядят совершенно по-разному, задача у них одна: помочь найти в книге именно тот раздел, который в данный момент нужен. Содержание - это пример каталогизации.

Когда человек выбирает тему, которая ему интересна, по ней он находит номер страницы, где эта тема раскрывается. Алфавитный указатель - пример индексации (по-английски, index - это и есть указатель). Человек находит в указателе нужный термин и получает номер страницы, на которой он встречается.

Каталоги (directories) и отличаются от поисковых систем. Каталоги представляют собой совокупность сайтов, собранных в тематические рубрики. Эти рубрики в свою очередь могут быть разбиты на подрубрики, которые тоже могут иметь еще более мелкие подкаталоги и т.д.

Каталоги с точки зрения пользователя - те же поисковики. Но вот заполняются эти каталоги не "роботами", как на указателях, а самыми что ни на есть живыми людьми. Это очень хорошо для пользователей, так как дает более релевантные результаты по сравнению с поисковыми серверами. От части в поисковом указателе тоже содержится каталог, он представлен в виде оглавлений(гиперссылок) по самым популярным темам.

При каталогизации ресурса опытный редактор внимательно просматривает его, определяет, к какой области знаний относится данный ресурс, устанавливает его категорию в этой отрасли и вносит ресурс в каталог. Самый крупный каталог Интернета - Yahoo (www.yahoo.com). В нем работают более 150 квалифицированных редакторов. Это большая организация, но и ее усилий хватает лишь на то, чтобы поддерживать каталог на уровне примерно 1 миллиона ресурсов. Дальнейшее расширение сдерживается необходимостью


в российской части Интернета в таблице-1.[приложение]

3.3 Поисковые указатели

Поисковые указатели - это автоматизированные системы. Они способны функционировать без участия человека, и потому их знание о подлинных ресурсах Сети намного (на несколько порядков) больше, чем у каталогов. Количество проиндексированных Web-страниц может измеряться сотнями миллионов.

Работа поискового указателя происходит в три этапа, которые указаны в пункте 2.2.

Конкретные рекомендации по выбору поискового указателя очень быстро стареют. Ситуация в Интернете меняется буквально на глазах. Не проходит и полугода, чтобы что-нибудь не изменилось и в поисковых системах. Та система, которая была наилучшей вчера, может быть не самой лучшей сегодня и очень плохой завтра. В тоже время, популярность - вещь хитрая. Она трудно зарабатывается, но потом и долго живет. В итоге мы очень часто встречаемся с ситуацией, когда самой популярной является далеко не лучшая система. Мы поможем читателю научиться самостоятельно проверять разные поисковые системы и выбирать для работы те, которые дают лучшие результаты. При проверке размер поискового указателя не имеет решающего значения. Нам ведь нужны не миллионы ссылок, а всего две-три, но желательно самые лучшие. Поэтому важно не только то, как много Web-страниц проиндексировала поисковая система, но и то, когда она это делала в последний раз, как часто потом проверяла актуальность ссылок и насколько корректно представляет результаты поиска.

Сравнительный обзор поисковых систем.

Подробно рассказывать о том, как пользоваться поисковыми каталогами, нет никакой необходимости. Так как надо просто зайти на сайт выбрать категорию, которая интересует, в ней выбрать раздел, и так далее, пока не откроется список конкретных ссылок.

Значительно интереснее рассмотреть приемы использования поисковых указателей, тем более что для разных указателей эти приемы разные. Но прежде чем приступать к изучению конкретной системы, необходимо рассмотреть общие концепции, равно относящиеся ко всем поисковым указателям, в качестве примера я буду рассматривать такие популярные, и на мой взгляд самые удобные, поисковые уазатели как Yandex и Rambler .

И начну с рассмотрения основных видов поиска. В основном всего четыре вида поиска.

Все поисковые указатели реализуют несколько алгоритмов поиска. К ним относятся: простой поиск, расширенный поиск, контекстный поиск и специальный поиск.

Простой поиск. При простом поиске в поле запроса вводится одно или несколько слов, которые могут характеризовать содержание документа. Если это слово одно, то, как правило, в ответ выдается такое большое количество ссылок, с которым непонятно что делать. Если вводится несколько слов, то результат зависит от того, как эти слова введены, а это, в свою очередь, зависит от конкретной используемой системы. Приемы простого поиска в разных поисковых системах, как правило, свои, и прежде чем ими пользоваться, желательно почитать инструкцию. Простой поиск в Rambler представлен на

рис-8. При введении фразы: Все смешалось в доме Облонских, поисковые указатели выдают следующие результаты: Rambler 9(документов)

Yandex 2400(документов)

Расширенный поиск. Расширенный поиск всегда подразумевает запрос из группы слов. При расширенном поиске в большинстве случаев разрешается связывать ключевые слова логическими операторами AND (И), OR(ИЛИ), NOT(НЕ) и другими. Основное достоинство расширенного поиска состоит в том, что как правила записи ключевых слов и логических операторов в разных системах либо одинаковы, либо очень похожи. Поэтому, усвоив один раз приемы расширенного поиска, можно ими пользоваться где угодно. Надо только предварительно переключить систему в нужный режим (рис-9.)

При введении фразы: Все смешалось в доме Облонских, в расширенном поиске, поисковые указатели выдают следующие результаты: Rambler 9(документов)

Yandex 2400(документов)

Рис-8 Простой поиск в Rambler


Рис-9 Переключение системы в режим расширенного поиска.

Контекстный поиск. Это очень полезный вид поиска, который, к сожалению, реализован не во всех поисковых указателях. Системы, которые его поддерживают, следует ценить особо. При контекстном поиске требуется точное совпадение фразы или группы слов, например “Все

смешалось в доме Облонских”. В большинстве поисковых систем, включающих этот метод, ключевая фраза должна быть заключена в кавычки: "Все смешалось в доме Облонских".(Рис-10)

При введении фразы: ”Все смешалось в доме Облонских”, поисковые указатели выдают следующие результаты:

Rambler 0(документов)

Yandex 8(документов)

Рис-10. Контекстный поиск в RAMDLER.RU


Специальный поиск. С помощью команд специального поиска разыскивают дополнительную информацию. Например, такие команды позволяют определить, как часто в Сети встречаются гиперссылки, указывающие на какой-либо ресурс, с их помощью можно найти ключевые слова,

входящие в заголовки Web-страниц и т.п. Как правило, команды специального поиска в различных поисковых системах свои.

Также необходимо рассмотреть общие правила записи команд поиска.


Общие правила записи команд поиска:

Слова разделенные пробелами

Допустим, пользователю необходимо разыскать Web-страницу, на которых что-то говорится об операционной системе Microsoft Windows. Логично ввести в поле поиска слова Microsoft Windows и ждать результата. Но результат может быть обескураживающим. Одни поисковые системы понимают такую запись как Microsoft И Windows - они дадут то, что пользователь ищет. Другие могут понимать эту запись как Microsoft ИЛИ Windows - тогда будут разысканы все Web-страницы, на которых встречается либо первое слово, либо второе, либо оба вместе. Пользователя, конечно, интересуют только те страницы, на которых оба слова встречаются вместе, но они будут буквально похоронены среди прочих, не нужных ему страниц.

Приступая к работе с незнакомой системой, нужно начинать с проверки, как она обрабатывает группы ключевых слов. Сначала вводится одно слово: Microsoft. Просматривается, сколько результатов выдаст система.

Rambler 28184(документов)

Yandex 1048379(документов)

Затем вводится второе слово: Windows. Опять проверяется количество. Вводятся оба слова: Microsoft Windows.

При введении фразы: Microsoft, поисковые указатели выдают следующие результаты:

Rambler 6641(документов)

Yandex 259276(документов)

Если количество найденных Web-страниц будет больше, чем в первом и во втором случае, значит, система считает, что ключевые слова связаны соотношением ИЛИ (множества объединяются). Если результат будет меньше, чем в каждом из первых испытаний, то система использует соотношение И (множества пересекаются). И в том, и в другом случае придется ознакомиться со справочной информацией, чтобы узнать, как получить противоположный результат. Например, все основные российские поисковые системы по умолчанию между словами ставят оператор И, хотя у системы "Яндекс" есть свои особенности (см. таблицу-2). Там считается, что эти два слова должны одновременно присутствовать не в документе, а в одном предложении. Если достаточно, чтобы они присутствовали в документе, перед каждым словом надо поставить знак <+>. Одновременно возникает обратная задача: как сделать, чтобы разыскивались документы, содержащие одно из заданных - ключевых слов, то есть, как задать соотношение ИЛИ?

"Рамблер": Microsoft OR Windows; (50986 документов)

"Яндекс": Microsoft | Windows; (2034641 документов)

Роль прописных букв

В большинстве поисковых систем “хлеб” не равен “ХЛЕБ”, но “ХЛЕБ”*“хлеб”. Общее правило такое: если клиент ввел строчные символы, то разыскиваются как строчные, так и прописные символы, но если клиент использовал прописные буквы, то ищется точное совпадение только с прописными буквами. Классический пример - Красная Шапочка. Если их ввести именно так, с использованием прописных букв, то будут разысканы только документы, в которых встречается

сочетание Красная Шапочка. Однако если ключевые слова записать как красная шапочка, то будет разыскано больше документов. Через сито отбора пройдут все документы, в которых встречаются сочетания: красная шапочка, Красная шапочка, красная Шапочка и Красная Шапочка. Поэтому не надо злоупотреблять применением прописных букв в запросе и использовать их лишь тогда, когда есть абсолютная уверенность в результате.

Однако некоторые поисковые системы имеют отличия. Так, например, в системе "Рамблер" при индексации все прописные буквы принудительно "понижаются" до строчных. Это означает, что использовать в запросе прописные буквы в этой системе бесполезно.

При введении фразы: Красная Шапочка, поисковые указатели выдают следующие результаты:

Rambler 2921(документов)

Yandex 16458(документов)

Роль зарезервированных слов

Зарезервированные слова - это слова, которые не учитываются при обработке запроса. Во время индексации Web-Страниц программа выбрасывает их из текста, что значительно уменьшает размеры указателей и сокращает время поиска. К зарезервированным словам обычно

относятся неинформативные слова: предлоги, союзы, местоимения, артикли и другие слова малого размера. Так, например, если в системе "Яндекс" задать поиск фразы "Все смешалось в доме Облонских", то будут также разысканы документы, содержащие Что смешалось в доме Облонских? - и Где смешалось? В доме у Облонских? В некоторых системах могут быть зарезервированы слова, которые встречаются исключительно часто и потому не являются информативными. Если, например, система ориентирована на поиск книг, то слово книга для нее не информативное. Слово авто неинформативно для поисковой системы, занимающейся делами автомобильными, а слова компьютер и Интернет неинформативны для систем, ориентированных на поиск информации по вычислительной технике. Особенно важно учитывать роль зарезервированных слов при проведении контекстного поиска т.к. при контекстном поиске необходимо точное соответствие между тем, что заказал пользователь, и тем, что встречается в Web-документах. Если поисковая система на этапе индексации "зачистила" Web-документы от зарезервированных слов, то с контекстным поиском она справиться не может, разве что только "заглянув" в копии Web-страниц, если таковые у нее хранятся, но на это уходит много времени. Поэтому честный контекстный поиск в поисковых системах редкость. В России, например, и Яндекс, и Рамблер только делают вид, что предоставляют возможность контекстного поиска, для этого искомую фразу надо заключить в кавычки. Однако после нехитрых испытаний легко убедиться, что это на самом деле не контекстный поиск, а поиск с точностью до зарезервированных слов. Пример, когда на запрос "Все смешалось в доме Облонских" выдается результат Что смешалось в доме Облонских. В таблице-2 я привожу сравнительную характеристику основных поисковых машин(поисковых систем).[приложение]


4. Сравнительная характеристика двух поисковых систем на базе R а mbler . ru и Yandex . ru


4.1 RAMBLER

Rambler.ru – исторически (до появления Yandex) наиболее популярная поисковая система в России. Она начала работать раньше других и долгое время лидировала по размеру поискового указателя и качеству услуг поиска. Увы, сегодня эти достижения в прошлом. Несмотря на то, что размер поискового указателя "Рамблер" примерно равен 12 миллионам Web-страниц, он давно толком не обновлялся и выдает устаревшие результаты. Сегодня "Рамблер" - это популярный портал, лучшая в России классификационно-рейтинговая система плюс рекламная площадка. (Рис-10)

Приемы поиска в системе Рамблер:

Язык поисковых запросов

Поисковый запрос может состоять из одного или нескольких слов, в нем могут присутствовать знаки препинания. Составлять простые запросы можно и не вдаваясь в тонкости языка запросов. Так, если ввести в поисковую строку несколько слов без знаков препинания и логических операторов, будут найдены документы, содержащие все эти слова (причем на ограниченном расстоянии друг от друга).

Однако знание и правильное применение языка запросов поисковой машины поможет сделать поиск на Рамблере быстрым и эффективным.

Регистр

В общем случае, регистр написания поисковых слов и операторов значения не имеет, то есть дом и ДОМ, Not и nOt воспринимаются одинаково. И лишь иногда, в целях повышения качества поиска, регистр слов поискового запроса принимается во внимание.

Например, если запрос состоит из двух, трех или четырех слов, каждое из которых написано с большой буквы, то предполагается поиск по имени собственному, и автоматически производится изменение ограничения расстояния между словами запроса со значения по умолчанию на величину (n-1)*2, где n - количество слов запроса. Это позволяет находить группу слов запроса, внутри которой есть не более одного "лишнего" слова или знака препинания, например "Баден-Баден", "А. Пушкин", "Федор Михайлович Достоевский".

Операторы

Запрос, состоящий из нескольких слов, может содержать операторы. Поиск операторов в документе не производится, они служат лишь инструкцией поисковой машине. Все операторы поисковой машины бинарные, то есть имеют левую и правую часть, каждая из которых также является запросом (по умолчанию состоящим из одного слова). Для изменения сферы действия операторов (группировки нескольких слов запроса в аргумент оператора) применяются скобки и кавычки. Два запроса, соединенные оператором AND (логическое И) образуют сложный запрос, которому удовлетворяют только те документы, которые одновременно удовлетворяют обоим этим запросам. Иными словами, по запросу "собака AND кошка" найдутся только те документы, которые содержат и слово "собака", и слово "кошка".

Сложному запросу, состоящему из двух запросов, соединенных оператором OR (логическое ИЛИ) удовлетворяют все документы, удовлетворяющие хотя бы одному из этих двух запросов. По запросу "собака OR кошка" найдутся документы, в которых есть хотя бы одно из слов "собака" или "кошка" (либо оба эти слова вместе). Оператор NOT (логическое И-НЕ) образует запрос, которому отвечают документы, удовлетворяющие левой части запроса и не удовлетворяющие правой. Так, результатом поиска по запросу "собака NOT кошка" будут все документы, в которых есть слово "собака" и нет слова "кошка". Если оператор явно не указан, используется оператор по умолчанию AND: находятся только документы, содержащие все слова запроса. Так, запрос "информация технологии кредит" будет истолкован как "информация AND технологии AND кредит". На странице Расширенного поиска оператор по умолчанию можно заменить на OR (Искать слова запроса: хотя бы одно).

Каждый из операторов имеет сокращенное обозначение:

Оператор сокращенное обозначение

Запрос из нескольких слов, перемежающихся операторами, будет истолкован в соответствии с их приоритетом. Операторы AND и NOT традиционно имеют более высокий приоритет, поэтому запрос из нескольких слов при обработке сначала группируется по операторам AND и NOT, и лишь потом по операторам OR. Изменить порядок группировки можно использованием скобок.

Кавычки

Для поиска цитат можно использовать двойные кавычки. Слова запроса, заключенного в двойные кавычки, ищутся в документах именно в том порядке и в тех формах, в которых они встретились в запросе. Таким образом, двойные кавычки можно использовать и просто для поиска слова в заданной форме (по умолчанию слова находятся во всех формах). Например, запросу "самолет "заправился" посадка" удовлетворяет документ, содержащий текст "... самолет совершил посадку и заправился...", и не удовлетворяет документ, содержащий ".. самолет совершил посадку, чтобы заправиться...".

Скобки

При построении запросов иногда возникает необходимость объединения слов запроса в группы, которые будут аргументами некоторого оператора. Такие группы заключаются в скобки. Часть запроса, заключенная в скобки, сама является запросом, и на нее распространяются правила языка построения запросов. Использование скобок

позволяет строить вложенные запросы и передавать их операторам в качестве аргументов, а также перекрывать приоритеты операторов, принятые по умолчанию. Если запрос без скобок "машина самолет | аэродром" эквивалентен запросу "машина AND самолет OR аэродром" и, в соответствии с приоритетами операторов, означает "найти документы, содержащие либо слова "машина" и "самолет", либо слово аэродром, то запрос со скобками "машина (самолет | аэродром)" равносилен запросу "машина AND (самолет OR аэродром)", что означает "найти документы, содержащие слово "машина" и одно из слов "самолет" или "аэродром"".

Метасимволы

Рамблер пока не поддерживает поиск строк с использованием метасимволов ("*", "?"), которые обычно используются в значении "любая подстрока" и "произвольный одиночный символ" соответственно. Тем не менее, эти операторы зарезервированы для подобного использования в будущем.

Применение языка запросов

Каждый запрос, адресованный поисковой машине Рамблера, обрабатывается в соответствии с правилами языка запросов. Некоторые слова и символы трактуются как операторы языка запросов и обрабатываются специальным образом. Фактически, языком запросов описывается некая формула, которая используется при поиске - каждый из документов "сопоставляется" с ней, и результатом поиска являются только те документы, которые ей удовлетворяют. Например, запросу "самолет" удовлетворяют все документы, в которых хотя бы раз встретилось слово "самолет" в любой форме. Запросу, состоящему из нескольких слов, удовлетворяют документы, содержащие каждое из этих слов в любой форме (при некоторых условиях). Вопрос соответствия документа более сложному запросу определяется логикой операторов и конструкций языка запросов.

Морфология

По каждому слову запроса поиск ведется с учетом правил словоизменения соответствующего языка. Рамблер понимает и различает слова русского и английского языков - по умолчанию, поиск ведется по всем формам слова. Например, при поиске по слову "человек" будут также найдены документы, содержащие слова "человеку", "человеком", "человека" и даже "люди". Чтобы провести поиск только по одной определенной форме слова, нужно взять его в двойные кавычки или воспользоваться поиском точной фразы в расширенном поиске.

Стоп-слова

Некоторые слова и символы по умолчанию исключаются из запроса в связи с их малой информативностью. Это так называемые стоп-слова - самые частотные слова русского и английского языков, например, предлоги, частицы и артикли. Присутствие этих слов может замедлить поиск и негативно повлиять на полноту результатов. Есть возможность обозначить необходимость этих слов в запросе, взяв запрос в двойные кавычки или воспользовавшись поиском точной фразы в расширенном поиске.

Ограничение расстояния

Если запрос составлен из одного или нескольких слов без применения операторов и конструкций языка запросов, то будут найдены документы, в которых встречаются все слова запроса. При этом для каждого запроса всегда существует так называемое ограничение контекста - положительное число, по умолчанию равное расстоянию в 40 слов. Документ, в котором встретились все слова запроса, будет выдан только в том случае, если расстояние в словах между вхождениями слов запроса будет меньше этого числа. Например, по запросу "красная армия" будут найдены те документы, в которых слова "красная" и "армия" хотя бы один раз встретятся менее чем в 40 словах друг от друга. Значение ограничения контекста можно изменять конструкцией "(число, запрос)", где число - любое положительное число, запрос - любой корректный с точки зрения поисковой машины запрос, состоящий более чем из одного слова (очевидно, ограничение расстояния между словами в случае однословного запроса не имеет смысла). Таким образом, по запросу "(2, красная армия)" найдутся только те документы, в которых между словами "красная" и "армия" хотя бы раз не стоит ни одного слова (поскольку лишь в случае их непосредственного соседства разница в порядковых номерах слов меньше 2, т.е.равна 1)

Ненайденные слова

Если запрос состоит из нескольких слов, и при этом некоторые из них вообще не удалось найти в Интернете, то выдаются результаты поиска по частичному запросу, из которого отсутствующие в Интернете слова исключены. При этом на странице результатов поиска выдается соответствующая диагностика.


Сортировка результатов

По умолчанию найденные документы сортируются по релевантности (соответствию запросу). Однако Вы можете потребовать, чтобы вместо этого в начало списка были помещены самые свежие (или, наоборот, самые старые документы). Для этого надо выбрать соответствующую установку в меню "Сортировать по..." на странице детального запроса. Можно также ограничить поиск документами, созданными в определенный период времени: для этого необходимо на странице детального запроса указать "От даты... до даты...".

Расстояние между словами

Можно потребовать, чтобы Рамблер возвращал только те документы, где слова из запроса находятся на минимальном расстоянии друг от друга. Режим "Ограничить расстояние между словами" может быть включен в детальном запросе. Все перечисленные выше правила могут быть использованы совместно друг с другом в необходимой последовательности.

Выдача результатов

По умолчанию результаты поиска выдаются порциями по 15 документов. Меню "Выдавать по..." на странице детального запроса позволяет увеличить это число до 30 или 50. Меню "Форма вывода..." позволяет получать описания документов с увеличенной или уменьшенной подробностью.


4.2 YANDEX

Yandex.ru - поисковая машина, способная по запросу найти наиболее подходящие web-страницы в русской части Интернета. Яндекс ежедневно просматривает сотни тысяч Web-страниц в поисках изменений или новых ссылок. Коллекция ссылок постоянно растет. Яндекс не требует знания специальных команд для поиска. Яндекс отыщет всех, кто сослался на страницу, файлы с нужной картинкой, последние новости или товары в электронных магазинах. В основе системы "Яндекс" самый большой указатель - примерно 27 миллионов Web-страниц, но дело не только в размере. Это не просто указатель на ресурсы, а указатель на самые актуальные ресурсы. По уровню актуальности "Яндекс" сегодня безусловный лидер (рис.4)

Приемы поиска в системе Яндекс

Прежде чем приступать к описанию языка запросов системы Яндекс, отмечу, что он заметно мощнее и сложнее языков запросов других отечественных поисковых систем. Впрочем, обыкновенному пользователю не надо пугаться. Даже если он очень не любите читать и, тем более, изучать инструкции, то он может работать с системой интуитивно.

В принципе, система Яндекс использует в работе эвристические алгоритмы, которые не совсем строгие математической точки зрения. В результате пользователь может получить разные результаты, например, если будет искать документы со словами Буш Гор выборы и выборы Буш Гор. Зато благодаря этим алгоритмам интуитивный подход к созданию запросов (без чтения инструкций) дает очень хороший результат, к тому же за очень краткое время.

Поиск по одному слову

Когда пользователь вводит искомое слово в поле поиска и нажимает кнопку Найти, то слова разыскиваются с учетом всех возможных словоформ, что особенно важно для русского языка. Например, если введено слово снег, то будут найдены документы, в состав которых входят слова снега, снегов и т. п., но не снежный, заснеженный и т. п. Если же поиск словоформ не требуется, то его можно отменить с помощью восклицательного знака, например!снегом.

Поиск по группе слов

Если слова разделены пробелом, то разыскиваются документы, в которых в одном предложении встречаются все введенные слова. Так, по запросу Буш Гор выборы

система выдает документы с фразами типа... Накануне выборов хакеры взломали сайты Буша и Гора. Среди результатов такого поиска возможны нестрогие соответствия - поисковая система проявляет свой интеллект. Чтобы строго обеспечить появление слов в предложении, надо перед ними поставить знак +, например так: +Буш +Гор +выборы. Знак + должен записываться слитно с тем словом, к которому относится (без пробела). Пробел выполняет роль оператора И, который также можно ввести явно (символ &), например так: +Буш& +Гор& +выборы. Справа и слева от логического оператора должны быть пробелы.

Если же требуется одновременное присутствие слов не только в предложении, но и во всем документе, применяется оператор &&, например: +Буш&& +Гор&& +выборы.

Теперь рассмотрю приемы исключения слов из поиска. Для этого применяются: знак - (строгое исключение из предложения), знак ~ (нестрогое исключение из предложения) и знак ~~ (исключение из всего документа). Так, например, запрос +Буш +Гор ~~выборы позволит

отобрать документы, в которых в одном предложении встречаются слова Буш и Гор, но во всем документе нет слова выборы и его производных (выбор, на выборах, после выборов и т. п.).

В тех случаях, когда надо объединить ключевые слова с помощью оператора ИЛИ, используется символ | (вертикальная черта). Так, например, запрос Буш | Гор&& +выборы отберет документы, в которых упоминается либо Джордж Буш, либо Алъберт Гор, но обязательно

встречается слово выборы.

Поиск с указанием расстояния

Давным-давно в поисковых Системах появился оператор NEAR, позволяющий находить документы, в которых два слова расположены близко друг к другу. Правда, что такое "близко" каждая система понимает по-разному. В поисковой системе Яндекс можно конкретно указать, на каком расстоянии друг от друга эти слова должны находиться.

В документе у каждого слова есть свой номер позиции. Номера позиций двух соседних слов различаются на единицу (номер позиции слова, находящегося справа, больше). Оператор расстояния записывается как /+n, где n - число, соответствующее расстоянию. Например, оператор /+1 соответствует двум словам, идущим подряд, то есть Microsoft/+1 Windows - это то же самое, что и "Microsoft Windows".

Оператор расстояния может иметь и отрицательное значение. Это означает, что второе слово, указанное в запросе, должно в документе располагаться раньше первого. Например запрос Microsoft/-5 Windows может дать ссылку на документ, содержащий фразу об операционных системах, которые заменят Windows, рассказал ответственный представитель компании Microsoft.

При проведении поиска с указанием расстояния можно задавать не точное расстояние между словами, а диапазон, например /(-5 +5). В этом случае будут отобраны документы, в которых слова, указанные в запросе в качестве ключевых, попадают в заданный диапазон. На самом деле, если знак параметра не указан, то это тоже поиск в диапазоне. Так, оператор /5 надо рассматривать на самом деле как диапазон /(-5 +5). Запрос Буш/ 5 Гор разыщет предложения типа: Женщины симпатизировали Бушу, а мужчины - Гору или Гор Буша не слаще.

Система - Яндекс имеет довольно сложные правила языка запросов (по сравнению с Рамблером), но зато у нее обширные возможности. К примеру, расстояния можно измерять не только между словами, но и между предложениями. Эта единица измерения используется, когда в запросе применен двойной знак && или ~~. Так, запрос Буш/+1&&Гор выдаст документы, в которых слова Буш и Гор встречаются либо в одном предложении, либо в соседних.

Использование скобок

Задание на поиск - это, по сути дела, логическое выражение, которое работает как фильтр при просмотре документов, входящих в базу данных поисковой системы. В

логическом выражении точно так же, как и в арифметическом, можно применять круглые скобки. Они служат для управления порядком действий. Характерный пример: Буш&Гор&(выборы | голосование). Такой запрос вернет ссылки на Web-страницы, содержащие предложения, в составе которых есть слова Буш, Гор, выборы или Буш, Гор, голосование.

Управление ранжированием

Цель ранжирования - сделать так, чтобы Web-страницы,

наиболее оптимально соответствующие запросу, отображались в списке результатов как можно раньше. Какие алгоритмы при ранжировании применяет поисковая система, это ее дело. Пользователи либо довольны их работой, либо обращаются к другой поисковой системе. В системе Яндекс есть возможность самостоятельно изменить алгоритм механизма ранжирования с помощью весовых коэффициентов. Такой коэффициент можно присвоить любому ключевому слову или целому выражению, если оно заключено в скобки: Весовые коэффициенты вводятся через двоеточие, например Буш:5 Гор выборы. При таком запросе документы, в которых слово Буш встречается чаще, получают преимущество и отображаются в результирующем списке на более высоких позициях.

Еще один прием управления ранжированием связан с уточняющим словом. Это такое слово, которое не обязательно должно содержаться в отбираемых документах, но если оно там есть, то этот документ получает преимущество при ранжировании. Уточняющее слово вводится после знаков <_. Например, при поиске по ключевым словам Гор Буш<_младший выборы получат преимущество Web-страницы, в которых речь идет не просто о Джордже Буше, а о Джордже Буше-младшем.

Специальный поиск

Особняком стоят приемы поиска информации, содержащейся в специальных полях заголовков Web-страниц (каждая Web-страница имеет служебные поля в своем заголовке) или поиск специальных элементов, входящих в Web-страницы, например гиперссылок. В системе Яндекс команды специального поиска в полях заголовка начинаются

с символа $, а команды поиска отдельных элементов Web-страниц - со знака #. Все средства специального поиска работают заметно медленнее по сравнению с обычными.

Команда

Описание

Пример

Пояснение

$title (выражение)

Поиск ключевых слов, указанных в выражении, выполняется только в заголовках Web-страниц


$title (Космос)


Разыскиваются только Web-страницы, в заголовках которых имеется слово Космос (рис. 7.10)



Поиск ключевых слов, указанных в выражении, выполняется только в якорях внутренних ссылок Web-страниц


$anchor (вступление)


Внутренние (выражение)


#keywords = (выражение)


#keywords - (новости)



#abstract = (выражение)


Поиск в аннотации Web-страницы

#abstract = (Буш | Гор)


#image = "имя "файла"


Поиск файлов иллюстраций по их имени


#image -"Bush.*"

Если заранее неизвестно, какое расширение может иметь имя файла, применяют подстановочный символ “*”, который замещает любое количество произвольных символов


#hint -(выражение)

Поиск слов в альтернативном тексте иллюстраций


(Буш | Гор)



#url = " URL -адрес"

Поиск сайта или Web-страницы


#uri.= "www.anysite.ru"


Обычно используется для локализации поиска. Например,чтобы ограничить круг поиска одним сайтом или, наоборот, исключить его из области поиска


#link -адрес"

Обычно используется " URL - для выявления Web-страниц, на которых имеются гиперссылки, ведущие к собственной странице


Заключение

Мне удалось полностью раскрыть поставленные вопросы и разобрался в данной теме(как осуществить эффективный поиск в Интернете?). Я убедился на своем опыте, что в наш век высоких технологий эффективный поиск информации не разрешим и остался одной из главнейших проблем. Это я могу объяснить следующим.

Во-первых, это не совершенство самих поисковых машин, ставящих под сомнение вообще какой либо поиск.

Поисковым машинам не хватает упорядоченности, структуры, структурности, структуризации, а также системы, систематизации, систематизированности, роботы большинства поисковых машин приносят огромное число бесполезных гиперссылок,

Во-вторых, неопытность пользователей т.к. искать и находить нужное в ворохе текстов в Интернете - умение не только поисковой системы, но и пользователя, задающего вопрос.

В-третих, алчность пограмистов, и рекламных агенств их нанимающих, желающих чтобы их сайты запрашивались как можно чаще. Эти "алчные" програмисты обманывают роботов и выдают в Интернет сайт в котором якобы есть нужная для пользователя информация, а там рекламные буклеты или автоматическая гиперссылка запрашивающая рекламный сайт или еще хуже платный сайт. Хотя специалисты обслуживающие поисковые машины и борются с таким явлением, оно все равно с каждым днем приобретает все масштабные размеры.

На сегодня, Интернетом используются как справочником 23% пользователей, инструментом исследования 15%, развлечением 14%, и только как источником новостей 12%.

Не мнение оптимистично звучит что 10% пользователей всегда, а 73% часто удается найти нужную информацию.

На такой вопрос какая поисковая машина лучшая и какой я предпочту пользоваться, отвечу таким образом: пользоваться надо той машиной какой удобнее, и мне удобнее пользоваться Яндексом.

Интернет облегчил поиск, и потребовал специфических знаний о поиске, на сегодня он не всегда эффективен, мы находимся только на заре его развития. И поэтому не стоит забывать о старом не менее эффективном поиске информации это книги и библиотеки, этот источник информации оправдывал себя со времен "Александрийской библиотеки", а Интернет только в скором будущем будет более эффективен и станет почти незаменим.

Список использованной литературы


1.Андрей Аликберов "Несколько слов о том, как работают роботы поисковых машин".

#"#">Используется язык поисковой машины Яndex

Поиск по фразе

Префиксы

Итеративный поиск (в результатах)

После входа щелкните More…

замена части слова

* (не всегда корректно)


Таблица-2

Сводная таблица по ведущим поисковым машинам


Я ндекс

Апорт!

AltaVista

Зона поиска, объем базы данных

Русская часть Интернета. Поиск по страницам сайтов из раздела каталога, по регионам. Специальный поиск по новостям, товарам, картинкам.

Русская часть Интернета.

Русская часть Интернета. Специализи-рованный поиск по новостям, товарам, картинкам, MP3

Специализи-рованный поиск по новостям, товарам, развлечениям, аудио (MP3) и видео.

Специализи-рованный поиск по университе-там США, Apple, Linux, BSD

Объем базы на начало 2001 года

Более 31 миллионов документов

Более 12 миллионов документов

Более 14 миллионов документов

Более 250 миллионов документов

1,25 миллиарда страниц

Тип индексации

полнотекстовая индексация

полнотекстовая индексация

полнотекстовая индексация

полнотекстовая индексация и индексация по ссылкам

Наличие дополнительных сервисов

Система объединяет поисковую машину и каталог, а также ряд дополнительных проектов (Закладки.Ру, Народ.Ру, система интеллектуального выбора товаров, CY и пр.).

Система объединяет поисковую машину, каталог и дополнительные сервисы (интернет-покупки и др.)

Система объединяет поисковую машину, каталог и ряд дополнительных сервисов (хостинг, регистрация доменного имени, перевод и др.)

Система объединяет поисковую машину и каталог, содержащий 15 разделов и 1,5 миллиона Web-страниц.

Синтаксис языка поиска

логическое И

пробел или & (в пределах предложения)&&(в пределах документа)

AND, &, пробел между словами по умолчанию

И, AND, &,+, пробел между словами по умолчанию

AND, & (только при сложном поиске)

по умолчанию для всех слов поиска

логическое ИЛИ

OR (по умолчанию при простом поиске), | (только при сложном поиске)

бинарный оператор И-НЕ

~ (в пределах предложения)

~ ~ (в пределах документа)

не используется

заменяется префиксным оператором "-" (AND - пробел по умолчанию)

AND NOT, ! (только при сложном поиске)

заменяется префиксным оператором "-"

префиксы обязательных (+) и запрещенных (-) слов

не используются

+, - (только при простом поиске)

группирование слов

не используется

расстояние между ключевыми словами при поиске

/(n m) - в словах, &&/(n m) - в предложениях (- назад, + вперед)

при расширенном поиске - выдача документов только с минимальным расстоянием между словами

сл2(...), с2(...), w2(...), (- назад, + вперед)

NEAR (в пределах10 слов, только при сложном поиске)

не используется

поиск фразы

символы замены части слова

*, ? (замена любого символа)

* (только в конце слова)

ограничение по языку документа

выбор: любой, кириллица, латиница

выбор: любой, русский, английский

выбор: русский, английский

выбор из 25 языков

выбор из 25 языков

морфология

все склонения и спряжения по умолчанию, ! (поиск точной словоформы)

# (все формы слов), @ (однокоренные слова)

! (указание нормальной формы)

поиск по датам

ограничение поиска по полям

Поиск в заголовках, адресах, названиях документов (только при расширенном поиске). Поиск похожих документов.

Возможности расширенной формы, качество помощи

настройка расширенной формы

настройка словарного фильтра, настройки по дате, по сайту, ссылке, изображению, специальному объекту

по документу, дате, режимам AND, OR, расстоянию между словами, усечению слова

по документу, заголовку, изображению дате, 5 разделам (сайты, МР3, картинки, товары, новости)

по булевскому вопроснику, дате, по сайту, ссылке, изображению, тексту и пр.

настройка вывода результатов

задание числа результатов на странице, формы вывода

задание формы выдачи

задание числа результатов на странице, всех элементов формы вывода

задание числа результатов на странице, всех элементов формы вывода

ранжирование результатов поиска

сортировка по релевантности или дате

по популярности сайта

по терминам, указанным в SORT

по цитируемости (ссылок на страницу с других страниц)

итеративный поиск (в результатах поиска)

Да. Выполняется с помощью установки флажка

Да. Выполняется с помощью переключателя области поиска

Выполняется с помощью установки флажка

Выполняется с помощью

качество раздела помощи

имеется детальное описание языка запросов, таблица синтаксиса и раздел по поиску в категориях

краткий раздел HELP

подробный справочник по языку запросов, есть много русских синонимов для основных операторов

самый большой из рассмотренных в этой таблице учебник on-line по языку запросов

очень ограниченный раздел HELP

семейный фильтр