World Wide Web — Всемирная паутина (§ 12) | Средства поиска информации в WWW (11 кл. 68 ч. sim)


Планирование уроков на учебный год (по учебнику Семакина И.Г.) 2 часа в неделю


Уроки 24 - 29
Организация и услуги Интернет (§§ 10 - 12)
Практическая работа 2.1. "Интернет. Работа с электронной почтой и телеконференциями"
Практическая работа 2.2. "Интернет. Работа с браузером. Просмотр Web-страниц"
Практическая работа 2.3. "Интернет. Сохранение загруженных Web-страниц"
Практическая работа 2.4. "Интернет. Работа с поисковыми системами"



Содержание урока

Урок 24. Организация глобальных сетей (§ 10

Интернет как глобальная информационная система (§ 11)

World Wide Web — Всемирная паутина (§ 12)

Системные основы WWW

Средства поиска информации в WWW

Вопросы и задания

Практикум. Практические работы 2.1 - 2.4


World Wide Web — Всемирная паутина (§ 12)


Средства поиска информации в WWW


Как уже говорилось выше, WWW — это система web-страниц, связанных между собой гиперссылками. Однако эти связи не имеют регулярности, как, например, в иерархической структуре данных. В этом смысле можно говорить о том, что система web-страниц не структурирована.

Единственной координатой web-документа является его URL-адрес. Однако URL-адрес никак не связан с содержанием документа. Но поиск данных осуществляется именно по содержанию. Как же в такой ситуации можно выполнять поиск нужной информации в паутине?

В поиске информации в WWW пользователю помогает поисковая служба Интернета — услуга поисковых серверов. Существуют две разновидности поисковых серверов: поисковые каталоги и поисковые указатели.

Поисковые каталоги. Если вам приходилось пользоваться услугами больших библиотек, то вы знаете, что такое библиотечный каталог. Существуют алфавитные и предметные каталоги. В алфавитных каталогах карточки с библиографическими данными книг разложены в алфавитном порядке фамилий авторов. В предметных каталогах карточки систематизированы по содержанию книг.

Систематизация в предметном каталоге производится по иерархическому принципу. На первом уровне иерархии весь книжный фонд делится на крупные разделы: художественная литература, учебная литература, общественно-политическая литература, научно-техническя литература и т. п. Каждый из этих разделов делится на подразделы; например, учебная литература делится на разделы высшего, среднего, дошкольного образования. Книги для среднего образования могут делиться по предметам, которые, в свою очередь, делятся по классам. Чтобы подобрать литературу по нужной теме, читатель должен понимать принцип организации каталога.

Поисковые каталоги WWW организованы по аналогичному иерархическому принципу. Только в них систематизируется информация не о книгах, а о документах, хранящихся в World Wide Web. На главной странице поискового каталога располагается список основных тематических разделов (рубрик). Например: финансы и экономика, государство и право, наука и образование, компьютеры, политика и т. д. Каждое имя в этом списке является внутренней гиперссылкой поискового каталога. Щелчок мышью по гиперссылке вызывает на экран список заголовков следующего подраздела и т. д. Очевидно, такая система подобна дереву файловой системы. Перемещаясь по дереву внутренних гиперссылок каталога, пользователь в конечном итоге получает список внешних ссылок на искомые web-документы.

Поисковые каталоги заполняются вручную специалистами, обслуживающими данную службу. При ручном способе отбора невозможно получить в каталоге исчерпывающую информацию о ресурсах Сети, и в этом состоит основной недостаток каталогов. Однако такой способ классификации исключает ссылки на случайные документы, не имеющие отношения к указанной теме. Таким образом, поисковые каталоги при относительно небольшом охвате ресурсов Сети обеспечивают хорошее качество подборки документов.

Примерами русскоязычных поисковых каталогов являются:

Yandex — http://yaca.yandex.ru;

Mail.ru (List.ru) — http://www.mail.ru;

Russia on the Net — http://www.ru.

Поисковые указатели. Другое название этого вида поисковой службы — поисковые машины. Очень часто в учебной и научной литературе в конце книги присутствуют предметные указатели — это перечень основных терминов с указанием страниц, на которых они встречаются. Например, в учебнике по информатике вы ищете в таком списке слово «процессор», напротив которого указаны номера страниц. Затем на этих страницах читаете всё, что написано о процессоре.

Принцип работы поисковых указателей заключается в создании и использовании индексных списков — аналогов книжных предметных указателей.

Задачи поисковых машин состоят в формировании индексных списков, охватывающих как можно большее число документов паутины, а также в ответах на запросы клиентов. Ясно, что таким способом проиндексировать вручную все документы WWW невозможно. Их число давно перевалило за миллиард. Поэтому поисковые машины строят индексные списки автоматически.

Основной составляющей поисковых машин являются программы просмотра web-документов, которые называют по-разному: роботами, червяками, пауками и пр. Наверное, наиболее подходящим названием является «пауки», если уж сеть WWW называть паутиной! Непрерывно, днем и ночью, они сканируют всё информационное пространство WWW, просматривая все документы, определяя в них ключевые слова и записывая в свою базу индексов данное слово с указателем на документ, в котором оно присутствует. Этот процесс не прерывается, поскольку содержание паутины всё время меняется и дополняется. Даже в уже просмотренные документы авторы могут внести изменения или вообще удалить их. Поисковая машина всё время должна поддерживать информацию в актуальном состоянии.

Эффективность работы поисковой машины зависит от используемых алгоритмов формирования базы указателей. Эти алгоритмы представляют «know how», т. е. объекты интеллектуальной собственности авторов, и обычно держатся в секрете. Число указателей к некоторым ключевым словам составляет многие тысячи. Чем лучше алгоритм, тем меньше в индексный список попадает «мусора» — случайных документов, не имеющих отношения к теме поиска.

В отборе наиболее важных документов пользователю помогает рейтинговый принцип, используемый некоторыми поисковыми указателями. На запрос пользователя по ключевому слову система выдает список ссылок на документы, расположенные по убыванию рейтинга. Рейтинг определяется по числу обращений к документу, которые были сделаны ранее. Самые популярные документы попадают в начало списка.

Число поисковых указателей превышает число поисковых каталогов. Популярными в России указателями являются:

Апорт 2000 — www.aport.ru;

Рамблер — www.rambler.ru;

Yandex.ru — www.yandex.ru;

Google — www.google.ru.

Поисковая служба Google работает как в международном, так и в российском секторе Интернета и является самой популярной.

image

Следующая страница Вопросы и задания









Наверх