Основы Интернет

Часть 4. Хранение и поиск
информации в Интернет.

logo Фонд
Исследования
Аграрного
Развития


01.12.98, Москва

Чардин Иван Сергеевич, ic@rc.msu.ru

  • Введение. Web-публикации и гипертекст.
  • Броузер – программа доступа к WWW
  • Специфика Российской Сети. Кодировки
  • Поисковые сервера и их типы
  • Процедура добавления ресурса Интернет в поисковый сервер
  • Пример гипертекстового документа
  • Технологии Web



    Введение. Web-публикации и гипертекст.

    Гипертекст - способ нелинейной организации текста с помощью использования гиперссылок. Сетевой гипертекст характеризуется тем, что гиперссылки связывают его с другими (гипер)текстами. Во Всемирной Паутине гиперссылка может также указывать на графику, видео или звуковую информацию, кроме того, такая информация может здесь являться составной частью текста.

    Всемирная паутина - механизм доступа к сетевому гипертексту, работает в архитектуре клиент-сервер. Клиент - специализированная программа - броузер, сервер - специальное программное обеспечение.

    Язык коммуникации - протокол HTTP (Hyper-Text Transfer Protocol) - протокол передачи гипертекста.

    Самый популярный web-сервер Apache (~50%) - свободное ПО.
    Самый популярный броузер Netscape Navigator - свободное ПО.

    Web-публикация - совокупность гипертекстов, объединенных общим информационным наполнением, оформлением, авторством.

    Для создания гипертекстов применяется язык HTML (Hyper-Text Markup Language) - язык разметки гипертекстов.

    Иногда между клиентом и сервером находится так называемый proxy-сервер (он же кэш-сервер). Он ускоряет доступ к документам в Сети.

    Броузер – программа доступа к WWW

    Со времени создания HTML в 1991 году язык претерпел серьезные изменения, его возможности существенно расширились. Развитием стандарта HTML занимается W3Консорциум - http://www.w3c.com.

    Различные версии HTML в разной степени поддерживаются различными броузерами - программами доступа к WWW.

    HTML обратно совместим, т.е., например, правильный документ на HTML 2.0 также является правильным документом в HTML 3.0.

    Номера версии броузера показывает номер последней поддерживаемой им спецификацией HTML (эмпирическая закономерность + совместное развитие, может в любой момент нарушиться).

    Самые популярные броузеры в Сети - Netscape Navigator и Microsoft Internet Explorer. Первый является свободным ПО (с открытым исхоныи кодом), второй - бесплатно распространяется в двоичном коде.

    Текущая версия HTML - 4.0. Текущие версии броузеров Netscape и Explorer - 4.5 и 4.02 соответственно.

    Рассмотрим подробнее Netscape Naivgator версии 4.5:

  • Адресная строка (location).
  • Навигация: вперед (forward) – назад (back), стоп (stop), обновить (reload).
  • Поиск по загруженному документу средствами броузера (Ctrl+F, Edit->Find in Page...).
  • Закладки (bookmarks) - одноименное меню.
  • Настройка proxy-сервера (Edit->Preferences->Advanced->Proxies).
  • Сохранение/открытие документа (производится через меню File).
  • Показать исходный текст просматримаевого HTML-документа (Ctrl+U, View->Page Source)
  • При работе с WWW через медленный канал выключить загрузку картинок (Edit->Prefernces->Advanced->Automatically load images)

    Специфика Российской Сети. Кодировки

    CP - Code Page, кодовая страница

    КОИ - Код общего использования. КОИ8 (8 бит) - UNIX.

    CP-1251 - MS Windows - кроме Windows NT и Windows 98.

    CP866, MS-DOS - также известна как Альтернативная (ALT)

    ISO-8859-5 - первой была стандартизована. Никем никогда не применялась.

    Основные кодировки русской сети - КОИ8 и Win1251. Выбор той или иной кодировки - вопрос религиозного исповедания. Основной почтовый трафик - КОИ8. Большая половина WWW - CP-1251.

    В Netscape Navigator кодировка динамически меняется в меню View->Encoding.

    Пример: работа с сервером издательства Инфоарт.

    Поисковые сервера и их типы

    Индексы и каталоги. Поиск по ключевым словам/секциям. Последнее время интенсивно интегрируются.

    В двух словах о стратегии поиска. Сужение-расширение критериев.

    Разбор страницы ответа поискового сервера на примере запроса к Altavista.

    Список основных англоязычных поисковых серверов:

  • http://altavista.digital.com
  • http://www.yahoo.com
  • http://www.hotbot.com
  • http://www.infoseek.com
  • http://www.northernlight.com

  • http://ftpsearch.ntnu.no - поиск по ftp-серверам c web-интерфейсом. Яркий пример удачной интеграции различных служб Сети на основе Web.

    Список основных русскоязычных поисковых серверов:

  • http://www.rambler.ru
  • http://www.yandex.ru
  • http://www.aport.ru
  • http://www.au.ru - каталог
  • http://www.ru - каталог

    Специализированные каталоги. Пример: Агрорус

    Процедура добавления ресурса Интернет в поисковый сервер

    Кнопка Add или Submit. На примере добавления ресурса в Рэмблер.

    Пример гипертекстового документа

    HTML документ состоит из текста и HTML маркеров - тегов. Теги представляют собой заключенные в угловые скобки маркеры. Открывающие и закрывающие теги. Теги не могут пересекаться, но могут быть вложенными. См также список тегов (англ).

    Разберем пример простейшего HTML-документа:

    <html>
    
    <head>
    
    <title>
    Это заголовок
    </title>
    </head>
    
    <body bgcolor=lightblue link=green vlink=darkred alink=red>
    <center>
    <p>Здесь обычно находится текст.
    
    <p>А так выглядит ссылка. Она поможет нам 
    <a href="www.htm#6">вернуться обратно</a> в документ с презентацией.
    
    <p><i>Так можно вставить картинку, если файл с ней 
    уже лежит в той же директории, что и наш HTML документ:</i>
    <p><img src="spider.gif">
    </center>
    </body>
    
    </html>
    

    Посмотреть, что получится.

    Технологии Web

    CGI (Common Gateway Interface) - Стандарт, определяющий порядок запуска HTTP-сервером внешних программ. Через CGI осуществляется формирование документа по запросу пользователя. Именно так, «на лету», поисковый сервер формирует документ с результатами поиска по запросу.

    Perl - получивший широчайшее распостранение в связи с WWW язык программировния. В частности, подавляющее большиство CGI-программ пишется на Perl, который из-за этого называют рабочей лошадкой Всемирной паутины.

    Image map (clickable) - Изображение в HTML-документе, при нажатии мышью на различные области которого активизируются соответствующие ссылки. К примеру, если image map представляет собой политическую карту мира, то при выборе какой-либо страны могла бы выдаваться информация о ней.

    Animated gif - расширение формата хранения изображений gif, позволяющее хранить в одном файле последовательность кадров, создающих анимацию. Анимации в формате animated gif вставляются в HTML документ как обычное изображение; в последнее время получили огромное распространение.

    Java - мощный объектно-ориентированный, переносимый язык программирования, при разработке которого особое внимание уделялось вопросам сетевой безопасности, созданный в 1995 году компанией Sun Microsystems и активно продвигаемый на рынок. Программы для Интернет, написанные на языке Java, носят название applet и являются платформо-независимыми, то есть один и тот же код может исполняться на разных компьютерах, оснащенных разными операционными системами.

    Javascript - также разработанный компанией Sun Microsystems язык программирования для создания простых программ, встроенных в HTML-документы, который компания Netscape Communications некогда встроила в свой броузер Netscape Navigator, и сегодня этот простой в освоении язык, код на котором всегда доступен для изучения, составляя часть HTML-документа, опережает по популярности и распространенности язык Java.

    ActiveX - ответ компании Microsoft на появление Java. ActiveX представляет собой реализацию OLE для работы через Internet. В последнее время выявился ряд конструктивных недостатков этой технологии, главным из которых является принципиальная невозможность обеспечить безопасность данных на компьютере пользователя.


    © ФИАР 1998