previous up next index search
Previous: 4.5.12 WAIS    UP: 4.5 Процедуры Интернет
    Next: 4.5.14 Современные поисковые системы

4.5.13 Система поиска файлов Archie

Семенов Ю.А. (ИТЭФ-МФТИ)
Yu. Semenov (ITEP-MIPT)

ARCHIE (В настоящее время утилита устарела и не используется. Статья сохранена для понимания эволюции Интернет) - информационная система с наиболее эффективной системой поиска. Система разработана Аланом Эмтейджем, Питером Дойчем и Билом Хееланом из университетского вычислительного центра McGill, Канада. ARCHIE осуществляет поиск по более чем 1000 депозитариям мира допускающим анонимный доступ и содержащим более 2100000 файлов. ARCHIE работает под Windows, MS-DOS, Macintosh, Unix в рамках сети INTERNET. Рекомендуется следовать следующим правилам (в последнее время система стала менее популярна, ее функции взяли на себя поисковые сервера):

Базы данных ARCHIE располагаются по адресам:

Адрес ARCHIE Страна Число шагов из ITEPNet *)
archie.au (139.130.4.6) Австралия 23
archie.edvz.uni-linz.ac.at (140.78.3.8) Австрия  
archie.univie.ac.at (131.130.1.23) Австрия 17
archie.uqam.ca (132.208.250.10) Канада 21
archie.funet.fi (128.214.6.102) Финляндия 9
archie.th-darmstadt.de (130.83.128.118) Германия 13
archie.doc.ic.ac.uk (146.169.11.3) Англия 16
archie.ac.il (132.65.16.8) Израиль 19
archie.cs.huji.ac.il (132.65.6.15) Израиль  
archie.unipi.it (131.114.21.10) Италия 12
Archie.uninett.no (128.39.2.20) Норвегия  
archie.kuis.kyoto-u.ac.jp Япония 29
archie.wide.ad.jp (133.4.3.6) Япония  
archie.kr Корея  
archie.sogang.ac.kr (163.239.1.11) Корея  
archie.rediris.es (130.206.1.2) Испания 12
archie.nz (130.195.9.4) Новая Зеландия 25
archie.luth.se (130.240.18.4) Швеция 15
archie.switch.ch (130.59.1.40) Швейцария 15
archie.ncu.edu.tw (140.115.19.24) Тайвань  
archie.ans.net (147.225.1.10) США 23
archie.internic.net (198.49.45.10) США 16
archie.rutgers.edu (128.6.18.15) США  
archie.sura.net (128.167.254.179) США  
archie.unl.edu (129.93.1.14) США 20

*) Число шагов величина непостоянная и может изменяться со временем, сильно зависит от используемого маршрута.

Имеется возможность доступа к ARCHIE через локальный клиент-сервер, через команду telnet или с помощью электронной почты. В настоящее время доступна версия сервера 3.0. Команды, помеченные ниже (+) работают только с версией 3.0, помеченные же (*), работают только с предшествующими версиями. Для определения версии, с которой вы работаете, выдайте команду version. Локальные серверы работают быстрее и надежнее. В публичном доступе имеются версии для MS-DOS, OS/2, VMS, NeXT, Unix, X-windows и Macintosh. Клиент-серверы доступны через анонимный FTP в каталогах /pub/archie/clients ли /archie/clients, обычно это строчные варианты. Существует и графическая версия (xarchie) для X-windows. Стандартное обращение к ARCHIE имеет форму:

ARCHIE <-options> последовательность символов | образ

где options могут быть:

o определяет имя выходного файла для запоминания результата.
l список найденных объектов по одной строке на документ.
t сортирует результат поиска по датам.
m# определяет максимальное число найденных документов (# от 0 до 1000), по умолчанию это число равно 95.
H archie-server специфицирует сервер, куда посылается запрос, в отсутствии этого параметра используется сервер по умолчанию, если такой описан.
L список известных серверов, включая текущий.

Например, команда (SUN): archie -L выдаст на экран:

Known archie servers:

archie.ans.net (USA [NY])
archie.rutgers.edu (USA [NJ])
archie.sura.net (USA [MD])
archie.unl.edu (USA [NE])
archie.mcgill.ca (Canada)
archie.funet.fi (Finland/Mainland Europe)
archie.au (Australia)
archie.doc.ic.ac.uk (Great Britain/Ireland)
archie.wide.ad.jp (Japan)
archie.ncu.edu.tw (Taiwan)
* archie.funet.fi is the default Archie server.
* For the most up-to-date list, write to an Archie server and give it the command `servers'.

Следующая группа options определяет разновидность поиска.

s объект будет выбран, если имя файла/каталога содержит заданную последовательность символов. Поиск не зависит от того, строчные или заглавные буквы использованы в эталонной последовательности.
c как и выше, но для поиска не безразличны строчные/заглавные буквы.
e последовательность символов должна точно совпадать с образцом, с учетом использования заглавных и строчных символов. Это способ поиска по умолчанию.
r поиск образов, которые включают в себя специальные символы, интерпретируемые до начала поиска.

Результатом поиска может стать список FTP-адресов файлов или каталогов, соответствующих критериям отбора, указывается размер файлов, дата последней модификации и имя каталога, где этот файл лежит.

Для интерактивного попадания в ARCHIE-сервер используется команда telnet, в ответ на login следует ввести archie. Для того чтобы покинуть ARCHIE-сервер используются команды: exit, quit, bye. Кроме того, существуют следующие команды:

help ? Выдает полный список команд
help <имя команды> Выдает описание команды, возврат с помощью клавиши <Enter>.
help set variable Выдает описание присвоения значения системной переменной.
list <образ> Выдает список IP-адресов баз данных и дат их последней коррекции. Параметр, если он присутствует, обеспечивает отбор адресов с учетом соответствия этому параметру. Если нет параметра, то список будет содержать около 1000 адресов. list \.de$ даст адреса в Германии.
manpage Отображение страницы руководства по использованию Archie
servers Выдает список серверов Archie
site (*) site-name Получение списка каталогов и субкаталогов депозитария с именем site-name. Обычно это очень длинный список.
whatis <строка> Осуществляет поиск описания программы для string.
prog <строка>|<образ> find(+)<строка>|<образ> Осуществляет поиск строки <строка> или образа <образ>, представляющий название искомого ресурса. Поиск может выполняться несколькими способами, определяемыми переменной search (команда set), которая также определяет, следует ли интерпретировать параметр как string или pattern. Результат представляет собой список FTP- адресов, размеров найденных объектов и дат последней модификации. Число объектов в списке ограничивается переменной maxhits (команда set). Результат prog может быть отсортирован в соответствии с величиной переменной sortby (команда set). По умолчанию переменные search, maxhits и sortby устанавливаются соответственно на точное соответствие string, 1000 объектов без сортировки результата
mail <email>, <email2...> Отсылает результат поиска по электронной почте по заданному адресу. При команде без параметров результат отсылается по адресу, заданному переменной mailo (команда set).
show <переменная> Отображает значение переменной с данным именем. В отсутствии параметра отображаются все переменные.
set <переменная> <значение> Устанавливает значение одной из переменных ARCHIE.

Используются следующие переменные:

compress(+) метод_архивации

Задает метод архивации (none или compress), используется до отправки почты командой mail. По умолчанию none.

encode(+) метод_кодирования

Определяет метод кодирования (none или uuencode), используется при отправке по почте. Эта переменная игнорируется, если компрессии нет. По умолчанию none.

mailo email <,email2...>

Определяет e-mail адрес, куда будет послан результат, при выдаче команды без аргумента.

maxhits number

Определяет максимальное число отобранных объектов командой prog (0-1000). По умолчанию эта переменная равна 1000.

search search-value

Определяет вид проводимого поиска: prog string | prog string | pattern. search-values равны:

sub Частичное совпадение и независимость от заглавная/сточная.
subcase То же, но не безразлично заглавный/сточный символы.
exact Точное соответствие образцу.
regex pattern Интерпретируется перед началом поиска.
sortby sort-value Описывает то, как сортировать результаты поиска по команде prog. Значения sort-values (параметр сортировки):
hostname Сортировка по FTP-адресам в лексическом порядке
time Сортировка по дате модификации, более поздние сначала.
filename Сортировка по именам файлов или каталогов в лексическом порядке
none Никакой сортировки
size Сортировка документов по размеру

term terminal-type <number-of-rows<number-of-columns>>

Сообщает ARCHIE, какой терминал используется.

Доступ через электронную почту

Пользователи могут получить доступ к ARCHIE через электронную почту, послав запрос по адресу archie@archie.ac.il. Команды посылаются в теле сообщения. Командные строки начинаются всегда с первой колонки. Поле subject рассматривается как строка самого сообщения. При этом допустимы следующие команды:

help Присылает файл HELP, при этом другие команды сообщения игнорируются.
path return-address set mailto(+) return-address Определяет обратный адрес, отличный от того, что записан в заголовке
list pattern <pattern2...> Выдает список адресов, где есть данные, соответствующие pattern, наиболее свежие по дате
site(*) site-name Выдает список каталогов и субкаталогов по адресу site-name
whatis string <string2...> Ищется в базе данных описание программных продуктов, где содержится string. Прописные или строчные буквы роли не играет
prog pattern <pattern2...> find(+) pattern <pattern2> Поиск всех упоминаний ресурсов с именем pattern. Если несколько pattern помещено в одной строке, результат поиска будет прислан в одном сообщении. Если несколько prog помещено в строке, результат присылается в нескольких сообщениях, по одному на каждый prog. Результат представляет собой список адресов для FTP. Если pattern содержит пробелы, он должен быть заключен в кавычки. Поиск не зависит от того, заглавные или строчные буквы использованы в запросе.
compress(*) Полученный результат будет архивирован и перекодирован с помощью uuencode. В результате будет получен файл с расширением .Z. Сначала по получении сообщения следует обработать с помощью uudecode, а после этого следует выполнить программу uncompress
set compress(+) compress-method Специфицирует метод архивирования (none или compress) перед отправкой по почте. По умолчанию none
set encode(+) encode-method Специфицирует метод кодирования (none или uuencode) перед отправкой по почте. По умолчанию none.
quit Ничего не производит, полезна в случае автоматического добавления подписи в конце сообщения.
Description of pattern pattern Описывает последовательность символов, включая специальные символы. Символ перестает быть специальным, если перед ним стоит "\".

К числу специальных символов относится:

. (точка) Заменяет любые другие символы (wildcard).
^ Появляется в начале pattern. При этом будет искаться будет последовательность, следующая за "^". Например: "^efgh" узнает "efgh" или "efghij" но не "abcdefgh".
$ Появляется в конце pattern. Так, например: "efghi$" узнает "efghi" или "abcdefghi" но не узнает "efghijkl".

Если вы послали команду list \.de$ по электронной почте или с помощью Telnet, вы получите следующий отклик:

alice.fmi.uni-passau.de 132.231.1.180 12:31 8 Aug 1993
askhp.ask.uni-karlsruhe.de 129.13.200.33 12:25 8 Aug 1993
athene.uni-paderborn.de 131.234.2.32 15:21 6 Aug 1993
bseis.eis.cs.tu-bs.de 134.169.33.1 00:18 31 Jul 1993
clio.rz.uni-duesseldorf.de 134.99.128.3 12:10 8 Aug 1993
cns.wtza-berlin.de 141.16.244.4 16:08 31 Jul 1993

и т.д.

Если вы пошлете команду whatis compression по почте или посредством Telnet, вы получите следующий результат:

RFC 468 Braden, R.T. FTP data compression 1973 March 8; 5p.
arc PC compression program
deltac Image compression using delta modulation
spl Splay tree compression routines
squeeze A file compression program
uncrunch Uncompression program
unsqueeze Uncompression programs (Пример взят из [1])

В ответ на команду find AMPS, вы получите:

Host goliat.eik.bme.hu (152.66.115.2)

Last updated 00:02 3 Jan 1995
Location: /pub/win3/util
FILE -r--r--r-- 145312 bytes 11:18 22 Dec 1994 amps13.zip

Host nic.switch.ch (130.59.1.40)

Last updated 01:17 11 Dec 1994
Location: /mirror/novell/netwire/novuser/01
FILE -rw-rw-r-- 177681 bytes 02:14 1 Nov 1994 amps15.zip

Host faui43.informatik.uni.erlangen.de (131.188.1.43)

Last updated 01:31 11 Dec 1994
Location:
/mounts/epix/public/pub/pc/windows/cica_mirror/util
FILE -r--r--r-- 145312 bytes 00:00 2 Jun 1994 amps13.zip

Host ftp.luth.se (130.240.16.39)

Last updated 17:53 13 Dec 1994

FILE -r--r--r-- 145312 bytes 01:00 1 Jun 1994 amps13.zip

Host ftp.cyf kr.edu.pl (149.156.1.8)

Last updated 17:50 3 Jan 1995
Location: /pub/mirror/ami/chipset_guides
FILE -rw-r--r-- 111858 bytes 00:00 4 Apr 1994 scampsx.z06
FILE -rw-r--r-- 46677 bytes 00:00 4 Apr 1994 scampsx.z07

Это лишь фрагмент выдачи реально она много длиннее. Видно, что один и тот же документ найден в нескольких депозитариях. Если у вас есть вопросы об ARCHIE, пишите Archie Group, Bunyip Information Systems Inc. по адресу info@bunyip.com. В случае обнаружения ошибок, а также с комментариями следует обращаться по адресу archie-admin@bunyip.com. По вопросам, связанным с конкретными серверами можно обратиться по адресу archie-admin@address.of.archie.server, например, archie-admin@archie.ac.il. Список адресов для рассылки информации находится по адресу: archie-people@bunyip.com; для включения в подписной лист можно послать запрос по адресу: archie-people-request@bunyip.com.


Previous: 4.5.12 WAIS    UP: 4.5 Процедуры Интернет
    Next: 4.5.14 Современные поисковые системы