ПОИСК Статьи Рисунки Таблицы Появление компьютерных поисковых систем из "Поиск химической информации" Как только типографские машины традиционного образца были заменены техникой подготовки фотогранок, управляемой компьютерами, появились базы данных. Первые такие базы были просто побочным продуктом автоматизации работы типографий. Распространение технологии электронной подготовки изданий продолжалось около десяти лет. Однако, как известно, потребность в автоматизации тем выше, чем больше объем производства естественно, поэтому выпуск информационных изданий по химии был переведен на новую технологию одним из-первых (так было и у нас в стране, и за рубежом). [c.28] Базы данных, которые появились в начале 70-х гг. для разных областей знания, имели практически идентичную структуру. Каждая запись содержала библиографическое описание одного документа, снабженное поисковым образом. Последний имел не одинаковый состав и структуру в различных базах, однако отличия эти были несущественны. Обычно в поисковый образ документа попадали ключевые слова — те же, что помещались в указателях к реферативным журналам, а также индексы различных классификаций — например, шифры тематических рубрик соответствующих журналов, индексы УДК, Международной классификации изобретений и т. п. Что касается формальной структуры представления -информации в базах данных, то разнообразие применявшихся решений и здесь былоневелико оно ограничивалось ассортиментом средств описания форхматов данных, предоставлявшихся системами ввода и вывода данных в тогдашних компьютерах. Таким образом, появилась реальная возможность осуществлять поиск в базах данных по различным областям знания с помощью одних и тех же программных систем. Появление таких систем не заставило себя ждать. [c.29] ИРИ — традиционный режим информационного обслуживания в СССР им занимаются в основном отраслевые и региональные центры информации. При этом они обычно используют многие базы данных часть из них они изготовляют сами, однако основные базы данных поставляются им в готовом виде из наиболее крупных информационных центров страны — ВИНИТИ, ИНИОН, НПО Поиск и др. Программные средства для построения систем ИРИ существуют в нескольких вариантах, обладающих, вообще говоря, различными возможностями, однако эти различия с точки зрения результата не очень существенны. Среди наиболее употребительных в нащей стране пакетов программ для введения ИРИ следует назвать УСС, разработанный в Чехословакии, а также АСОД и МУЛЬТИПЛЕКС, разработанные в Международном центре научно-технической информации. [c.30] Перечень основных баз данных, которые можно использовать в таких системах для поиска информации по химии, приведен в Приложении 2 см. также каталог баз данных [6]. [c.30] Основные недостатки режима ИРИ и поисковых систем, -обеспечивающих этот режим информационного обслуживания иоиск ограничен узкими временными рамками, а процесс уточнения запроса происходит без непосредственного участия наиболее авторитетного и заинтересованного лица — его автора. Системы, в которых эти недостатки до известной степени преодолеваются, были разработаны несколько позднее и ориентировались на другие, более мощные вычислительные машины. Это так называемые системы с инвертированными файлами, обеспечивающие быстрый поиск и активное взаимодействие с пользователем при обработке формулировки запроса, которые обычно действуют в режиме теледоступа. Поскольку такие системы занимают значительное место в современной практике информационного обслуживания, а возможности некоторых из них обсуждаются ниже, имеет смысл кратко остановиться на принципах работы подобных систем. [c.30] Действительно, рассмотрим печатный указатель к тому, по которому требуется найти нужный материал, скажем, о промышленном получении вещества А из веществ Б. Что для этого-надо Получить по указателю список отсылок к сведениям об А например, в виде номеров документов, рефератов или страниц. Затем нужно сделать то же самое для Б и слов ПРОМЫШЛЕННОЕ ПОЛУЧЕНИЕ. Необходимо также путем прямого-перебора и сравнения отобрать общую часть этих отсылок и получить, скажем, номера рефератов документов, в которых с высокой вероятностью содержатся нужные сведения. Современные указатели, правда, пытаются облегчить этот процесс путем расширения записей — в них сообщается аспект рассмотрения понятия, по которому мы входили в указатель, типа ПОЛИЭФИРЫ СЛОЖНЫЕ, ПРОМЫШЛЕННОЕ ПОЛУЧЕНИЕ. Это экономит время, однако не является панацеей — интересующие нас сведения могут не попасть в одну запись указателя,, если на каждый документ их заводят несколько. Если реализовать такой же процесс на компьютере, поиск слова в указателе (в данном случае он называется словарем или индексом) вместе с перебором отсылок к нескольким словам происходит настолько быстро, что становится возможным поиск информации на глубокую ретроспективу — скажем, в несколько лет. Это особенно важно для химии, где сведения, например о способах синтеза, не устаревают в течение очень и очень продолжительного времени. [c.31] основой систем рассматриваемого типа является индекс. Он позволяет отвечать на каждый индивидуальный запрос настолько быстро, что становится возможной работа в режиме диалога. Поэтому слова системы с инвертированными файлами и диалоговые информационно-поисковые системы часто-употребляются как синонимы. [c.31] Инвертированный файл — это средство перебора отсылок к документам. Его называют инвертированным, т. е. переставленным, вывернутым, потому что он получается из текстов рассыпанием их на слова и упорядочением слов по алфавиту. Сами -слова, как мы уже говорили, хранятся в индексе инвертированный файл в узком смысле — это адресная книга по всем документам системы. Записи в ней, связанные с записями индекса, включают всю информацию, необходимую для работы со словами при поиске номер документа, из которого слово взято, номер или имя поля (заглавие, реферата и т. п.), номер предложения и сведения о положении слова в этом предложении (позднее мы покажем, как используется эта информация). [c.32] Для работы с диалоговыми системами очень важно, что за- просы можно произвольно комбинировать друг с другом, например вести поиск по запросу А среди результатов поиска по запросам Б и В это — основной инструмент уточнения. Такая возможность обеспечивается точно так же, как и поиск по одному слову результат обработки запроса образует список номеров документов, примерно такой же, как в инвентированном файле, хотя, возможно, менее подробный. Следовательно, для использования результатов независимо отработанных запросов (в сочетании с другими признаками) не требуются дополнительные программные возможности, которые принципиально отличались бы от возможностей поиска по отдельным словам н их сочетаниям. [c.32] Общность основной идеи и близость структур баз данных привели к тому, что существующие диалоговые поисковые си- стемы по возможностям мало отличаются друг от друга. Пакеты программ, с помощью которых они строятся (в настоящее время у нас распространены, например, ПОИСК-1, 2, ДИАЛОГ-2, СВ5/1515/ЕС), представляют примерно одинаковые логические возможности если какие-то отличия и есть, то они имеют технический характер и с точки зрения пользователя не слишком существенны. В то же время все такие системы бывают по-разному настроены применительно к конкретным базам данных эти различия настройки, диктуемые, в частности, конфигурацией конкретного вычислительного комплекса и соображениями экономии ресурсов, гораздо существенней, чем различия пакетов программ. Так, при работе с одной и той же базой данных можно заложить в систему возможность поиска по всем полям, но можно и ограничить число поисковых признаков, например, если расход дисковой памяти слишком велик. [c.32] Вернуться к основной статье