ПОИСК Статьи Рисунки Таблицы Диалоговые поисковые системы — основные функции и возможности из "Поиск химической информации" Рассмотрим основные функции типичных диалоговых поисковых систем и средства, с помощью которых они реализуются. [c.34] Выбор базы данных. Информация, которой располагает система, обычно делится на части, которые называются базами данных. Разумеется, нет ничего невозможного в том, чтобы предоставить пользователю возможность обратиться сразу ко всем документам и иным записям, хранящимся в системе. Однако это неудобно, и прежде всего для пользователя. В самом деле, чем больше объем базы, тем сложнее провести поиск, постепенно отделяя нужное от ненужного так стоит ли заставлять химика предпринимать дополнительные усилия, чтобы отсеять информацию, интересную только, скажем, для врача Кроме того, при работе с такой огромной и разношерстной базой возникли бы терминологические проблемы и т. д. Поэтому поисковые системы обычно предоставляют для поиска базы данных, соответствующие тому или иному информационному изданию и формируемые на основе подготавливаемых тем же издательством магнитных лент. Соответственно состав баз данных неоднороден есть тематические базы данных, охватывающие литературу по определенной области знания, такие как hemi al Abstra ts , есть базы данных, охватывающие документы одного вида, например диссертации, научно-технические отчеты либо патенты наконец, существуют базы данных, формируемые с учетом как тематики, так и видов документов, например тематические базы данных ВИНИТИ содержат информацию только об опубликованных источниках — статьях, книгах, патентах и т. д. — по естественным наукам и технике и не включают, например, отчетов о научно-исследовательских работах последние составляют предмет баз данных Всесоюзного научно-технического информационного центра (ВНТИЦентра). [c.35] Однако и тематические базы данных, как правило, оказываются слишком большими, особенно когда речь идет о поиске с ретроспективой в десятки лет. В этом случае они дополнительно делятся по годам или как-либо иначе. [c.35] В некоторых поисковых системах все предоставляемые ими базы данных доступны в любой момент работы системы так обстоит дело, например, с больщинством зарубежных поисковых систем. В других случаях, когда технические возможности не позволяют дать всем пользователям доступ ко всем базам одновременно, они предоставляются по расписанию таким образом, например, в разные дни недели доступны разные базы данных. Некоторые поисковые системы сразу подключают пользователя к определенной базе как правило, это справочные базы, где нельзя вести поиск научной информации, а можно только получать справки о работе самой поисковой системы. Выбор рабочей базы в таком случае оформляется как смена баз (см. ниже). [c.36] Еще о структуре данных. Прежде чем перейти к поисковым операциям, полезно еще раз остановиться на представлении данных в поисковых системах с инвертированными файлами, т. е. на их собственной точке зрения на информацию, с которой работает пользователь и которую они ему предоставляют. [c.36] Выще уже отмечалось, что базы данных состоят из записей, разделенных на некоторые части. Раньще мы часто называли эти записи документами теперь настало время отметить, что это словоупотребление, хотя и обычное, не совсем точно. До недавнего времени действительно поисковые системы работали почти исключительно с записями, содержащими описания документов. Теперь это не так скажем, во многих базах по химии записи содержат описания химических соединений, а не документов. Есть базы данных, в которых записи описывают другие объекты — программы для ЭВМ, те или иные изделия и т. д. Ясно, что поисковой системе не важно, какой смысл имеют записи, для нее важна их формальная структура. Поскольку в конечном счете поисковые и иные команды формулируются именно в терминах таких формальных структур, для работы с диалошвыми поисковыми системами необходимо иметь ясное представление о них. [c.36] Структуры данных, с которыми работают поисковые системы, сложились в то время, когда подавляющее большинство баз данных содержало описания документов. Поэтому в качестве примеров будут использоваться именно они более общие случаи не требуют дополнительных пояснений. [c.36] В данном случае ясно, что при поиске по запросу типа АСИММЕТРИЧЕСКИЙ СИНТЕЗ полезно следить за тем, чтобы соответствующие слова находились в одном предложении в противном случае будут выданы лишние документы, как говорят специалисты, по поиску шум . Далее важно отметить, что не все текстовые параграфы являются поисковыми некоторые из них нельзя использовать в запросах. Это ограничение вводится по разным причинам одни из них связаны с техническими ограничениями (сделать поле поисковым — значит, пойти на существенные дополнительные затраты ресурсов компьютера, в частности дисковой памяти). Поиск по некоторым данным просто не нужен, например по номерам страниц журнала, где опубликована статья. Какие поля поисковые, а какие нет, сообщается в руководствах для пользователя по работе с конкретными базами данных. Каждая поисковая система вольна здесь принимать собственные решения, которые могут отличаться для разных баз данных например, в одной поиск по рефератам возможен, в другой — нет. [c.37] можно вести поиск по словам из текстов поисковых полей. Как правило, при формировании индексов происходит чистка — малоинформативные слова удаляются. Это прежде всего относится к предлогам, союзам, артиклям и т. п. лексике в некоторых случаях удаляют также чересчур часто встречающиеся слова, вроде слова система — их использование мало что дает для поиска, однако сильно загружает компьютер. [c.37] Кроме текстовых параграфов, стандартная структура записей включает форматные поля, которые не делятся на слова. Их используют преимущественно для того, чтобы упорядочить или уточнить результаты поиска по текстовым параграфам по признакам, которые сформулированы кратко и точно. Например, форматные поля записи позволяют ограничить множество выданных документов по дате выпуска, стране издания, языку, виду публикации — статья, книга, патент и др. [c.37] Перейдем теперь к описанию основных поисковых функций и типичных способов работы с ними. [c.38] Основным режимом работы поисковых систем является поиск по текстам текстовых параграфов. В некоторых случаях он вызывается командой без операндов, например. . ПОИСК или. . SEAR H. В других случаях система сама переходит в этот режим после того, как закончила работу в любом другом режиме, в том числе после подключения к новой базе данных. [c.38] В режиме поиска по текстам можно вводить запросы и получать сведения о результатах их-обработки (но не сами результаты). Запросы нумеруются подряд начиная с единицы счет продолжается обычно до смены базы данных, а после нее начинается заново. Номер запроса может быть использован в других запросах и командах, но только до того, как произошла смена базы после этого, если не принять специальных мер (о них ниже), система забывает о ранее введенных запросах. [c.38] В простейшем случае запрос состоит из одного слова. В ответ на такой запрос система сообщает, сколько раз данное слово встретилось в текстах записей указанной базы данных и в скольких записях оно имеется. Если результат ненулевой, т. е. слово встретилось хотя бы один раз, результат поиска (список номеров документов) запоминается и в дальнейшем может быть использован при вызове документов на дисплее для чтения. [c.38] Чуть более сложный случай — когда слово указывается не полностью, а частично. Это означает, что в запросе задается только начало слова, за которым следует специальный знак (обычно или П), означающий, что годятся любые продолжения. Например, в системе ВИНИТИ по запросу, содержащему слово АВТОМАТ П. найдутся документы, в которых есть слова АВТОМАТ, АВТОМАТИКА, АВТОМАТИЧЕСКИЙ и т. п. В таком случае говорят, что используется оператор усечения (trun ation). Обычно поисковые системы позволяют не только игнорировать остаток слова, но и указывают ограничение на длину этого остатка. Например, в системе ВИНИТИ запрос АВТОМАТ Q 2 найдет слова АВТОМАТ, АВТОМАТЫ и т.п., но не найдет слова АВТОМАТИКА — в нем превышено ограничение в два знака на длину остатка. [c.39] НЕ (NOT) — взять из первого все элементы, кроме входящих во второй. [c.40] Вернуться к основной статье