Поиск в базах данных

из "Аналитическая химия Том 2"

Основой поиска в спектральных и структурных базах данных служат меры сходства и расстояния между объектами, описанные в разд. 12.5. Существуют различные стратегии поиска последовательная, основанная на обращенных списках, иерархическая. Рассмотрим эти стратегии на примере поиска спектральных данных. [c.587]
Этот вид поиска основан на побитовом сравнении измеренного спектра с возможными кандидатами из базы данных. Последовательный поиск целесообразен только тогда, когда объем рассматриваемых данных невелик либо требуется сопоставление измеренного спектра со всеми имеющимися в базе данных. [c.587]
В остальных случаях более эффективно использование сортировки данных в соответствии со значениями ключевых позиций. [c.588]
В этом методе поиска задают желаемые значения данных в выбранных ключевых позициях. Из объектов, содержащихся в базе данных и удовлетворяющих заданным условиям, создают отдельный файл (обращенный список). Пример такого списка применительно к поиску в базе ИК-спектров приведен на рис. 13.2-6. Здесь в качестве ключевых значений использованы волновые числа в максимумах поглощения. [c.588]
Обращенный список содержит информацию обо всех спектрах, удовлетворяющих заданным условиям. Каждый спектр сопровождается его шифром (идентификационным номером). [c.588]
В основе иерархического представления спектров или структурных формул лежит группировка объектов с помощью некоторой меры подобия. Теоретические основы этой процедуры изложены в разд. 12.5.2 применительно к кластерному анализу. При поиске в базах данных основная проблема состоит в выборе метрики, подходящей для описания сходства спектров или структурных формул. [c.588]
Кроме того, возможности группировки большого массива даш1ых могут быть ограничены доступными объемами компьютерной памяти. [c.589]
Сопоставление полных спектров возможно на основе мер коррелированности или сходства. Мерой коррелированности служит коэффициент корреляции между спектрами (вычисляемый по уравнению 12.5-79, разд. 12.5.4). Спектры из базы данных располагают в порядке убывания коэффициентов корреляции между ними и спектром неизвестного вещества (табл. 13.2-9). Спектр с наивысшим коэффициентом корреляции может соответствовать искомому веществу. Для гарантии достаточной степени сходства устанавливают допустимый нижний предел коэффициента корреляции. [c.589]
Обычно коэффициент корреляции используют для сопоставления УФ-спектров — особенно часто в ВЭЖХ с регистрацией с помощью диодной линейки. [c.589]
Для ускорения поиска можно использовать предварительную группировку данных. Для этой цели используют неконтролируемые методы распознавания образов — в частности, метод главных компонент, факторный анализ, кластерный анализ (ср. разд. 12.5.2) или метод нейронных сетей. Затем неизвестный спектр относят к одному из полученных классов. [c.590]
Для улучшения классификации очень важен правильный выбор классификационных признаков. Например, в масс-спектрометрии для классификации очень редко используют исходные спектры как таковые. Взамен этого спектры представляют в виде набора их признаков. [c.590]
Сопоставление спектров возможно также с помощью логических операций (см. табл. 13.1-2). Для этого необходимо представить спектры в двоичной (битовой) форме. Возможно двоичное представление исходных спектров, но чаще используют двоичное представление классификационных признаков — производных от исходных данных. Логические операции затем используют для оценки расстояний между полученными векторами двоичных данных. [c.590]
Здесь у — г-я компонента двоичного вектора данных для неизвестного спектра, уР — для спектра из базы данных, ар — число компонент вектора данных (например, длин волн). [c.590]
В рассмотренных примерах в основе сопоставления спектров лежит их представление в форме двоичных векторов. Иной тип логических операций применим к данным, представленным в форме множеств. Их используют в случаях, когда размерность (число данных) изменяется от спектра к спектру. Типичными примерами могут служить ИК-спектры или капиллярные хроматограммы, представленые в виде набора положений пиков. Рис. 13.2-9 иллюстрирует этот способ сравнения двух спектров. Для спектра, представленного в базе данных, положения пиков считают свободными от погрешностей, а возможные положения пиков в неизвестном спектре характеризуют с помощью интервалов. Для сравнения обоих спектров обычно используют операцию И , соответствующую операции пересечения множеств. В случае нечетко вьфа-женных интервалов сравнение спектров проводят на основе теории нечетких множеств. [c.591]
Если структурные формулы закодированы через составляющие их фрагменты, то возможен предварительный отбор подходящих структур. Сопоставление формул неизвестного и предполагаемого веществ осуществляется после представления их в векторном виде с помощью операции логического И . [c.591]

Вернуться к основной статье

Справочник химика 21

Химия и химическая технология