Спектроскопические данные из многих источников

из "Распознавание образом в химии"

Работа [5] посвящена исследованию комбинации ИК-спектров, масс-спектров и данных о температурах плавления-и кипения как характеристике образа химического соединения. Здесь весьма важное значение приобретают соображения о динамическом диапазоне изменения параметров, поскольку данные из разных источников выражены в произвольных масштабах. Если экспериментальные данные, полученные по одной методике, по величине превосходят результаты опытов, проведенных по другой методике, то первые окажут преобладающее влияние на результат распознавания образов. Если же данные, полученные двумя методами, отнести к одному динамическому диапазону, то признаки образа можно выделить из данных двух источников и в результате достичь высшей прогнозирующей способности. [c.36]
В спектре. Следовательно, каждый такой ИК-спектр состоял из совокупности 130 упорядоченных чисел. Исследуемые соединения отвечали обшей формуле С1 юН1 240о 4Мо з. Каждый образ соединения, сос1авленный из масс-спектра и ИК-спектра, имел по 262 компоненты. Из 291 такого образа 191 произвольно отбирали в обучающую выборку, а остальные 100 — в контрольную. [c.37]
При объединении данных двух разных источников в единый образ поведение обучающейся машины сильно зависит от относительного вклада данных каждого из двух (или нескольких) типов. [c.37]
Чтобы оценить эффект комбинирования данных из разных источников, соединения классифицировали по наличию одной или нескольких двойных связей. Попытки осуществить такую классификацию исходя только из ИК Образов или только из масс-спектрометрических образов не принесли заметного успеха, о чем можно судить по данным, приведенным в первых двух разделах табл. 3.2. В каждом их этих двух случаев брали 125 исходных параметров (координат) и путем обычной процедуры отбора признаков отбрасывали те из них, которые из-за относительно малой величины соответствующих компонент весовых векторов считались сравнительно малозначащими. В случае ИК-спектров прогнозирующая способность, составлявшая 82%, начинала быстро убывать, когда оставалось менее 50 параметров. В случае масс-спектрометриче-ских данных прогнозирующая способность находилась на уровне 87% затем она медленно убывала с уменьшением числа параметров, пока оно не доходило до 20 после этого прогнозирующая способность быстро падала до уровня случайного угадывания. Масс-спектрометрические данные тоже не обеспечивали сходимости в пределах отведенного числа коррекций через обратную связь, когда оставалось менее 50 параметров. [c.37]
В разд. 5 табл. 3.2 приведены результаты нормировки образов, кэг-да вклады данных обоих источников в полную амплитуду векторов образов множества одинаковы. Интенсивности ИК-полос для всей совокупности данных приравнивались сумме интенсивностей всех пиков в масс-спектрах для той же совокупности. В этом случае исходная прогнозирующая способность составляла 90% и оставалась весьма высокой, пока число компонент образа не становилось меньше 20. Даже в том случае, когда оставалось всего 10 компонент, прогнозирующая способность все еще была равна 75% при распознающей способности 82%, что намного лучше, чем случайное угадывание. Интересно отметить и то, что как масс-спектрометрические, так и ИК-компоненты сохранялись на протяжении всей процедуры уменьшения числа параметров. [c.40]
Данные, приведенные в разд. 6 табл. 3.2, свидетельствуют о дальнейшем улучшении классифицирующей способности, достигаемом добавлением к вектору образа температур плавления и кипения. Отметим, что в каждом случае дополнения температурами плавления и кипения общее число параметров было на два больше, чем для образов, комбинированных только из масс-спектрометрических и инфракрасных данных. Сравнение этих результатов с данными, приведенными в разд. 5 табл. 3.2, показывает, что заметного улучшения не наблюдается, пока число параметров остается не меньше 30, поскольку прогнозирующую способность и скорость сходимости в этих двух случаях можно считать приблизительно одинаковыми. Однако добавление к компонентам образов температур кипения и плавления приводит к тому, что обучающаяся машина все еще обнаруживает сходимость даже при 20 параметрах, сохраняя на этом уровне приблизительно 90%-ную прогнозирующую способность. Более того, для 10 параметров она все еще заметно выше, чем в прочих случаях. Процедура принятия решения, которая использовалась для исключения параметров, мало способствующих классификации, оставляет сведения о температурах плавления и кипения почти до самого конца расчетов. [c.40]
При помощи аналитического оборудования, например ИК- и масс-спектрометров, зачастую легче получить точные сведения о параметре, по которому делается отсчет, например, о длине волны в первом случае и массе во втором, чем об измеренной интенсивности. Поэтому полезно уметь оценивать степень важности информации об интенсивности. В табл. 3.3 приведены данные подобной оценки результатов классификации по наличию двойных связей, обобщенных в табл. 3.2. При этой оценке все компоненты и масс-спектра, и ИК-спектра считались имеющими единичную интенсивность, когда обнаруживались пики, и нулевую, когда они не обнаруживались. Затем на таких бинарных спектрах проводили обучение прежним способом. Сопоставление результатов, приведенных в разд. 1—3 табл. 3.3, с данными разд. 1, 2 и 5 табл. 3.2 показывает, что простые сведения о наличии или отсутствии пиков, по-видимому, позволяют распознавать образы ничуть не хуже соответствующих данных об интенсивности. Иными словами, чтобы получить ответ на вопрос о наличии двойных связей, вполне достаточно иметь информацию о положении пиков как в ИК-спектре, так и в масс-спектре. [c.42]
Еще об одном исследовании возможностей использования данных из разных источников сообщается в работе [8]. Здесь были использованы данные о масс-спектрах низкого разрешения, результатах измерений методом ядерного магнитного резонанса, показателях преломления и плотностях для чистых углеводородов. Авторов интересовали возможности определения типов углеводородов и структуры средней молекулы в сложной смеси углеводородов (бензин). Векторы образов, составленные по данным разных источников, вводились в алгоритм распознавания образов с использованием процедуры обучения по методу наименьших квадратов. [c.42]

Вернуться к основной статье

Справочник химика 21

Химия и химическая технология