Кодирование фрагментов

из "Распознавание образом в химии"

Первое требование при создании бинарного классификатора образов состоит в адекватном представлении образов (молекулярных структур) в подходящем для вычислительной машины виде. Разработано несколько методов подобного описания химических структур в ряде обзоров излагаются различные приемы такого представления и их особенности (см., например, работу [8]). Разумеется, чем однозначнее описание, тем вероятнее успех использования бинарных классификаторов образов и тем совершеннее моделирование масс-спектров. [c.174]
Дескрипторы подразделяются на две категории бинарные (Б) и цифровые (Ц). Бинарные дескрипторы могут принимать только два значения соответственно утвердительному и отрицательному ответам. Цифровые дескрипторы могут иметь значения до 202 (молекулярный вес ioHig04). Поэтому значения дескрипторов необходимо нормировать. Нормировочный множитель, на который умножали дескриптор, указан в третьей колонке табл. 7.1. Нормировка переводила значения дескрипторов в более удобный диапазон. Все бинарные дескрипторы умножали на 5. [c.178]
В четвертой колонке указаны ограничения в отношении дескрипторов или оговорены особые случаи, например, категория у-водород относится только к ациклическим соединениям. [c.178]
В табл. 7.2 приведены дескрипторы нескольких соединений из массива данных. Под каждым соединением указано численное значение, приписанное еще ненормированному дескриптору. Следует отметить, что эти дескрипторы не отражают ни цис-транс-изоие-рии, ни положения функциональных групп в неароматических циклических системах. Выбор дескрипторов производился с таким расчетом, чтобы подразделить структуры на как можно большее число классов. Как будет показано, во многих случаях в перечне дескрипторов содержится достаточный объем информации для линейной разделимости. [c.178]
Бинарные классификаторы образов обучали на масс-спектрах с 60 положениями mie, перечисленными в первой колонке табл. 7.3. Каждый такой классификатор обучали предсказывать наличие или отсутствие пика, соответствующего данному значению mie в спектрах соединений обучающей выборки. Считалось, что такой пик имеется в том или ином положении, если его интенсивность превосходила определенное критическое значение — пороговую интенсивность (порог). [c.178]
Кроме того, для каждого из 11 специально выбранных положений т/е строили по два весовых вектора относительно пороговых интенсивностей, равных 0,1 и 1,0% полного ионного тока. Первый вектор предсказывал, превосходит ли интенсивность пика 0,1%-ный пороговый уровень или же не превосходит (равна или меньше). Второй вектор давал аналогичные ответы в отношении порога, составлявшего 1,0% полного ионного тока. Выбор этих 11 положений был сделан с таким расчетом, чтобы в обучающей и контрольной выборках имелось достаточное число соединений с интенсивностью пиков выше 1,0% полного ионного тока. Таким способом было обучено 82 бинарных классификатора образов. [c.185]
Важно отметить, что от уровня пороговой интенсивности зависит разбиение на категории соединений обучающей и контрольной выборок. В случае т е 29 число соединений, характеризующихся пиками с интенсивностью выше 0,1% полного ионного тока, составляет 137, а 13 соединений имеют пики с более низкой интенсивностью. При 0,5%-ном пороге в положительную категорию попадает 121 соединение, а в отрицательную — 29. Если же порог выбрать равным 1,0% полного ионного тока, то в положительной категории будет 112, а в отрицательной 38 соединений. Эта же тенденция наблюдалась для обеих выборок и в случае других положений при переходе от одного из трех порогов к другому. [c.186]
В третьей колонке табл. 7.3 приведено число дескрипторов, оставшихся после отбора признаков по знаку весового вектора, который проводился обучающейся машиной. Такие дескрипторы считались важными свидетельствами наличия того или иного пика в конкретном положении для данного уровня пороговой интенсивности, установленного для исследуемого массива данных. Несмотря на то обстоятельство, что, число оставшихся дескрипторов во многих случаях было весьма незначительным и составляло лишь небольшую долю от 61 исходного дескриптора, весовые векторы сохраняли ту же прогнозирующую способность, что и для всего числа исходных дескрипторов. [c.186]
Существует простой способ проверки способности обучающейся машины классифицировать неизвестные соединения путем сравнения ее прогнозирующей способности с долей соединений наиболее обширной категории от числа всех соединений для того или иного положения т/е. Если прогнозирующая способность машины превосходит долю угадываний в том случае, когда соединение всегда относят к наиболее обширной категории, то можно сказать, что машина чему-то научилась в отношении установления связи между образами и категорией, к которой они принадлежат. Так, для т/е 29 доля соединений с пиками, интенсивность которых выше 1%-ной пороговой интенсивности, составляет 75,5%. Если утверждать, что соединение имеет пик в данном положении, то доля разовых верных классификаций составит 75,5%. Аналогично для т/е 128 доля соединений с пиками, интенсивность которых выше 0,5% полного ионного тока, равна 12,1%. Предположив, что ни одно из соединений всей совокупности не имеет пика в данном положении, вы сделаете 87,9% правильных разовых классификаций. В пятой колонке табл. 7.3 приведена доля (%) соединений наиболее обширной категории при условии, что пороговая интенсивность для конкретного положения т/е имеет значение, указанное во второй колонке. [c.187]
В шестой колонке табл. 7.3 указана прогнозирующая способность весовых векторов для числа дескрипторов, приведенного в третьей колонке. Для каждого положения обучали три пороговых логических элемента на трех разных обучающих выборках. Здесь представлены данные для весовых векторов, показавших максимальную прогнозирующую способность по каждому положению и для каждой пороговой интенсивности. Средняя прогнозирующая способность для всех 82 пороговых логических элементов составила 88,8%. [c.187]
В седьмой колонке табл. 7.3 указана разность между прогнозирующей способностью обучающейся машины, приведенной в шестой колонке, и фигурирующей в пятой колонке долей соединений наиболее обширной категории от всех соединений данной совокупности. В 73 случаях прогнозирующая способность обучающейся машины превосходит долю соединений наиболее обширной категории средняя разность оказалась равной 10,4%. [c.187]
Дескрипторы, сохранившиеся во всех трех обучающих выборках при исгюльзовании 0,5%-ной пороговой интенсивности. [c.188]
И отрицательную корреляции с обучающими выборками, означает, что процесс принятия решения обучающейся машиной носит более сложный характер, нежели простое признание присутствия атомов кислорода в соединении. Пожалуй, более важно учитывать расположение атомов кислорода в соединении, чем их число. [c.190]
Значения интенсивностей пиков при разных положениях для предсказанных масс-спектров устанавливали следующим образом. (Обучали по три пороговых логических элемента с порогами 0,1, 0,5 и 1,0% полного ионного тока, что соответствует 30, 37 и 40 единицам по логарифмической шкале интенсивности на графиках.) Пику, для которого все три весовых вектора давали положительные скалярные произведения, произвольно приписывали значение 50 (10% полного ионного тока). Если все три весовых вектора давали отрицательные скалярные произведения, то интенсивность считалась равной 25 (0,03% эта величина была, вероятно, обусловлена шумом). Если же три весовых вектора давали скалярные произведения с разными знаками, то интенсивность полагали равной 34 (в случае расхождения между векторами с порогами 30 и37) или 39 (в случае расхождения между векторами с порогами 37 и 40). [c.197]
Одну из важных проблем представляет составление дескрипторов, которые учитывали бы одновременное вхождение в состав молекулы нескольких фрагментов такие дескрипторы получили название множественных признаков. [c.198]
Выше уже обсуждался вопрос о выделении признаков, поэтому снова рассматривать его в общем виде мы не будем. [c.198]
Основное внимание уделялось совершенствованию описания молекулярных структур. Использованные нами ранее структурные дескрипторы указывали на наличие отдельных структурных фрагментов в молекуле и не выявляли комбинаций структурных фрагментов, за исключением нескольких случаев. Так, 48-й дескриптор, а именно а-замещение, свидетельствует о появлении в молекуле метильной концевой группы и кольца, содержащего атом азота. Данный дескриптор характеризует вместе с тем взаимное расположение этих двух фрагментов. Метильная группа соединена с атомом углерода в кольце, который непосредственно связан с атомом азота. Использование приемов выделения признаков позволяет автоматически составлять дескрипторы, включающие несколько структурных фрагментов как единое целое. Дескриптор подобного рода называют множественным признаком. Множественные признаки, составляемые из структурных фрагментов перечня дескрипторов, не отражают позиционных соотношений. Не исключено, что выводить признаки, описывающие взаимное расположение фрагментов, удастся при ином подходе к изображению топологии молекулы вместо составления перечня дескрипторов. Рассматриваемые ниже множественные признаки указывают на комбинации фрагментов в молекулах, а не на позиционные соотношения между ними. [c.198]
Используемый нами метод выделения признаков известен под названием алгоритма включения атрибутов. Включение атрибутов характеризует взаимосвязь между ними в той или иной выборке образов. В этом случае атрибут является синонимом дескриптора. [c.198]
Молекулярные структуры изображаются векторами образов, компонентами которых служат значения атрибутов (дескрипторов). Используемый здесь алгоритм ограничен бинарными атрибутами (нуль и единица). Поэтому предъявляемые алгоритму векторы образов состоят из 40 бинарных дескрипторов, отобранных из перечня дескрипторов, который охватывает 61 структурный фрагмент. [c.199]
Один атрибут включают в другой во всех тех случаях, когда присутствие первого в каком-либо образе означает и присутствие второго. Любые два атрибута, удовлетворяющих отношению включения, принадлежат одному и тому же признаку. Следовательно, все атрибуты, связанные последовательными операциями включения, можно объединить в единственный признак и рассматривать его как множественный признак, или множественный дескриптор. Таким образом, нужно располагать набором признаков, который группировал бы вместе атрибуты, связанные друг с другом корреляцией взаимного включения. Математически включение атрибутов отображает векторы образов из пространства атрибутов в пространство признаков меньшей размерности. [c.199]

Вернуться к основной статье

Справочник химика 21

Химия и химическая технология