ПОИСК Статьи Рисунки Таблицы Отбор признаков из "Распознавание образом в химии" Во многих проблемах распознавания образов образы разных классов настолько перемешаны между собой, что для их разделения на категории приходится использовать нелинейные методы. Поэтому общую задачу классификации целесообразно разделить на две части, первая из которых сводится к такому упрощению общей задачи, которое позволяет решить вторую часть. Таким образом, первоочередная задача отбора признаков заключается в уменьшении размерности без ущерба для разделения. При надлежащем и эффективном отборе признаков размерность обрабатываемых данных снижается до такого уровня, на котором не так трудно брать ту или иную разделяющую функцию. [c.107] При отборе признаков по первому направлению используется информация, содержащаяся только в исходных данных, например статистические параметры, вычисленные из таких данных. Этот подход тесно связан с предварительной обработкой данных и с полным правом может считаться ее составной частью. Отбор признаков по второму направлению предполагает также использование в качестве критериев при отборе важных признаков результатов обучения разделению. [c.108] Главная теоретическая трудность при отборе признаков, как и при предварительной обработке исходных данных, заключается в том, что делать выводы о полученных результатах приходится по показаниям классифицирующего звена всей распознающей системы, т. е. использовать всю систему, что создает дополнительные затруднения. [c.108] Следует отметить, что единственным надежным способом выявления оптимального подмножества, состоящего из т признаков, из всей совокупности п признаков было бы расчетное определение вкладов в формирование образов для всех таких подмножеств, а их число, как известно, равно Ст = п /(п—m) ml. Перебрать же исчерпывающим образом все такие случаи не представляется возможным даже для совокупности данных умеренного объема. Поэтому приходится прибегать к помощи эвристических методов. Применительно к химическим данным, как правило, используют специальные методы отбора признаков, поскольку, как выяснилось, они дают положительный результат при решении задач отбора признаков по уже упоминавшимся двум направлениям. [c.108] Ниже пойдет речь об исследовании методов отбора признаков применительно к химическим данным. [c.109] Об одной из первых попыток отбора признаков для масс-спектров низкого разрешения сообш,ается в статье [6]. Эти данные и применявшийся способ обучения весовых векторов по методу наименьших квадратов были подробно описаны в гл. 4 настоящей книги. В использованных спектрах было закодировано по 80 положений т/е. [c.109] В задачу исследования входило обучение весового вектора определению числа атомов кислорода в молекуле для случаев, когда оно было равно О, 1 или 2. Настраивание весового вектора по методу наименьших квадратов позволило правильно классифицировать 123 из 130 спектров, что соответствовало распознающей способности 94,6%. (Поправка с учетом линии наилучшего совпадения сократила число ошибочных расчетов от девяти до семи.) Затем была исследована процедура отбора признаков. [c.109] Любая попытка уменьшить объем исходных данных и одновременно сократить число подгоняемых параметров усложняет задачу распознавания, однако это ведет к экономии расчетного времени. Так, уменьшение размерности всего в два раза намного сокращает такое время. Вопрос о том, какие положения mie целесообразнее отбрасывать, трудно решить, ибо идеальное решение означало бы неосуществимый расчет вкладов всех возможных их сочетаний. Однако логично исключать все положения, которые меньше всего отражаются на результатах расчета. Поэтому были исследованы два следующих метода исключения положений mie 1) по наименьшему весу и 2) по минимальному кумулятивному влиянию на результат принятия решения. Во втором случае использовался критерий Rj — произведение веса на сумму амплитуд в соответствующем положении mie. Это была попытка количественно рассчитать вклад каждого признака совокупности данных в общий результат принятия решения. Признаки, дававшие наименьшие вклады, исключали. На рис. 5.1 сравниваются результаты исключения признаков группами по 15 положений и пересчитанная после таких сокращений распознающая способность. [c.109] Доля верных распознала-да/е най.у. [c.110] Эти же два метода отбора признаков — по весу и по критерию Н — рассматриваются в статье [7] применительно к бинарным классификаторам образов, корректируемым через обратную связь, а также в работе [8], посвященной распознаванию образов на основе данных из разных источников (результаты для этих данных были приведены в табл. 3.2). [c.111] Вернуться к основной статье