ПОИСК Статьи Рисунки Таблицы Неконтролируемые методы из "Аналитическая химия Том 2" Еще один способ предварительного преобразования данных — переход к новой системе координат. Это осуществляется методами главных компонент или факторного анализа. В результате векторы исходных данных представляют в виде комбинации некоторых новых ортогональных векторов. Эта процедура тесно связана с проблемой сокращения размерности — проекции многомерного массива исходных данных в подпространство с меньшим числом измерений. Она будет рассмотрена в следующем разделе, посвященном неконтролируемым методам распознавания образов. [c.521] Задача проекционных методов — сведение исходного массива данных к массиву меньшей размерности одно-, дву- или трехмерному. Это действие можно наглядно представить себе таким образом, как если бы аналитик смотрел на экран компьютера и с помощью специальной математической процедуры вращал массив данных во всевозможных направлениях с целью выбрать такое положение, для которого проекция данных на экран обеспечивала бы наилучшее разделение между классами. Подобные методы действительно разработаны статистиками и широко применяются в хемометрике. [c.522] В настоящее время проекцию данных осуществляют в основном с помощью методов, называемых анализом главных компонент (РСА), факторным анализом (ГА), сингулярным разложением (ЗУБ) и проекцией на собственные векторы или ранговой аннигиляцией. Все эти методы очень близки между собой. Различия в их названиях—во многом лишь дань традиции (в разных областях науки укоренились разные названия). Кроме того, существуют и некоторые различия в применяемых математических алгоритмах, а именно в форме представления дисперсионной матрицы, характере основных допущений, способах преобразования массива данных и интерпретации результатов (на основе анализа собственных значений или сингулярных чисел) и т. д. [c.522] Здесь мы рассмотрим два проекционных метода—анализ главных компонент и сингулярное разложение. Родственные методы, такие, как факторный анализ, рассмотрены в разд. 12,5.4. [c.522] Здесь X — матрица данных, состоящая из N строк (объекты) и К столбцов (признаки), Т — матрица факторов или главных компонент Н строк и А столбцов), Р —матрица нагрузок (А строк и К столбцов), Е —матрица погрешностей (К строк, К столбцов), а верхний индекс I означает транспонированную матрицу. [c.522] Простейший алгоритм разложения на главные компоненты имеет сокращенное название NIPALS. Его суть ясна из приведенного ниже учебного примера. [c.523] Е1сли число главных компонент равно величине, заданной заранее либо найденной с помощью кросс-валидации (см. ниже), или элементы матрицы погрешностей достаточно малы, то следует перейти к шагу 8, в противном случае — к шагу 7. [c.524] Таким образом, исследуемый двумерный массив данных может быть представлен с помощью единственной главной компоненты. [c.524] Помимо К1РАЬ8, существуют другие алгоритмы разложения матриц, такие, как сингулярное разложение (ЗУБ) или метод бидиагонализации (дробный или блочный метод наименьших квадратов, РЬЗ). [c.524] Векторы-столбцы матрицы II представляют собой векторы-столбцы матрицы Т из уравнения (12.5-4), нормированные к единичной длине. У — диагональная матрица, содержащая сингулярные числа (квадратные корни из собственных значений матрицы Х Х). В общем случае (если не пренебрегать малыми сингулярными числами) размерность матрицы У (Л) равна N. Матрица V совпадает с Р. [c.524] Все главные компоненты взаимно ортогональны. Наибольшая часть информации о разбросе данных приходится на первую компоненту. В свою очередь, вторая компонента содержит больше информации, чем третья и т. д. Для интерпретации результатов может помочь графическое представление как векторов главных компонент, так и нагрузок. Из анализа главных компонент можно сделать выводы о группировке объектов. Изображение нагрузок позволяет установить относительный вклад индивидуальных признаков в главные компоненты. [c.525] В такой форме графическое представление данных невозможно, поскольку для этого потребовалось бы пространство из 5 измерений. Поэтому преобразуем матрицу X с помощью алгоритма КХРАЬЗ, предварительно вьшолнив операции центрирования и нормировки (уравнение 12.5-3). [c.525] С точки зрения этого критерия для данных, приведенных в табл. 12.5-1, число главных компонент равно двум, поскольку первые две компоненты описывают 90,7% суммарной дисперсии (табл. 12.5-2). [c.526] Критерий единичного собственного значения основан на том, что средняя величина собственного значения для автомасштабированной матрицы равна единице. Поэтому можно считать значимыми лишь собственные значения, превышающие единицу. В соответствии с этим критерием число главных компонент для рассматриваемого массива данных также равно двум (табл. 12.5-2). [c.526] Можно определить число главных компонент на основе характера изменения собственных значений. Как правило, с возрастанием порядкового номера компоненты значимые собственные значения убывают быстро, а незначимые — весьма медленно. Это видно из графика зависимости собственного значения от номера компоненты (рис. 12.5-5). Наклон графика резко уменьшается при переходе от второго значения к третьему. [c.526] Еще один метод определения числа главных компонент — это кроссвалидация (перекрестная проверка на достоверность). В простейшем варианте для этого из матрицы X исключают один объект и проводят вычисления для оставшейся матрицы при некотором фиксированном числе главных компонент. Затем на основании полученной модели рассчитьшают значения признаков для исключенного объекта и сравнивают предсказанные значения с экспериментальными, после чего исключенный объект возвращают в матрицу, удаляют следующий объект и повторяют вычисления. По окончании перебора всех объектов рассчитывают общую сумму квадратов отклонений предсказанных величин признаков от экспериментальных. После этого всю процедуру повторяют с самого начала с другим числом компонент. Окончательный выбор числа главных компонент осуществляют на основе полученного набора сумм квадратов отклонений с помощью соответствующих статистических критериев. Если массив данных очень большой, то объекты можно удалять не по одному, а группами. [c.527] В методе главных компонент результаты обычно интерпретируют путем графического представления компонент (факторов) и нагрузок. Иногда выводы можно сделать уже на основании анализа одной компоненты. Коммерческие программы предоставляют возможности для визуализации дву- и трехмерных массивов данных. Для группировки объектов в кластеры строят диаграммы, на которых каждый объект представлен точкой с координатами, равными значениям его главных компонент. Такие диаграммы представляют собой проекцию множества объектов в пространство нескольких главных компонент, описывающих основную долю дисперсии данных. На рис. 12.5-6 представлен такой график для данных по составу образцов волос из табл. 12.5-1. Легко видеть, что объекты распадаются на три кластера по три объекта в каждом. [c.527] Аналогичный график, построенный для нагрузок, позволяет выявить корреляции между признаками и их относительную значимость. Такой график для двух первых компонент рассматриваемого массива данных приведен на рис. 12.5-7. [c.527] Величина нагрузки, соответствующая тому или иному признаку, есть мера относительной значимости этого признака в рамках модели главных компонент. Признаки, расположенные вблизи начала координат, являются мало-значимыми. [c.528] Вернуться к основной статье