Многомерное моделирование

из "Аналитическая химия Том 2"

В аналитической химии обычно используют линейные модели. Мы уже сталкивались с такими моделями при рассмотрении процедур градуировки и оптимизации. Помимо этих важнейших приложений, в аналитической химии многомерные линейные модели применяют всегда, когда необходимо учесть одновременное действие множества факторов, например в анализе объектов окружающей среды. [c.545]
Основной инструмент построения линейных моделей—линейный регрессионный анализ. Вплоть до настоящего времени регрессионный анализ широко применяется в его традиционной форме классического метода наименьших квадратов (OLS, или классический МНК). Ниже мы рассмотрим классический МНК в его наиболее общей форме, а также некоторые другие методы так называемого мягкого моделирования — регрессию на главных компонентах (P R), дробный, или блочный, метод наименьших квадратов (PLS), а также направленный факторный анализ (TTFA). [c.546]
Матрица зависимых переменных У имеет размерность N х М, а матрица независимых переменных Х — Н у. К. Матрица В (К х М) представляет собой матрицу искомых регрессионных параметров. Матрица остатков У — характеризует отличия экспериментальных данных от рассчитанных. [c.546]
Уравнение (12.5-49) можно использовать для расчета концентраций М компонентов в N образцах (матрица У) на основании соответствующих N спектров, измеренных при К длинах волн (матрица Г). [c.546]
Для хорошо обусловленных матриц число обусловленности близко к единице. Для сингулярных матриц оно равно бесконечности, а для плохо обусловленных весьма велико. [c.547]
Сингулярными называются матрицы, между строками (или столбцами) которых существует линейная зависимость. За счет погрешностей округления, возникающих в ходе вычислений, сингулярными могут оказаться и матрицы, между строками которых нет строгой линейной зависимости. [c.547]
Для решения систем линейных уравнений в классическом МНК можно применять традиционные способы исключения методом Гаусса или Гаусса-Жордана. Однако более эффективно предварительное разложение матрицы X, например с применением таких алгоритмов, как разложение Хаусхолдера, Ш-разложение или сингулярное (8УВ) разложение. Использование одного из наиболее мощных алгоритмов, ЗУВ-разложения, рассмотрено ниже. [c.547]
Моделирование зависимостей путем оценки значений параметров — это лишь одна из задач регрессионного анализа. Очень часто полученные величины затем используют для предсказания неизвестных значений х или у на основании измеренных значений у и х соответственно (например, концентраций компонентов на основании спектральных данных с использованием многомерной градуировки). [c.548]
Здесь diag — диагональная матрица, элементы которой равны 1/wu при uJji О и равны нулю при -Шц = 0. В случае матрицы полного ранга все сингулярные числа Wu отличны от нуля и решение совпадает с решением, полученным классическим МНК. В то же время плохо обусловленные матрицы могут иметь несколько близких к нулю сингулярных чисел. В методе регрессии на главных компонентах такие числа при вычислении псевдообратной матрицы приравнивают нулю. Таким образом, основная задача рассматриваемого метода как раз и состоит в том, чтобы из всего набора сингулярных чисел выбрать небольшое подмножество, обеспечивающее наилучшую предсказывающую способность. [c.549]
Расчет коэффициентов регрессии (матрица В в общей регрессионной модели, уравнение 12.5-49) осуществляется с использованием матриц P,QviW. [c.550]
Матрица W К х А) называется весовой матрицей. Способ ее расчета понятен из приведенного ниже примера. [c.550]
Увеличим число главных компонент на единицу А — А + 1. Главные компоненты будем вычислять итерационным способом, например с помощью алгоритма NIPALS. Итерации прекращаются, когда будет достигнута заданная степень сходимости двух последовательных приближений. Применительно к методу PLS алгоритм NIPALS выглядит следующим образом. [c.550]
Сравним предыдущее (старое) и текущее и(новое) приближения. Если [[ (старое) — (новое)[[ [[ (новое)[[ х е, где е —заданная малая величина (равная, например, погрешности компьютерных вычислений), сходимость достигнута, и переходим к шагу 7. В противном случае итерации продолжают с шага 2. [c.550]
Можно показать, что матрица P W является верхней двухдиагональной. Таким образом, алгоритм PLS можно рассматривать как один из вариантов диагонализации матрицы, предшествующей ее обращению. [c.551]
Для оценки погрешности модели существуют два способа. Один из них состоит в подстановке независимых переменных в модель (уравнение 12.5-49) и сравнении полученных величин с экспериментальными значениями зависимых переменных. Таким образом можно получить оценку погрешности моделирования. Второй способ заключатся в исключении случайным образом выбранных объектов из исходного набора, расчете параметров модели для оставшихся объектов и предсказании завимисых переменных для исключенных объектов. Этот способ называется кросс-валидацией. С его помощью можно получить оценку погрешности предсказания, SEP v (выражение 12.5-74). [c.551]
Алгоритм PLS является одним из множества хорошо разработанных методов, основанных на двухблочном моделировании. В частности, такие методы можно использовать для многомерной градуировки (см. ниже). [c.551]
Матрицу 8 находят путем диагонализации симметричной матрицы, полученной из исходной матрицы X. Такую симметричную матрицу, называемую дисперсионной, можно представить в разных формах. Наиболее важные из них — ковариационная и корреляционная матрицы. [c.552]
Для диагонализации дисперсионной матрицы необходимо найти ее собственные векторы и собственные значения. Продемонстрируем эту процедуру на примере корреляционной матрицы Н. [c.553]
Полученные решения зависят от того, каким образом —по строкам, по столбцам или и по строкам, и по столбцам одновременно — проводится масштабирование исходной матрицы. [c.554]
Требуемую долю накопленной дисперсии задают заранее — равной, например, 90% или иной величине в зависимости от характера задачи. [c.555]

Вернуться к основной статье

Справочник химика 21

Химия и химическая технология