Кластерный анализ

из "Обнаружение и диагностика неполадок в химических и нефтехимических процессах"

Мы начинаем обсуждение кластерного анализа, предполагая, что по экспериментальным измерениям нам известно о том, идет ли процесс удовлетворительно или нет, и если нет, то каковы причины этого. Целью является обнаружение и диагностирование неполадки на основе измерения нескольких непрерывных переменных. [c.250]
Все многочисленные альтернативные методы, которые были предложены [2, 12, 231 как средства для классификации состояния процесса по сходству и различию соответствующих индикаторов, имеют две главные общие особенности. Во-первых, каждый метод требует количественного определения, или меры, относительного сходства между состояниями процесса. Во-вторых, при заданных количественных показателях сходства, требуется алгоритм для вычисления коэффициентов сходства, с тем чтобы обнаружить однородные группы, или классы. Для любого метода определения сходства при наличии многих переменных существует ряд различных алгоритмов классификации. И наоборот, частный алгоритм классификации обычно может быть применен к нескольким из ряда различным показателям сходства профилей. Здесь мы касаемся только тех методов, которые используют количественные измерения. Такие методы, как анализ скрытых классов , которые приспособлены специально для использования качественных показателей, обсуждаться не будут. Однако необходимо помнить, что имеются специальные методы для решения задач классификации, включающих категорийные или качественные переменные. [c.250]
Двумя главными видами показателей сходства профилей являются функция расстояния и векторное произведение. Несмотря на различие в способах их вычисления, оба они — вариации одного и того же принципа. Для каждого из многочисленных частных случаев показателя функции расстояния может быть найден соответствующий и эквивалентный ему признак векторного произведения. Как только выбран критерий сходства, следующим шагом будет выявление групп, содержащих близкие индексы, например неполадка 1, неполадка 2 и т. д., т. е. групп, которые для всех практических целей могут рассматриваться как однородные. [c.250]
Совокупность результатов измерений п переменных процесса может рассматриваться как точка в /г-мерном пространстве. Точки, отражающие однородные состояния процесса, например нормальное функционирование , имеют тенденцию группироваться в одной области этого пространства. Так, если имеются две измеряемые величины Хх и Х2, то может появиться кластер, такой, например, как показанный на рис. 6.10. Теоретически, подсчитывая для каждого кластера число точек в элементах объема пространства и деля это число на общее количество состояний, мы можем оценить функцию плотности р [х , Х2, ,Хп) для этого кластера. Функция плотности р кластера равна кр, где к —доля общей совокупности точек, занимаемая данным кластером, ар — совместная функция плотности вероятности результатов измерений для подмножества точек, отвечающих состоянию, представленному данным кластером. [c.251]
Теоретически, если имеется бесконечно большое количество совокупностей результатов измерений, так что функции плотности точно известны, неидентифицированное состояние процесса может быть отнесено к наиболее вероятному кластеру на основании, скажем, их взаимного положения (измеренного каким-либо подходящим способом). Вместе с тем, единственная совокупность результатов измерений может не дать четкий однозначный ответ. Поэтому схема, которая дает относительную вероятность принадлежности к одному или нескольким кластерам, может оказаться более осмысленной, чем схема, которая стремится дать вполне определенный диагноз. Инженер может соединить вероятности, вычисленные для классификации, и имеющиеся в его распоряжении сведения о серьезности возможных неполадок, стоимости различных исправлений и дополнительных проверок, что необходимо ему для принятия решения о дальнейших действиях. [c.251]
Для того чтобы полностью охарактеризовать кластер, должны быть известны или оценены по экспериментальным данным все величины и Если измеряемые величины определяются по слишком малому числу проб, включая пробы при неисправных состояниях, то, хотя точность оцененных параметров и может оказаться приемлемой, все же есть большой шанс, что по крайней мере одна из оценок будет сильно смещенной. [c.252]
Иногда расстояние используется как дискриминант без фактора к (который является мерой высоты пика плотности вероятности в центре распределения). Однако это может привести к излишним ошибкам, если пик плотности вероятности одного из двух близко лежащих кластеров намного выше, чем другого. Фактор к может быть введен в качестве составной части в обобщенное расстояние путем выражения плотности вероятности через модифицированное обобщенное расстояние и ) следующим образом. [c.253]
Классификация или распознавание по критерию либо ( ) известны как квадратичная дискриминация. [c.253]
Уравнение (6.3.6) относится к линейным дискриминирующим функциям. Если имеется более чем два кластера, то требуется множественный линейный дискриминант. [Линейные дискриминанты редко отвечают требованиям диагностирования процессов, потому что кластеры обычно не являются однородно сферичными. Редко когда величины стандартных отклонений переменных не имеют различий между кластерами. Часто наблюдается пересечение кластеров, как на рис. 6.12. К тому же пики плотностей кластеров часто радикально различны. Наконец, даже в тех случаях, когда линейные дискриминанты могут быть рационально использованы, они дают меньше информации, чем квадратичные дискриминанты. Точка, лежащая далеко от ближайшего к ней кластера, и точка в его центре дают одну и ту же дискриминирующую величину. Такая ситуация не возникает при квадратичной дискриминации, когда значение дискриминанта само по себе указывает на положение точки внутри или вне соответствующего кластера. [c.254]
Главное преимущество логарифмического дискриминанта состоит в том, что он позволяет обрабатывать распределения, плотность которых быстро падает по одну сторону от среднего и в то же время имеет длинный хвост по другую сторону, т. е. асимметричные распределения. Классификация точек по отношению к кластерам таких типов, как показанные на рис. 6.13, лучше всего может быть осуществлена с помощью логарифмической дискриминирующей функции. [c.254]
Классификация, основанная на любом дискриминанте, оптимальна, когда измерения независимы. [c.254]
В начале построения кластеров по экспериментальным данным цель состоит в том, чтобы собрать векторы X в однородные группы, которые различимы. Хорошей программой экспериментов является такая, в которой измеряемые величины внутри кластеров максимально сходны в сопоставлении с различиями между кластерами. Статистика, которая представляет отношение многомерной вариабельности внутри кластеров к многомерной вариабельности по всем кластерам, дает показатель правильности кластерной классификации [4]. Такая статистика — аналог скалярного вариационного отношения (использованного в гл. 2 для одной переменной). [c.256]
Р — общее количество векторов X во всех кластерах. [c.257]
1 — общее среднее величин Х пь (по всем классам и членам в классах). [c.257]
Отношение т] есть хорошо известная статистика, которая применяется в многомерном анализе для проверки значимости различий между группами. Большие значения т] указывают на то, что кластеры относительно однородны в сравнении с различиями между кластерами. Малые значения т указывают на то, что различия между классами относительно невелики в сравнении с различиями внутри классов. Очевидно, что если кластерный анализ используется для диагностирования причин неудовлетворительной работы оборудования, то необходимо иметь большие значения 1]. [c.257]
К сожалению, ни один метод не может быть признан лучшим, если одновременно учитывать все проблемы, связанные с кластерами. [c.257]
Чтобы удостовериться в том, что обобщенное вариационное отношение максимально, можно перестроить первоначальное разбиение экспериментально найденных значений на группы (т. е. изменить то разбиение, которое исследованием рассматривалось как лучшее). Если при перенесении результата отдельного измерения из одного кластера в другой или при простом удалении его из кластера обобщенное вариационное отношение т] улучшается, то осуществляется перераспределение. В противном случае не делается никаких изменений, а тем же путем обрабатываются другие измерения и т. д. Для ускорения расчетов существуют различные эвристические методы. [c.257]
В данном примере измерялись шесть переменных И строились следующие четыре кластера для нормальной работы и трех неполадок — А, В и С. Данные, собранным для того, чтобы установить неполадки, здесь не показаны, так как они слишкое обширны, но в табл. П6.4 приведены две статистики, и д, которые характеризуют распределения вероятностей для каждого кластера (в предположении, что распределения некоррелированы и гауссовы). [c.258]
Это означает, что достоверность того, что состояние процесса, обозначенное как X, является нормальным, равна лишь 1,1 % достоверности того, что состояние процесса соответствует наличию неполадки А. [c.258]

Вернуться к основной статье

Справочник химика 21

Химия и химическая технология