Классификация при помощи бинарного кода

из "Распознавание образом в химии"

Точность двоичных чисел можно повысить введением дополнительных разрядов для формирования кода Хэмминга, исправляющего ошибки [13, 14]. Если оцененное двоичное число отличается от истинного только одним разрядом, т. е. если расстояние Хэмминга равно 1, то ошибку можно исправить при помощи k контрольных битов, где 2 /г+ +1 Для данных из п битов. Таким образом, расстояние Хэмминга, равное 1 для исходного -разрядного числа, увеличивается до 3 и более в (п+ )-разрядном числе. В данном случае для исходных трех битов информации понадобились три контрольных бита. Это соответствует коду Хэмминга типа (6, 3). [c.93]
Для исправления ошибок понадобилось обучать еще три бинарных классификатора с,, Сг и с их обучение проводили на подходящих подвыборках из обучающей выборки, служивших положительной и отрицательной категориями. Данные о выборках, а также результаты обучения и прогнозирования приведены в табл. 4.19. Прогнозирование числа атомов углерода при помощи кодов (6, 3) повысило долю правильных ответов до 93,0 и 93,6% по вариантам 1 и 2 соответственно для массива углеводородов и до 68,5% для полного массива исходных данных. [c.95]
С4 — Сю При случайном угадывании доля верных предсказаний составила V (14,3%). Сз — Сю при случайном угадывании доля верных предсказаний составила /в (12, 5%). [c.96]
В схеме параллельного соединения подавляющее большинство неправильных классификаций было следствием единственной ошибки в одном из 6—7 бинарных классификаторов. Действительно, для углеводородов все неправильные классификации были как раз такого рода. Здесь число неверных классификаций равнялось числу ошибочных решений, принимавшихся бинарными классификаторами. Десять ошибок пришлось на границу между нулем и единицей в двоичном слове, в двух случаях нуль попал между единицами (никакое решение не принималось). Для полного массива исходных данных 10 из 96 неверных классификаций были следствием более чем одной ошибки бинарных классификаторов. Нуль между единицами встретился три раза. Эти результаты согласуются с общим принципом, согласно которому число ошибок, допускаемых любым набором бинарных классификаторов, не может быть больше суммы двоичных ошибок и меньше числа ошибок лучшего бинарного классификатора. [c.97]
Использование весовых векторов, обученных принимать параллельные решения при ветвящейся классификации, улучшает результаты прогнозирования на обоих массивах данных. Те два спектра из массива углеводородов, для которых нуль оказался между единицами при параллельном соединении классификаторов, были правильно классифицированы этой схемой. Это можно объяснить удачным выбором точек ветвления. При ином выборе (если бы, например, точка ветвления 1 отделяла векторы с числами атомов углерода 10, 9, 8 и 7 от векторов с числами атомов углерода 6, 5 и 4) ветвящаяся схема дала бы такие же результаты, что и параллельное соединение. В случае полного массива спектров один из трех векторов с нулями между единицами был классифицирован правильно. Таким образом, поскольку ветвящаяся схема использует при каждой классификации не все бинарные классификаторы, достигаемая ею прогнозирующая способность не хуже, чем при параллельном соединении классификаторов для одинаковых весовых векторов и одной и той же контрольной выборки. [c.97]
Ошибочные контрольные биты в шестибитовых кодах не позволяют достигать оптимальной классификации как из-за пропуска ошибок, так и из-за исправления правильных битов. Бит четности общей суммы в коде Хэмминга (7, 4) частично устраняет подобные ошибочные исправления . Но и в этом случае прогнозирующая способность не достигает идеального уровня, что создает новые трудности. [c.98]
Для массива углеводородов С4 дополнительный вектор показал одинаковую распознающую способность в обоих вариантах по числу атомов углерода, но по-разному сказывался на общей прогнозирующей способности. Если по первому варианту доля правильных Предсказаний несколько возросла, то по второму варианту она была хуже, чем в любой схеме с 6 или 7 бинарными классификаторами. На полном массиве данных семибитовый код дает несколько худший результат, чем шестибитовый. Поэтому благоприятный эффект кода с исправлением однократных и обнаружением двукратных ошибок во многом зависит от того, какие объекты контрольной выборки приводят к неверному ответу при проверке общей четности. [c.98]
Применение ветвящейся схемы и кодов, исправляющих ошибки, включает три шага разбиение объектов массива данных на нужные подвыборки, обучение бинарного классификатора образов отдельно на каждой такой подвыборке и окончательное прогнозирование комбинированием отдельных бинарных классификаторов. (Следует отметить, что в подобных устройствах можно использовать любые бинарные классификаторы. Повышения прогнозирующей способности индивидуальных бинарных классификаторов можно добиться, например, применением ненулевых порогов в процессе обучения или использованием многоуровневых пороговых логических элементов.) Параллельный метод проще, поскольку он не требует разбиения объектов массива на подвыборки. [c.99]
При обучении бинарных классификаторов объекты обучающей выборки выгодно распределять равномерно между положительной и отрицательной категориями, чтобы исключить систематические отклонения при классификации. В этом отношении параллельный метод имеет большой недостаток. Как видно из табл. 4.18, кроме средних порогов, распределение объектов по категориям является в принципе неравномерным, особенно для первого и последнего порогов. Для ветвящейся схемы положительная и отрицательная категории комплектуются равномернее (табл. 4.19), поскольку некоторые объекты отбрасываются в процессе отбора. Что же касается бинарного метода, то здесь обучение каждого классификатора проводится на всей обучающей выборке с балансированным распределением объектов между положительной и отрицательной категориями (табл. 4.20). Более того, по мере того как число категорий возрастает, например по числу возможных атомов углерода в молекуле, распределение приближается к оптимальному (50%-ному) уровню даже в тех случаях, когда спектры исходного массива распределяются по соединениям с разным числом атомов углерода довольно неравномерно. [c.99]
Эффективность использования двоичных кодов при решении важных в химии задач определяется тем, удастся ли построить соответствующие бинарные классификаторы с достаточно высокой прогнозирующей способностью. [c.100]

Вернуться к основной статье

Справочник химика 21

Химия и химическая технология