Справочник химика 21

Химия и химическая технология

Статьи Рисунки Таблицы О сайте English

Грамматическая информация

    Машинные словари необходимы для автоматического перевода сообщений с русского языка на информационный и с информационного на русский. Они представляют собой перенумерованные списки буквенных кодов слов или пословных кодов словосочетаний, в которых каждому элементу списка ставится в соответствие его грамматическая информация. [c.87]

    В ИПС словари слов могут быть в виде словаря словоформ и в виде словаря основ слов. В первом случае основным элементом словаря является буквенный код словоформы, во втором — буквенный код основы слова. В процессе перевода сообщений с русского языка на информационный поиск в словаре осуществляется по буквенному коду словоформы или основы слова, а из словаря выбирается порядковый номер словоформы (основы слова) и сопровождающая его грамматическая информация. При переводе с информационного языка на русский из словаря по номеру словоформы или основы слова выбирается буквенный состав искомого элемента и его грамматическая информация (если она необходима). Первый вид поиска в словаре называется прямы м, а второй — обратным. В ИПС словарь должен быть построен так, чтобы он был удобен и для прямого и для обратного поиска. [c.87]


    В памяти ЭВМ грамматическая информация о слове может представляться в различных формах. В работах по машинному переводу широко используется такой способ представления грамматической информации, когда за каждым признаком закрепляется определенная позиция в памяти машины, где записываются различные конкретные значения этого признака. Число различных комбинаций значений признаков ограничено, поэтому было бы нецелесообразно сопровождать каждую форму или каждую основу словаря полным перечнем значений грамматических признаков. Лучше такое решение, когда различные наборы значений грамматических признаков выносятся в отдельный список, нумеруются, а в словаре указываются только их номера. [c.88]

    Простейшей формой записи словаря в памяти машины является неупорядоченный список словоформ или основ слов, сопровождаемых номерами наборов грамматической информации. В этом случае в качестве номера слова можно использовать номер его позиции в списке. И прямой и обратный поиск по словарю здесь осуществляется последовательным просмотром всех его элементов. Последовательный просмотр всех элементов словаря при обратном поиске обусловлен тем, что слова имеют различную длину и могут записываться в различном числе ячеек памяти. [c.88]

    При автоматическом переводе текстовых сообщений с русского языка на информационный возникает задача отождествления различных форм одного и того же слова и получения к ним грамматической информации. Эта задача может быть выполнена как путем морфологического анализа слов, так и без него. В последнем случае в словаре необходимо хранить все (или наиболее часто встречающиеся) формы слов. Принципы автоматического отождествления слов и их синтез с помощью словаря словоформ описаны в работе [24] и здесь не рассматриваются. В настоящей главе и гл. 8 основное внимание уделяется способам автоматического морфологического анализа и синтеза слов. [c.95]

    ГРАММАТИЧЕСКАЯ ИНФОРМАЦИЯ К СЛОВОФОРМАМ (для изменяемых слов) [c.105]

    При синтезе слов с возвратными частицами ся или сь требуется в каждом случае выяснить, какая из двух частиц должна быть выбрана. Анализ форм слов показывает, что частица сь обычно встречается после букв а, е, и, о, у, ю, я и только у инфинитива, деепричастия и у личных форм глагола. В остальных случаях употребляется частица ся . Информация о тех или иных свойствах букв (например, о свойстве букв быть согласными и т. п.) оформляется в виде логических шкал. В виде логических шкал оформляются также и некоторые виды грамматической информации, [c.117]

    После проверки правильности замены беглой гласной следует обычная при флективном анализе проверка основы и окончания на совместимость и определяется номер основы и грамматической информации к слову. [c.119]


    Для образования в процессе морфологического синтеза вариантных форм основ типа II используется табл. 7.7. При этом учитывается индекс класса подстановки, приписанный основе словаря, и сопровождающая номер основы грамматическая информация (вернее, буквенный код окончания). К табл. 7.7 обращаются только тогда, когда основа словаря имеет индекс класса подстановки 1 или 2 , а грамматической информации соответствует окончание -Ь или ь . [c.119]

    Сочетание кода типа распределения и кода грамматической информации однозначно определяет необходимость введения в синтезируемое слово канонической или вариантной формы основы. Код типа распределения указывается в словаре для каждой канонической формы основы слова типа П1, наряду с индексом канонической формы и индексом варианта подстановки. Смысл индекса варианта подстановки для канонических форм основ определяется табл. 7.9, а для вариантных — табл. 7.8. [c.123]

    Морфологический анализ слов с изменяемой основой типа IV начинается с их флективного анализа, причем слова с супплетивными формами сначала рассматриваются как неизменяемые. Далее с помощью табл. типа 7.11 и 7.12 вариантные формы основ заменяются на канонические, а по супплетивным формам слов вырабатывается соответствующая им грамматическая информация. [c.124]

    Для слов с супплетивными основами необходимость выбора канонической или вариантной формы может быть определена по грамматической информации и типу Таблица 7.13 распределения (см. стол- [c.126]

    В табл. 7.13 перечислены канонические формы слов и указано, с какого номера в табл. 7.14 начинаются супплетивные формы слов, соответствующие каноническим формам табл. 7.13. Табл. 7.14 содержит перечень различных наборов грамматической информации и соответствующих им супплетивных форм слов. [c.126]

    Для выбора необходимой формы слова требуется сначала по номеру основы войти в табл. 7.13, а затем по числу, содержащемуся в третьей графе этой таблицы, и по грамматической информации войти в табл. 7.14. [c.127]

    При линейной развертке морфологической таблицы (табл. 7.4) уже была учтена необходимость экономии емкости памяти ЭВМ. Последовательность номеров окончаний (чисел, стоящих слева от дефиса) и последовательность номеров наборов грамматической информации [c.128]

    При обращении к морфологической таблице сначала по коду флективного класса и коду окончания определяется порядковый номер необходимой позиции в массиве номеров окончаний. Затем по найденному номеру позиции окончания вычисляется соответствующая позиция в массиве номеров наборов грамматической информации. [c.134]

    Автоматическое кодирование наименований понятий осуществляется в три этапа. Сначала отождествляются слова, входящие в наименование понятия, с элементами словаря слов. Слова заменяются их номерами по словарю и сопровождаются грамматической информацией. На вторам этапе кодирования выявляется грамматическая структура наименования понятия (синтаксический анализ). Наконец, полученный в результате первых двух этапов код отождествляется с одним из элементов словаря понятий и заменяется на порядковый номер этого элемента (семантический анализ). Порядковый номер понятия далее используется в качестве его кода. [c.166]

    Одной из задач синтаксического анализа наименований понятий является приведение их кодов к канонической форме, в которой они хранятся в словаре. Это достигается путем назначения главному слову наименования понятия, и согласованным с ним прилагательным грамматической информации именительный падеж единственного числа , а также путем перестановок слов и групп слов, не искажающих смысла словосочетаний (путем трансформации словосочетаний). Возможность трансформаций наименований понятий определяется по их грамматической структуре и выполняется таким образом, чтобы переставляемые слова были упорядочены слева направо по возрастанию номеров, а группы слов — по возрастанию номеров их начальных слов. По окончании указанных операций главное слово словосочетания выносится на первое место. [c.166]

    Исходными данными для- синтаксического анализа служат результаты работы алгоритма отождествления слов. Если слова отождествляются с помощью словаря словоформ, то для каждого слова наименования понятия указывается номер канонической формы слова (по словарю словоформ), набор переменной грамматической информации (по табл. 7.3), соответствующий данной форме слова, и постоянная грамматическая информация. В качестве постоянной грамматической информации для существительных, прилагательных, предлогов, сочинительных союзов и наречий указывается признак принадлежности к соответствующему синтаксическому классу (С, П, Р, и Н). Кроме того, для существительных указывается признак рода, а для предлогов — перечни падежей, которыми они могут управлять. [c.167]

    В тех случаях, когда в процессе анализа словосочетаний встречаются прилагательные, пе согласованные с находящимися справа и слева от них существительными, производится просмотр всех элементов словосочетания с целью поиска субстантивированных прилагательных и замены в постоянной грамматической информации этих слов признака прилагательного на признак существительного (пп. 46—51). После этого весь анализ словосочетания повторяется. Субстантивированные прилагательные (слова типа мастерская , столовая и т. п.), ищутся по специальному списку, где они представлены номерами слов. [c.171]


    Вторым этапом синтаксического анализа наименований понятий является определение однозначной грамматической информации к каждому слову. Прежде всего главному слову словосочетания (первому слева сущест- [c.171]

    Среди наименований понятий, используемых в различных областях практической деятельности, встречаются одинаковые по смыслу словосочетания, отличающиеся друг от друга не только порядком следования слов, но и морфологической структурой их основ (примером являются пары словосочетаний управляющее устройство— устройство управления , меры защиты — защитные меры , ртутные пары — пары ртути ). Отождествление таких наименований понятий связано с необходимостью применять трансформации с изменением основ слов. В результате некоторые слова переходят из одного грамматического класса в другой (например, из класса существительных в класс прилагательных или наоборот), а порядок слов в словосочетании и грамматическая информация к словам изменяются. [c.173]

    Сообщения можно представлять в памяти ЭВМ и в виде логических шкал. При этом поле памяти, отведенное для записи одного сообщения, разбивается на участки (группы двоичных разрядов) по числу функциональных элементов в сообщении. В пределах участка за каждым возможным значением функционального элемента закрепляется один двоичный разряд. Наличие в конкретном сообщении того или иного значения функционального элемента отмечается символом 1 , а отсутствие — символом О . Сообщения подобной структуры используются в системах автоматического перевода текстов с. одного естественного языка на другой для записи грамматической информации к словам, а также в документальных поисковых системах. [c.207]

    В процессе перевода запроса каждое слово заменяется номером его семантического эквивалента и грамматической информацией, необходимой для синтаксического анализа словосочетаний (блок 3). Далее формируются пословные коды словосочетаний (наименований объектов и характеристик). В каждом из них на первое место ставится код главного слова, а коды остальных слов упорядочиваются по возрастанию их численных значений (блок 4). После этого производится поиск по словарю понятий и классификационному словарю понятий (блоки 5, 6). [c.230]

    На рис. 13.3 представлена укрупненная схема процесса поиска рефератов документов по запросам. Сначала (блок 1) с помощью словаря основ пословно кодируют запрос и определяют грамматическую информацию к каждому слову. Затем пословные коды дескрипторных понятий приводятся к виду, удобному для поиска в словаре понятий, и осуществляется поиск в этом словаре (блок 2). В результате поиска в словаре понятий каждому понятию запроса ставится в соответствие перечень номеров понятий эквивалентных, подчиненных и ассоциированных с ним по смыслу. При этом понятие В считается эквивалентным или подчиненным понятию А, если наименование первого понятия включает в себя все слова, выражающие содержание второго понятия, а главные слова сравниваемых понятий совпадают. Понятие В считается ассоциированным по смыслу с понятием А, если наименование первого понятия включает в себя все слова, выражающие содержание второго понятия, но главные слова не совпадают (например, понятие применение ЭВМ для поиска информации является ассоциированным по смыслу с понятием поиск информации ), [c.237]

    Распределение частот появления в текстах различных наборов грамматической информации к словам (получено по тексту объемом 500000 слов) [c.269]

    РАСПРЕДЕЛЕНИЕ ЧАСТОТ ПОЯВЛЕНИЯ ФЛЕКТИВНЫХ КЛАССОВ СЛОВ И НАБОРОВ ПЕРЕМЕННОЙ ГРАММАТИЧЕСКОЙ ИНФОРМАЦИИ [c.304]

    Распределение частот появления различных наборов переменной грамматической информации слов [c.306]

    Грамматическая информация к слову характеризует его свойства в различных контекстных окружениях и включает морфологические, синтаксические и семантические признаки. Она может, например, содержать сведения о принадлежности слова к определенному грамматическому или семантическому классу, о характере изменения его формы в различных контекстных окруже- [c.87]

    В результате морфологического анализа основы слов заменяются их порядковыми номерами по словарю и сопровождаются грамматической информацией, которую могут нестп формы слов без учета окружения в тексте. Морфологический синтез слов является заключительным этапом процесса декодирования сообщений, записанных на информационном языке, в результате которого осуществляется формирование буквенного кода слова по номеру основы и сопровождающей его грамматической информации, В основу построения алгоритмов автоматического морфологического анализа и синтеза положено разбиение всех слов на классы, определяющие характер изменения буквенного состава форм слов. Эти классы условно названы м о р ф о л о г и ч е с к и м и. [c.95]

    В процессе флективного анализа основа слова может не найтись в словаре. Это возможно в тех случаях, когда анализируемое слово имеет основу типа II в вариантной форме или является сложиым словом с внутренней флексией или когда основа анализируемого слова не представлена в словаре ни в канонической, ни в вариантной форме. До окончания флективного анализа слова обычно неизвестно, какой из трех перечисленных случаев имеет место. Вначале анализируемое слово проверяется на возможность наличия вариантной формы основы типа II. Если эта возможность вероятна, то вариантная форма основы заменяется на каноническую и проверяется правильность этой замены с помощью словаря ОСНОВ. При положительном результате проверки определяется номер основы и грамматической информации к слову. [c.103]

    Синтез форм неизменяемых слов сводится к простой выборке из словаря буквенного состава их основ. В некоторых случаях к последнему приформировывается возвратная частица. Формы изменяемых слов составляются из буквенных кодов их основ и окончаний. В случае необходимости к основе слова приформировывается внутренний мягкий знак, а к окончанию—возвратная частица ся или сь . Кроме того, канонические формы основ типа П, П1, IV заменяются на вариантные. Необходимость замены канонической формы основы на вариантную определяется но номеру основы и oinpo-вождающей его грамматической информации. [c.104]

    В табл. 7.3 грамматическая информация представлена в закодированном Виде. Здесь иапользуются следующие условные обозначения. Для синтаксического класса существительные первая цифра в каждой паре [c.105]

    У, в tpetьeм столбце — отсылки к канонйческим формам слов (согласно системе нумерации первого столбца), а в четвергом столбце — номера наборов грамматической информации (согласно табл. 7.3). [c.126]

    На этапах 1—3 морфологического анализа для получения грамматической информации о слове используются таблицы двухбуквенных и четырехбуквенных признаков. Общий объем этих таблиц составляет 11 066 элемен- [c.158]

    TOB. Если изъять из них четырехбукзенные признаки, не несущие новой информации по сравнению с двухбуквенным признаками, то их общий объем может быть сокращен до 6 566 элементов. Этап 4 приближенного морфологического анализа выполняется по тем же правилам, что и при точном морфологическо.м анализе номер набора переменной грамматической информации к слову определяется по номеру флективного класса и номеру окончания. [c.159]

    Если слова отождествляются с помощью словаря основ, то для каждого слова наименования понятия указывается номер канонической формы основы, номер флективного класса и набор переменной грамматической информации. При это.м постоянная информация к словам определяется по номерам их флективных классов. Это оказывается возхтожным благодаря тому, что система классификации слов отражена в нумерации флективных классов (см. табл. 7.1). [c.167]

    При составлении словаря основ слов используются алгоритмы точного и приближенного морфологического анализа (см. гл. 7, 8). Если словарь составляется заново, с нуля , то выделение основ слов и назначение им грамматической информации осуществляется с помощью процедуры приближенного морфологического анализа. Если он составляется а базе ранее составленного словаря, то поиск в исходном словаре производится с помощью процедуры точного морфологического анализа, а поиск в дополнительной части словаря — с помощью процедуры приближенного анализа. Обращение к до-полнительпой части словаря происходит после того, как очередное слово не было найдено в исходном словаре. [c.197]


Смотреть страницы где упоминается термин Грамматическая информация: [c.123]    [c.123]    [c.125]    [c.126]    [c.134]    [c.138]    [c.167]    [c.172]   
Автоматизированные информационные системы (1973) -- [ c.0 ]




ПОИСК





Смотрите так же термины и статьи:

Информация



© 2025 chem21.info Реклама на сайте