Проблемы снятия омонимии в английском языке.


Курстак С.
КНЛУ, Киев

Омонимия - это проявление особого качества языкового знака: разным определяемым отвечают тождественные означающие. В силу этого омонимия создает трудности в процессе коммуникации.
Довольно большие трудности возникают при создании систем автоматического анализа текста, а также в лексикографической работе: при отборе единиц из частотного словаря, при определении границ между отдельными словами в общем словаре языка, при разработке способов представления в нем омонимических слов и т.д.
В работе проводилось исследование омонимического состава англо-украинского учебного словаря второго уровня. Омонимы исследовались как группы, выделенные по типу омонимии.
Группы также выделялись как ряды: в словаре встретились омонимические пары, тройки, четверки и пятерки.
Предмет исследования: 50 омонимических пар типа «существительное-глагол» в английском языке.
На основании исследования можно предложить способ преодоления омонимии типа «существительное-глагол».
Для проведения исследования из словаря отобраны все омонимические пары, тройки, четверки и пятерки
Омонимы были разделены на группы по типу и была приведена их частота. На основании самой частотной группы «существительное-глагол» была создана механическая выборка из 50 омонимических пар.
Средствами созданной программы реализован способ снятия омонимии в ее частичном варианте («существительное-глагол» для 50 омонимических пар).
Омонимические словоформы заложены в массив. Кроме 50 исходных форм, в массиве есть все омонимические формы слов из 50 пар, например, “award->awards”.
Получив текст, программа распределяет его на словоформы, и, с целью облегчения доступа к нему, записывает в базу данных, где каждое слово получает свое уникальное место и номер. С текстом в таком виде, следующая операция – это сравнение словоформ введенного текста с омонимическими формами в массиве. При соответственном совпадении начинает работать модуль Determine, который при помощи диагностических и дифференциальных признаков и свойств соответственных частей речи, однозначно (или с высокой степенью вероятности) можно снять омонимию. При помощи цепочки простых правил в алгоритм Determine включена также система определения вероятности правильности результата. На выходе пользователь получает упорядоченную в виде списка информацию об омонимических формах, которые встретились во введенном тексте и определенную часть речи для каждой из них с определенной вероятностью.

-= wordform NounProbability(%) VerbProbability(%)=-
-= ‘advance’ ‘95% out of 100’ ‘0% out of 100’ =-

Модуль Determine разделен на 2 части:

В каждом наборе правила также делятся на графические (однозначные), которые определяют часть речи непосредственно по графическим указателям или другим, которые могут указывать на часть речи без контекстного анализа, и синтаксические (контекстные), которые определяют часть речи по контексту, соединяем ости...

Диагностические признаки существительного
Графические

  1. если слово написано с большой буквы и стоит не в начале предложения

  2. если слово заканчивается на “’s”/ “s’”

Синтаксические
  1. если предыдущее слово – не омонимическое прилагательное

  2. если предыдущее слово – артикль

  3. если предыдущее слово – присвоительное местоимение

  4. если предыдущее слово – числительное (количественное или порядковое)

  5. если предыдущее и следующее слово в разных вариациях — местоимения, наречия, предлог.

Диагностические признаки глагола

Некоторые из описанных выше признаков с почти 100% вероятностью определяют часть речи, в то время как другие дают лишь частичную вероятность и срабатывают только во взаимном соединении. Количество возможных комбинаций довольно большое.

вернуться к списку докладов

Hosted by uCoz