Омонимия в Национальном корпусе русского литературного языка
Е.В. Грудева, Н.И. Кулакова
Проблема омонимии имеет давнюю историю. Однако в большинстве случаев лингвистов интересовала прежде всего лексическая омонимия. Ср., например, в статье «Омонимия» в «Лингвистическом энциклопедическом словаре» две трети объёма посвящено именно лексической омонимии. Однако в той же статье указывается и на «смежные» с омонимией явления – такие как омография и омофония, и на другие (не лексические) типы омонимии, например, на грамматические омонимы. Думается, что исторически такой пристальный интерес именно к лексической омонимии (и в некотором роде равнодушие к омонимии другого рода) связан прежде всего с доступностью/недоступностью эмпирического материала: лексические омонимы – это то, что лежит на поверхности языка; по крайней мере, составитель любого толкового словаря сталкивается с этой проблемой и должен её как-то решать.
Сказанное, конечно, не означает, что лингвисты вовсе не видели, что все уровни языка пронизаны омонимией. В этом отношении показательна статья Ю.С. Маслова «Омонимы в словарях и омонимия в языке (к постановке вопроса)», в которой предлагается следующее определение омонимии: «Мы будем понимать под омонимией всякое тождество звучания двух (или нескольких) разных означающих как на «уровне» слов, так и на «уровне», с одной стороны, морфем и морфемосочетаний, а с другой – словосочетаний» (разрядка авторская) (Маслов 2004: 765). Рассматривая различные типы омонимов (включая рассуждения и по поводу омографов и омофонов), Ю.С. Маслов приходит к следующему выводу: «Омонимия пронизывает весь язык, все «уровни» или «ярусы» его структуры, все его звенья. Вероятно, именно в широком распространении омонимии состоит одно из важнейших отличий всякого естественного языка, складывающегося стихийно на протяжении веков и тысячелетий, от тех искусственных «семиотических систем», созданных по произволу человека, с которыми язык (во многих других отношениях весьма правильно и правомерно!) сравнивают» (Маслов 2004: 770).
С появлением новых лингвистических инструментов, прежде всего больших аннотированных корпусов языка, в руки лингвистов попадает богатый эмпирический материал, «закрытый» для них в прежних условиях. Так, разработчики Национального корпуса русского литературного языка (далее в тексте – НКРЛЯ) при акцентной разметке текстов столкнулись с проблемой существования в русском языке огромного количества омографов. Результатом такой работы стал «Словарь омографов русского языка» (СПб., 2004), в который вошло более четырёх тысяч пар (троек) омографов, т.е. таких пар (троек) слов (и словоформ), которые пишутся одинаково, а звучат по-разному (прежде всего за счёт разного места ударения). До сих пор в русистике бытовало мнение, что число омографов в русском языке невелико, ограничивается, может быть, одним-двумя десятками случаев.
НКРЛЯ представляет собой также собрание морфологически аннотированных текстов. Процедура морфологической разметки носит полуавтоматический характер: каждый текст размечается с помощью специально разработанной программы, которая обращается к словарю морфологически размеченных словоформ; в случае отсутствия грамматических омонимов в словаре программа автоматически приписывает описатели словоформы из словаря соответствующей словоформе текста, а в случае наличия таковых (омонимов) программа предлагает осуществить выбор в зависимости от контекста оператору.
Работа над созданием словаря морфологически аннотированных словоформ позволяет выявить пределы грамматической омонимии в русском языке. Так, например, словоформа прилагательного большо+й представлена в словаре шесть раз: дважды как словоформа мужского рода – в именительном и винительном падежах соответственно, и четырежды как словоформа женского рода – в родительном, дательном, творительном и предложном падежах соответственно. Учитывая, что в русском языке имеется и межчастеречная омонимия, ряд грамматических омонимов может носить более протяжённый характер. Например, словоформа больно+й будет представлена в словаре шесть раз как прилагательное и пять раз как (субстантивированное) существительное (существительное мужского рода в форме именительного падежа и существительное женского рода в форме родительного, дательного, творительного и предложного падежей соответственно).
Наконец, НКРЛЯ учитывает ещё один – малоизученный – тип омонимии, связанный с понятием «составное слово». Под составными словами разработчики корпуса понимают такие неоднословные целостности, где а) по крайней мере одно из слов не употребляется вне данного сочетания (без умолку); б) в рамках неоднословной целостности нарушаются правила управления или согласования (в течение); в) ни одна из словоформ в составе неоднословной целостности не может быть опущена без нарушения её семантики – возможно, за вычетом семантики опущенного слова - и функций (ср. она все равно не узнает -> она все не узнает -> она равно не узнает ) – иначе говоря, все равно является составным словом, в отличие от поодаль от (ср. она села поодаль от Петра -> она села поодаль, т.е. поодаль от не является составным словом) (подробнее о составных словах и идиомах см.: Венцов и др. 2004(в); Венцов и др. 2004(г)).
В словаре, с которым работает программа, предусмотрено два класса составных слов – так называемые абсолютивные составные слова (не имеющие омонимичных свободных сочетаний (слова типа без_у+молку, на_побегу+шках)) и так называемые опциональные составные слова (единицы, образующие омонимию с формально совпадающими на уровне означающих свободными сочетаниями (типа в_живы+х, мо+жет_быть)). Класс опциональных составных слов по численности явно преобладает (на сегодняшний день он составляет около 800 единиц; тогда как в класс абсолютивных единиц попадает около 400 единиц).
Проблема омонимии (учитывая все вышеперечисленные её виды) должна каким-то образом решаться и при моделировании процедур восприятия речи (понятно, что при порождении речи проблема омонимии не возникает, т.к. говорящий осуществляет переход от смысла к тексту; для говорящего смысл является точкой отсчёта, тогда как для слушающего именно установление смысла (значения) с опорой на текст является сверхзадачей). О том, как могут соотноситься корпусные исследования с исследованиями восприятия речи, см., например, Венцов и др. 2003.
В рамках исследования омонимии было проведено психолингвистическое исследование, в ходе которого изучались отношения между лексическими омонимами. Отношения в паре (или тройке) омонимов могут быть различны: частота и сфера употребления разных омонимов из пары, актуальность каждого из них, число связанных с каждым из них единиц и т.п. определяют «меру их несвязанности», их статус и особенности функционирования в группе омонимов.
Из МАСа были отобраны 33 пары (тройки) слов-омонимов. Затем анализу были подвергнуты соответствующие словарные статьи РАС с тем, чтобы выявить степень симметричности отношений между омонимами в паре-тройке (подсчитывалось, как с точки зрения семантики распределяются реакции на определённый стимул, который мог возводиться к тому или иному омониму). Далее был проведён направленный ассоциативный эксперимент, в ходе которого испытуемым предлагался список всё тех же слов с просьбой составить на каждое по три предложения. И, наконец, по Национальному корпусу русского языка ( http://ruscorpora.ru/index.html были получены данные о частотности каждого члена из омонимичной пары (тройки).
Один из основных выводов проведённого исследования заключается в том, что ассоциативная частотность (ассоциативная сила) каждого из омонимов (количество реакций и их качество в ассоциативном поле) коррелирует с частотой его употребления (по корпусу текстов). Данные эксперимента сопоставимы как с данными Корпуса, так и с данными РАС. Чем выше речевая частотность одного из омонимов в паре сравнительно с другим, тем с большей вероятностью его реакции окажутся в ядре ассоциативного поля, будут наиболее разнообразны и частотны.
В заключение выразим надежду, что проблема омонимии в самом широком смысле слова будет иметь интересную дальнейшую научную историю в связи с появлением такого научного инструмента, как представительный корпус аннотированных русских текстов.
Литература
Венцов А.В., Грудева Е.В., Касевич В.Б., Сведенцова Е.А., Слепокурова Н.А. О морфологии в Национальном корпусе русского языка // Материалы ХХХIII международной филологической конференции (15-20 марта 2004 г., Санкт-Петербург). Вып. 24 «Общее языкознание». Ч. 2. СПб, 2004(а). С. 3-8.
Венцов А.В., Грудева Е.В., Касевич В.Б. Морфологическая проблематика в Национальном корпусе русского литературного языка // Международная конференция «Корпусная лингвистика – 2004» (12-14 октября 2004 г.). Тезисы докладов. СПб.: Изд-во Санкт-Петербургского университета, 2004(б). С. 18-20.
Венцов А.В., Грудева Е.В., Касевич В.Б., Ягунова Е.В. Национальный корпус русского литературного языка: некоторые результаты, приложения и задачи // Научно-техническая информация. Сер. 2. Информационные процессы и системы / Всероссийский ин-т научной и технической информации. М.: ВИНИТИ, 2005. № 6. С. 35-40.
Венцов А.В., Касевич В.Б., Ягунова Е.В. Идиома, слово, фонетическое слово // Язык и речь: проблемы и решения: Сб. науч. трудов к юбилею проф. Л.В. Златоустовой / Под ред. Г.Е. Кедровой, В.В. Потапова. М., 2004(в). С. 357-363.
Венцов А.В., Касевич В.Б., Ягунова Е.В. Корпус русского языка и восприятие речи // Научно-техническая информация.. Сер. 2. Информационные процессы и системы. М., 2003. № 6. С. 25-32.
Венцов А.В., Грудева Е.В., Касевич В.Б., Ягунова Е.В. Об идиомах в национальном корпусе русского языка // Международная конференция «Корпусная лингвистика – 2004» (12-14 октября 2004 г.). Тезисы докладов. СПб.: Изд-во Санкт-Петербургского университета, 2004(г). С. 17-18.
Венцов А.В., Грудева Е.В., Касевич В.Б., Корешкова Е.И., Сведенцова Е.А., Ягунова Е.В. Словарь омографов русского языка. СПб.: Изд-во Санкт-Петербургского университета, 2004.
Лингвистический энциклопедический словарь. М., 1990.
Маслов Ю.С. Омонимы в словарях и омонимия в языке (к постановке вопроса) // Маслов Ю.С. Избранные труды: Аспектология. Общее языкознание / Сост. и ред. А.В. Бондарко, Т.А. Майсак, В.А. Плунгян. М.: Языки славянской культуры, 2004. С. 765-770.
вернуться к списку докладов