Классификация стихотворных текстов
В.С.Андреев
В данном исследовании проводится классификация стихотворных текстов на ос-нове широкой парадигмы разноуровневых признаков.
Материалом послужила выборка лирических стихотворных текстов американских поэтов В.Брайента, Г.Лонгфелло, Р.Эмерсона и Э.По, заложивших основу американской стихотворной традиции, а также Дж.Уитьера – одного из наиболее известных американских поэтов середины и второй половины 19 века. Общий объем выборки составил более 4800 строк.
Выбор стихотворного текста в качестве материала исследования обусловлен тем, что он обладает повышенной упорядоченностью, по сравнению с прозаическим тек-стом, что с одной стороны налагает на него определенные ограничения, а с другой – приводит к значительно более сильно выраженной соотнесенности составляющих его единиц.
Для классификации нами использовался метод дискриминантного анализа. Дан-ный вид анализа является одной из процедур многомерного анализа данных и позволя-ет, во-первых, ответить на вопрос о степени сходства (близости) нескольких групп объектов с выявлением признаков, дифференцирующих эти классы и, во-вторых, определить, к какой из изучаемых групп относится спорный (неясный) случай [Клекка 1989].
На первом этапе исследования сопоставлялись тексты Брайента, Эмерсона, Лонг-фелло и По, и на их базе определялись признаки, релевантные для разграничения идео-стилей авторов. На втором этапе полученная модель использовалась для определения степени сходства идеостиля Уитьера и рассмотренных четырех авторов.
Каждое исследуемое произведение этих четырех авторов было описано с помо-щью 43 фонетических, морфологических, синтаксических, рифменных и ритмических признаков [Баевский 2001]. Из них 35 признаков оказались релевантными для разграничения индивидуальных стилей авторов. Эти признаки сформировали модель, которая с высокой степенью вероятности (более 95%) позволяет дискриминировать исследуемые классы текстов.
Все тексты упомянутых авторов распадаются на два класса. Первый включает произведения Брайента и Лонгфелло, второй – Эмерсона и По. Это соответствует тра-диционному мнению о направлениях в американском романтизме 19 века, однако в от-личие от литературоведческих работ получено на основании лингвистических призна-ков. Наши данные позволяют уточнить существующие представления о соотношении стиля этих авторов.
Так, наиболее близкими (сходными) из всех являются идеостили Брайента и Лонгфелло, а наиболее далекими, т.е. наиболее различными – Брайента и По. Лонгфел-ло занимает «центральное» положение. По, напротив, в наибольшей степени отличается от остальных.
Тексты Брайента и Лонгфелло отличаются от текстов Эмерсона и По главным образом признаками, которые отражают структурные особенности стихотворного текста, в частности особенности ритмической структуры стиха, количество точных и неточных рифм, мужских рифм и др. На втором месте вклад синтаксических характеристик (синтаксическая функция слов в начали и конце строки, количество предложений с инверсией и др.); вклад морфологических признаков (количество слов различных частей речи в начале и в конце строки) минимален. В разграничении индивидуальных стилей Эмерсона и По, напротив, морфологические признаки играют ведущую роль. Стилевая дифференциация Брайента и Лонгфелло определяется равными вкладами морфологического и синтаксического уровней.
Следует отметить, что если частеречная принадлежность слова в конце строки рассматривается различными исследователями как значимый признак, характеризующий идеостиль автора, то аналогичная роль синтаксической функции слова в начале строки ранее не учитывалась вовсе.
На втором этапе исследования сформированная ранее модель используется для атрибуции дополнительной группы объектов – текстов Уитьера – относительно двух полученных классов (Брайент – Лонгфелло и Эмерсон – По). Для этого его произведения были описаны выделенными тридцатью пятью признаками и в пространстве этих признаков сопоставлены с текстами двух классов.
В результате оказалось, что тексты Уитьера оказались ближе к текстам класса Брайент – Лонгфелло. Это сходство определяется в первую очередь структурными свойствами стиха (стихотворной строки), а наибольшие различия проявляются на морфологическом уровне и на уровне синтаксиса.
В докладе приводятся данные о дискриминантной силе разноуровневых призна-ков, о распределении текстов в многомерном пространстве признаков модели.
Литература
Баевский В.С. Лингвистические, математические, семиотические и компьютерные модели в истории и теории литературы. М.: Языки славянской культуры, 2001.
Клекка У.Р. Дискриминантный анализ // Факторный, дискриминантный и кластерный анализ. - М.: Финансы и статистика. 1989. С.78-138.
вернуться к списку докладов