Анализ естественных классов лингвистических объектов при помощи дискриминантного анализа
С.Н.Андреев
В данном сообщении ставится задача показать возможности использования дис-криминантного анализа для классификации лингвистического материала, проводимой в соответствии со следующими принципами:
выделение политетических классов;
использование многомерного и дедуктивного по направлению подхода. Под политетическим классом понимается такая группа единиц, которая объединяется на основании большого числа сходных признаков, каждый из которых не явля-ется обязательным для включения объекта в данный класс [Sokal, Sneath 1963, с.13].
В область многомерных задач исследование вступает в том случае, если начинает учитываться совместная вариация как минимум двух признаков для нескольких объек-тов. Многомерные данные, таким образом, задают значения нескольких переменных для нескольких объектов, то есть Xij, где i – соответствует объекту, а j - переменной.
Целесообразность использования многомерного подхода состоит в том, что он по-зволяет свести большое количество наблюдений к ограниченному числу обобщающих выводов. Т.е. используя десятки и даже сотни параметров можно «сжать» информацию и получить представление об основных тенденциях, которые в противном случае будут распылены.
Классификационное исследование может проводиться в рамках двух альтернативных подходов: индуктивного и дедуктивного [Любищев 1975].1
Индуктивный подход заключается в определении оптимального разбиения совокупности изучаемых объектов на непересекающиеся классы по принципу "похожести" свойств этих объектов. Внутри групп объекты должны быть сходны между собой, а объекты разных групп - далеки друг от друга (достаточно различаться).
Никакие априорно заданные из предшествующего опыта, исторически сущест-вующие группировки во внимание не принимаются.
Основные принципы данного подхода в применении к анализу эмпирического материала были сформулированы в работах "нумеристов" (нумерическая систематика), которые, в свою очередь, развивали идеи М.Адансона, отчего их направление в систематике называлось еще и "нео-Адансоновским". Задача состояла в том, чтобы соотнести все возможные признаки животного мира и на этом основании построить «объективную», не зависящую от интуиции исследователя систематику.
Главной причиной обращения к такому индуктивному методу нумеристы счита-ли стремление к большей объективности, желание выйти за рамки схем, навязываемых традицией данной науки, и, в целом, всей культуры. Одним из основных ограничений такого подхода к классификации является неясность интерпретации получаемых групп объектов или признаков.
Математической процедурой, наиболее часто применяемой в рамках этого под-хода, является кластерный анализ.
При дедуктивном подходе сопоставляются классы объектов, выделяемые на основании предыдущего опыта науки и интуиции самого исследования. Этот метод классификационного анализа получил особо широкое развитие в работах по биологии и восходит к систематике К.Линнея, согласно афоризму которого не признаки определяют род, а род определяет признаки [Любищев 1975].
Одним из наиболее подходящих для проведения многомерного дедуктивного ана-лиза эмпирического материала методов (при наличии естественных классов) является дискриминантный анализ.
Дискриминантный анализ - это статистический метод, который позволяет изучить различия между двумя и более группами объектов по нескольким переменным одновременно и решает вопросы интерпретации межгрупповых различий, а также классификации новых наблюдений по группам [Клекка 1989, с. 80-82; Дженнрич 1986]. Этот метод разрабатывался с конца 50-х годов XX века. В числе разработчиков этого метода – П.Махаланобис, Р.Фишер, Г.Хоттелинг и др. Хорошие результаты его использования имели место в биологии, медицине, психологии, социологии, экономи-ке и др. науках.
В рамках комплексной темы по многомерному анализу языковых и речевых дан-ных, проводимых на кафедре иностранных языков, были получены некоторые резуль-таты применения дискриминантного анализа, которые приводятся для иллюстрации возможностей этого метода.
Литература
Дженнрич Р.И. Пошаговый дискриминантный анализ // Статистические методы для ЭВМ. М.: Наука, 1986. С. 94-112.
Клекка У.Р. Дискриминантный анализ // Факторный, дискриминантный и кластерный анализ. - М.: Финансы и статистика. 1989. С.78-138.
Любищев А.А. О некоторых постулатах общей систематики // Зап. науч. семинаров Ленинград, отд-ния математ. ин-та АН СССР. 1975. Т.49. С.159-175.
Sokal R.R., Sneath P.H.A. Principles of Numerical Taxonomy. – San Francisco and London: W.H.Freeman and Co., 1963.
вернуться к списку докладов