Некоторые методологические проблемы корпусной лингвистики
Г.Я.Мартыненко
Методы корпусной лингвистики можно разделить на две группы: методы формирования корпуса и методы его исследования. Обе группы методов существуют не изолированно, а активно включаются в сферу междисциплинарных исследований.
Важную роль в корпусостроении занимает системно-ценотический подход, в основе которого лежит противопоставление мерономии и таксономии (Ю.Шрейдер, А.Мейен), собирательных и разделительных категорий (С.Чебанов, Г.Мартыненко), внутренних и внешних систем (Ю.Шрейдер), естественных и искусственных совокупностей (А.Чупров).
В последнее время на первые роли в осознании структуры корпуса и корпусоподобных образований выходят идеи синергетики (социодинамики) (Р.Альтман, Р.Келлер, Б.Кудрин, Р.Пиотровский), в которых центральное место занимают холистические представления (Ю.Орлов, Ю.Шрейдер, С.Чебанов, Г.Мартыненко), основанные на интерпретации онтологического статуса части и целого. Важную роль в такого рода представлениях занимает противопоставление совокупности текстов и их конгломерата.
На тексты, образующие корпус, могут быть «навешаны» признаки трех типов: пространственно-временные, структурные и статусные. Пространственно-временные признаки локализуют корпус к определенным рамкам времени и пространства. При этом пространство или время может пониматься не только в буквальном («физическом») смысле, но и как привязка к определенным тематическим, авторским, жанровым и пр. «координатам». Структурными будут признаки, характеризующие организацию корпуса (объем корпуса, меры его целостности, однородности, устойчивости и т.п.). Статусные признаки отражают значимость, ценность, популярность текста в конкретной социо-культурной среде. Они могут измеряться тиражностью текста, индексами цитируемости, величиной читательского спроса, размером словарной статьи в энциклопедии, посвященном автору текста или самому тексту, коллективным мнением респондентов, профессиональными оценками специалистов, авторитетностью издания или издательства и т.п.). Статусные признаки могут «навешиваться» также и на отдельные корпуса в рамках гиперкорпусов, например, в рамках корпусов национальных языков. Таким признаком может быть, например, мощность информационного потока по различным функциональным стилям, жанрам, видам деятельности, тематическим направлениям и т.п.
Наряду с целостностью весьма существенной системообразующей характеристикой корпуса является фактор представительности, но в понимании этого фактора перекрещиваются лингвистические, литературоведческие и теоретико-статистические представления, которые не всегда согласуются друг с другом.
Для литературоведа при формировании корпуса обычен антологический подход, корпус для него – это прежде всего собрание текстов, принадлежащих наиболее типичным, образцовым авторам данной эпохи, чаще всего выдающимся, при этом синхроническая или даже ахроническая «великость», «значимость», «авторитетность» писателя часто подвергается ревизии.
Для лингвиста, формирующего корпус, характерен суммативный подход – стремление включить в корпус максимальное число текстов, для него представительность корпуса – это в первую очередь его размер корпуса. При этом лингвист явно или неявно тяготеет к созданию гиперкорпусов , отражающих лингвистические ресурсы конкретного национального языка. При этом, будучи воспитанными на классических образцах художественной литературы и находясь в постоянном взаимодействии с литературоведами в рамках единых организационных структур, лингвисты при формировании гиперкорпусов вольно или невольно делают крен в пользу именно таких текстов.
Для статистика представительность корпуса определяется не только его размером, но также колеблемостью признака в генеральной совокупности, способом отбора текстов и величиной задаваемой ошибки. При этом применительно к корпусостроению крайне важным аспектом для статистики является тот или иной способ районирования генеральной совокупности, который, как правило, лингвистами игнорируется. Ради справедливости следует, однако отметить, что в практической статистике существуют не вполне статистические способы формирования совокупности. Здесь возможно и сплошное наблюдение, и так называемый способ основного массива. Последний полностью согласуется с антологическим подходом в литературоведении и не противоречит суммативному подходу в лингвистике.
вернуться к списку докладов