Александр Пиперски о том, как выразить литературу в цифрах и формулах

Можно ли исследовать цифровыми методами литературу, а главное, зачем это нужно? Человечество научилось анализировать гигантские объемы данных из разных сфер науки: астрономии, физики, химии или генетики. Но как быть с большими собраниями сочинений? Могут ли филологи и лингвисты в считанные часы собрать, например, все стихи поэтов Серебряного века и извлечь из них какие-то общие тенденции и закономерности?

Сделать это с помощью медленного вдумчивого чтения почти невозможно, поэтому специалисты часто прибегают к методам компьютерной лингвистики, математической статистики, теории графов и другим областям науки. Обо всем этом лекция кандидата филологических наук, преподавателя кафедры компьютерной лингвистики Института лингвистики РГГУ, научный сотрудник школы филологии НИУ ВШЭ Александра Пиперски.

– Я не пожалел, что попал на лекцию Александра Чедовича. Мне, как математику, было интересно узнать о применении в литературе вычислительных формул и расчетов, – делится впечатлениями 16-летний Николай Силаев из Екатеринбурга, направление «Наука».

Русский филолог-медиевист Борис Исаакович Ярхо, исследуя историю жанра, решил выделить четыре жанровых признака трагедии, которые можно обозначить числовыми параметрами (например, количество явлений или действующих лиц в пьесе) и показать, как эволюция трагедии делится на периоды (ранняя, поздняя классика или романтика). Опираясь на эти периоды, Ярхо установил границы между ними, а затем вычислил не только их количественные признаки и различия, но и частоту их сочетаний в разных текстах, а также отразил на шкале место промежуточных произведений (например, между прототипической трагедией и прототипической комедией).

Сложность этих исследований заключалась в том, что Ярхо проводил все вычисления вручную и такое трудозатратное занятие одному или даже нескольким специалистам оказалось не под силу.

Сегодня можно сделать тоже самое, с помощью онлайн-ресурсов. В Рунете больше десяти лет существует основанная на собрании русских текстов в электронной форме информационно-справочная система – Национальный корпус русского языка (НКРЯ), который является самым главным инструментом лингвистов и упрощает применение количественных данных при оценке частотности в сфере стилистических норм.

– Раньше слышала о применении компьютерных методик в изучении литературы, филологии и лингвистики, но никогда не видела, как это работает на деле. Здорово, что Александр Чедович показал нам возможности Национального корпуса русского языка на примере. Это был занимательный эксперимент, в котором сошлись человеческий, гуманитарный и цифровой факторы, – подытожила 16-летняя Лера Воронова из Екатеринбурга, направление «Литературное творчество».

Александр Пиперски, лингвист. Область научных интересов – корпусная лингвистика, количественные методы в филологии, социолингвистика. Выпустил книгу «Конструирование языков. От эсперанто до дотракийского» в которой рассказывает о классификации искусственных языков и о том, как умело они используются в разных сферах: философии, науке и искусстве.