Александр Пиперски – о том, почему лингвистам интересно изучать мемы и можно ли обмануть учителя сочинением от нейросети

Поводов для встречи с руководителем программы «Лингвистика», доцентом Российского государственного гуманитарного университета, кандидатом филологических наук Александром Пиперски оказалось сразу несколько. Накануне прошел курс очных занятий по автоматической обработке естественного языка для участников апрельских профильных программ по физике и химии, 27 апреля завершается прием заявок на октябрьскую образовательную программу, а 1 мая на платформе «Сириус.Курсы» стартует модуль по лингвистике для всех желающих. Мы поговорили с экспертом о том, чем полезны массовые открытые онлайн-курсы по лингвистике, как меняются культурные коды поколений и как лингвисты учат нейросети понимать языки разных народов.

– Александр, расскажите, какие новинки на платформе «Сириус.Курсы» вы готовите для тех, кому интересно изучать язык?

– Пока у нас есть два открытых курса, в ближайшее время их станет шесть. Заканчивается прием заявок по фонетике и графике, в мае откроется курс по морфологии. Уже досняли семантику – курс о значении слов, почти закончили съемку компьютерной лингвистики, еще будет лингвистическая антропология – про связь языка и общества. Снимаем синтаксис. Зачем все это нужно проходить? Я думаю, потому что интересно. Мы все говорим на человеческом языке, и здорово понять, как он устроен. Как правильно писать «-ться» или «-тся» – это как раз малоинтересные вещи, которые не имеют никакого отношения к тому, как построена реальная языковая способность человека, его умение говорить на языке. Нас ничему такому не учат. Ведь ребенок пятилетний не знает, что такое падежи, склонения, спряжения. Тем не менее прекрасно понимает, что надо сказать «есть вилкой», а не «есть вилку». Именно о том, как устроен русский и другие языки, наш онлайн-курс, и мы рады видеть там всех, кому это интересно. С одной стороны, мы не уходим в совсем глубокие технические подробности, с другой стороны, рассказываем много интересных и неожиданных фактов. Таких доступных курсов по лингвистике не очень много.

– В ноябре в «Сириусе» прошла международная российско-индийская программа. Вы со школьниками помогали собрать данные и улучшить качество машинного перевода для национальных языков России и Индии. Как проект развивается сейчас?

– Скоро мы запустим большой красивый сайт, который посвящен оценке машинного перевода на языки народов России и Индии. Это другая сторона лингвистики, которую мы в том числе рассматриваем на наших программах и онлайн-курсах. Речь о прикладной, компьютерной лингвистике, создании практических инструментов, чтобы машина могла правильно переводить с языка на язык. Наш проект поможет усовершенствовать компьютерный перевод на такие достаточно крупные языки России, как татарский, башкирский и якутский, из индийских – на многомиллионные языки гуджарати и маратхи. Мы выяснили, что у машинного перевода на не-мировые языки много проблем. При этом на них говорит большое количество людей. И когда в Яндекс.Переводчике появляется перевод на татарский, удмуртский или башкирский – это важное событие в жизни сообщества. Пока многие системы работают скорее как словари: если ввести отдельное слово, то они переведут его верно. Но со смыслом, с целым предложением они не всегда справляются.

– Поэтому так важно привлечь эти языковые сообщества к участию в вашем проекте?

– Да, это едва ли не самая сложная задача проекта – вовлечь людей. Потому что с технической частью ребята, участники проекта, справились без проблем, они прекрасно умеют программировать, и сайт отлично работает. Но для того чтобы нам дальше заниматься изучением качества машинного перевода, нужны большие массивы данных и участие пользователей, активных носителей языка, языковых активистов.

– На чьей вы стороне в знаковом споре о том, язык определяет мышление его носителей или наоборот?

– Это знаменитая гипотеза лингвистической относительности Сепира – Уорфа. Я бы сказал аккуратно. Тот факт, что мышление и окружающая действительность определяют язык, кажется, вообще-то, не очень интересным. Интересна обратная идея: язык определяет мышление – то, как мы говорим, накладывает линии на то, как мы видим окружающий мир. Но в очень небольших дозах. Есть эксперименты, которые показывают, что носитель русского языка чуть-чуть быстрее различает цвета границы синего и голубого, потому что у нас два разных слова для этого. А у носителя английского языка только слово blue. Хотя есть light blue, dark blue, но все равно это слова не по умолчанию. А мы обязаны говорить синий или голубой, поэтому границу чувствуем чуть быстрее. Но разница в десятки миллисекунд. У нас есть одни когнитивные преимущества, у носителя английского – другие.

– А помните, было массовое исследование о том, как в разных регионах продолжат фразу про жадину-говядину: соленый огурец или турецкий барабан? Что нового такие работы нам открывают?

– Это интересная тема – отличия в вариантах русского языка. У меня были исследования, которые позволяют по лингвистическим корпусам, по большим массивам текста определять, какие слова частотнее в тех или иных регионах. Бывают разные интересные и неожиданные находки. Например, у русского языка фактически есть национальные варианты. В России сказали бы «он такой красивый», а в Беларуси на русском иногда говорят «такой уже где красивый». Поскольку моя семья со стороны мамы родом из Киева, у меня в речи есть элементы украинского варианта русского языка, и люди, которые со мной разговаривают, с изумлением обнаруживают, что не понимают меня.

– Например?

– Есть любимое выражение «в свинячий голос», понимаете, что это значит?

– Наверное, громко?

– Нет, можно прийти в свинячий голос, то есть слишком поздно, когда все уже прошло. Если я пришел на часовую лекцию с 50-минутным опозданием, то пришел в свинячий голос. Я совершенно спокойно употреблял это экспрессивное выражение. Оказалось, что оно в ходу в украинском варианте русского языка, а в российском практически не представлено. Такие вещи можно изучать по большим собраниям текста, в том числе в Генеральном интернет-корпусе русского языка, в создании которого я когда-то участвовал. Это, кстати, один из аспектов нашей образовательной программы, мы много занимаемся такими корпусными, дифференциальными исследованиями, изучаем, как по-разному говорят люди. Например, мужчины одним способом, женщины другим, старшие одним, младшие другим, люди в разных регионах по-разному. В октябре был исследовательский проект, изучающий, чем отличается речь подростков и людей старше. Собрали корпус детской речи, он доступен. В телеграм-боте можно посмотреть, с какой частотой употребляют те или иные слова подростки и взрослые.

– Получается, что по каким-то словам можно сделать тест на возраст?

– Да. Например, постоянно появляются языковые мемы. Люди постарше не успевают за ними следить. Телеграм-бот считает по большим массивам текстов, которые пишут и читают школьники, что чаще появляется, что реже. Еще интересно изучать мемы, которые у людей разных поколений сильно различаются. Я на днях вернулся со всероссийской олимпиады по русскому языку в Уфе. Коллега по жюри, которая преподает русский язык в школе, рассказала, как пришла в 11-й класс в начале февраля и процитировала Пастернака: «Достать чернил и плакать» – и никто цитату не узнал. Описывая эту историю, она процитировала мне и другому коллеге, который лет на пять меня младше, фразу из фильма «Служебный роман». И оказалось, что цитату из Пастернака мы с ним считываем, а из фильма «Служебный роман» – нет. Школьники же не считывают ни того, ни другого. Пару лет назад мы с коллегами написали «Словарь языка Интернета.ру» и собрали значимые мемы за 30-летнюю историю русского интернета. Вот, например, мем «Наташа, вставай, мы все уронили» мы добавили бы в новую энциклопедию. Интересно увидеть, как слова и смыслы распространяются. Как мы узнаем эти мемы? Новый мем сейчас может появляться каждый день, потому что мы общаемся с десятками, сотнями разных людей из разных сфер общения, городов, стран. Социолингвистика где-то сорок лет назад стала интересоваться тем, как происходят языковые изменения и кто является их передатчиком. И если в исторической лингвистике языковые изменения связывали с выдающимися личностями, то сейчас гораздо интереснее смотреть, как это происходит в интернете в массовом сознании. Так как социальные сети препятствуют выгрузке данных, то это сложная задача. Но было бы здорово установить путь распространения мемов.

– А какие практические области исследования в лингвистике вам кажутся актуальными, трендовыми?

– Все, что связано с созданием каких-то языковых моделей, которые позволят нам обрабатывать естественный язык во всей его целостности. В истории лингвистики было много разных периодов, но все начиналось с идеи, что мы научим компьютер полноценно понимать язык. Оказалось, что это не работает, и прикладная лингвистика перешла к решению частных задач. Совершенно разные алгоритмы применяются для проверки орфографии, автоматического реферирования текста (получения коротких выжимок) и так далее. Сейчас компьютерная лингвистика с большими нейросетевыми моделями снова возвращается к идее, что практически все задачи сводимы к одной, которую можно назвать пониманием языка. Нужно найти какие-то единообразные способы, тогда это будет моделирование языковой способности человека.

– Насколько сейчас обучаемы нейросети? Пока еще можно определить, кто написал текст, компьютер или человек. Когда эта грань исчезнет?

– Я думаю, что никогда. Просто все больше задач, которые пока кажутся нам прерогативой человека, будут выполняться компьютером. Рутинные новости о состоянии на дорогах или курсе доллара не обязательно писать журналисту-человеку, это техническая бессмысленная работа, и можно ее поручить компьютеру. Писать какие-то серьезные аналитические публицистические статьи пока еще может только человек. Но, например, литературный критик может прочитать всего 200–300 книг в год. А представьте литературно-критическую машину, которая мгновенно читает десятки тысяч книг и может писать персональные рекомендации.

– Можно ли представить, что нейросети будут за школьников писать творческие работы, соблюдая их стилистику?

– Да довольно легко. Если обладать некоторыми навыками программирования, то писать сочинения на стандартные школьные темы несложно. Другое дело, что эта творческая работа оказывается совершенно не творческой. Если вы введете какое-либо литературное произведение в нейросеть «Порфирьевич», то она напишет довольно связный и внятный текст, который можно считать сочинением. Но если дать этот текст учителю, то он найдет там две-три настолько грубых ошибки, что станет понятно – это писал компьютер. Но со временем системы совершенствуются.

– Современным учителям русского и литературы важно успевать за языковыми трендами? Или они должны оставаться консервативными?

– Кто как. Ведь учителя русского и литературы сочетают в себе несколько функций, которые часто противоречат друг другу. С одной стороны, они – воспитатели хороших манер. Правильно ставить запятые и писать «корова» через букву о – это практически то же самое, что уметь есть ножом и вилкой, хороший тон. Уроки русского языка как этикета неизбежны. С другой стороны, важно, чтобы учитель рассказывал про язык с научной точки зрения, как он устроен, работает. Эта часть в школе сильно провисает. Представьте, если бы на уроке ботаники учили одновременно ухаживать за растениями и их строению. Вот на уроке русского языка в основном учат «как ухаживать», строению учат меньше.

– Олимпиада – это хороший инструмент, чтобы привить интерес к языку?

– Да. Особенно олимпиада по лингвистике, когда ты приходишь и получаешь задачу: даны 10 предложений на арабском языке, их переводы на русский, переведите еще три предложения на арабский. И нужно разобраться в структуре, проанализировать данные языка, пользуясь логическим мышлением. И это отлично привлекает людей. На олимпиадах по русскому языку тоже часто даются нестандартные задания, которые способствуют развитию интереса. С другой стороны, если говорить про олимпиады, важно на начальных этапах массовых интеллектуальных соревнований обеспечить качественную и быструю проверку ответов. Невозможно вручную проверить 20 тысяч человек. Значит, задания должны быть интересными, необычными, но их можно проверить автоматически. Такая новая задача стоит перед составителями олимпиад, и мы ее достаточно успешно решаем в «Сириусе». Наши «Сириус.Курсы» тоже во многом про это – проверка упражнений происходит автоматически, мы все время должны думать, как сделать такие содержательные и быстро проверяемые задания. Сохранить массовость и интерес – это важная задача для развития олимпиадного движения и популяризации научного знания.

Подробнее о порядке отбора, конкурсных испытаниях, особенностях программы «Лингвистика» и профильных олимпиадах Александр Пиперски рассказал в проекте «Открытые дискуссии» на канале «Сириус».