Студенты воспроизводили результаты научных статей на программе от Яндекса и ВШЭ

Научно-практический интенсив по воспроизведению state-of-the-art научных результатов состоял из двух модулей. Участники изучали материалы и погружались в тему заочно на дистанционном этапе с 21 октября по 2 ноября, а с 4 по 16 ноября под руководством наставников пробовали воспроизвести результаты последних достижений в области компьютерных наук и учились использовать их на практике.

Руководитель программы – руководитель региональных академических проектов компании «Яндекс» Алексей Толстиков. В программе участвовали 30 студентов. Они разделились на команды и вместе с менторами из ВШЭ и Яндекса работали над 10-ю проектами по 4 темам. Мы расскажем о трех проектах, в которых, по мнению руководителей программы, удалось достичь хороших результатов. Осторожно, в материале много профессиональных терминов! :)

Машинное обучение читает между строк

Статья для воспроизведения

Команда студентов: Анастасия Табишева из НИУ ВШЭ, Дарья Филипецкая из МФТИ, Фома Мироненко из СПбГУ

Менторы: Мария Тихонова (НИУ ВШЭ, Сбербанк), Алена Феногенова (Сбербанк)

Технология и цель проекта

Люди могут достаточно легко понимать в речи другого человека подтекст и намерения, но для компьютера эта задача весьма сложная. Авторы научной статьи ставили перед собой две цели: во-первых, научить компьютер по полученному тексту определить причины, по которым субъект совершил действие и, во-вторых, сделать предположение о возможных эмоциях субъекта и других участников без контекста. Например, из предложения «X пьет кофе утром» извлекается намерение «X хочет взбодриться» и реакцию участников события «X чувствует бодрость». Результаты, описанные в статье, могут быть использованы в чат-ботах, предсказании событий, выявлении эмоций из текста и других задачах компьютерной лингвистики.

Модель для русского языка предполагает наличие размеченной базы данных на русском, на которой можно обучиться. На данный момент такой базы не существует, как следствие, модель не работает для русского языка.

Результаты практикума

При воспроизведении статьи участники проектной группы старались максимально точно воспроизвести конфигурации, использованные в оригинальной статье. Студенты вместе с наставниками обучали модель на основе открытой библиотеки Allennlp и кода для реализации Event2mind, реализованного в ней.

В первую неделю интенсива проектная группа воспроизводила эксперименты из статьи и получила несколько работающих моделей.

Во вторую неделю шла работа над созданием русскоязычной базы данных и обучения готовой модели для русского языка. Студенты вместе с наставниками подготовили два вида данных: перевод английской базы данных двумя автоматическими переводчиками и готовые русские фразы для разметки на Яндекс.Толоке.

Будущее проекта

Участники планируют развивать русскоязычный сегмент проекта. Получить данные с Яндекс.Толоки, обработать их, соединить с удачными переведенными данными и создать полноценный корпус для русского языка. Иными словами, сделать полноценное исследование и опубликовать статью по данной теме.

Приватное машинное обучение

Статьи для воспроизведения:

Приватный кластеризатор

Атаки на GAN PATE GAN

Команда студентов: Наталья Денисенко и Алексей Миронов из НИУ ВШЭ, Артур Сидоренко из МГУ

Менторы: Денис Деркач (PhD, ВШЭ), Никита Казеев (ВШЭ), Андрей Устюжанин (к.ф.-м.н., ВШЭ)

Технология и цель проекта

Для того, чтобы современные методы искусственного интеллекта приносили пользу, им необходимы данные для обучения. Для задач, связанных с людьми, эти данные могут быть конфиденциальными. Например, можно сделать «автоматического доктора», который будет ставить более точный диагноз и спасать жизни, основываясь сразу на всем мировом опыте, но для его обучения потребуются истории болезней, которыми мало кто хотел бы делиться со всем миром. Студенты поставили цель разобраться в алгоритмах, которые позволят максимально использовать возможности машинного обучения, при этом не нарушая приватность тех, по чьим данным они будут обучены.

Участники прочли статьи по этой теме и предположили, что самым перспективным будет подход, при котором владелец приватных данных обучает по ним генеративную модель, которая научится генерировать похожие данные, но не принадлежащие никакому реальному человеку. Проектная группа планировала за практикум научиться строить такие модели и проверять, насколько они безопасны.

Результаты проекта

Студентам удалось обучить генеративный алгоритм машинного обучения (GAN) для набора данных рукописных цифр (MNIST), а также провести на нем атаки, показавшие, что GAN не обеспечивает приватности..

Для набора данных по транзакциям кредитных карт модель, представленная в статье, обучить не удалось. Проектная группа пробовала и более сложные архитектуры, это дало не очень высокое улучшение качества. Ожидалось, что результаты в статье должны воспроизводиться на архитектуре, указанной в статье, поэтому проверку на приватность делать не стали.

Будущее проекта

В дальнейшем команда планирует доделать безопасную модель (например, с помощью PATE-GAN), а также опробовать ее на других типах данных, например, изображениях для медицинского анализа.

Удаление отражений из фотографий

Статья для воспроизведения

Команда студентов: Егор Ефимов и Андрей Бочарников из Университета ИТМО, Иван Лазунин из РТУ МИРЭА

Ментор: Алексей Озерин (МФТИ)

Технология и цель проекта

Хотя бы раз в жизнь каждый из нас делал фотографии через стекло и получал снимок худшего качества из-за бликов. Разработчики создают технологию, которая автоматически исправит фотографии и улучшит снимки, удаляя артефакты отражения в видоискателе и на готовых фотографиях. Алгоритм можно применить как часть предварительной обработки фото для использования их дальше в машинном обучении. Результат из статьи, описывающей такую технологию, предстояло воспроизвести проектной группе.

Результаты проекта

Проектная группа использовала две базы данных, с которыми работали авторы статьи. По словам студентов, некоторые детали в статье были описаны недостаточно подробно для реализации идентичного алгоритма. Однако результаты воспроизведение получились схожие, студенты получили рабочую модель.

Будущее проекта

Проектная группа дорабатывает демо-версию приложения, чтобы любой желающий мог протестировать работу их алгоритма.