26 февраля-25 июля 2021

Проектно-образовательный практикум «Погружение в технологии искусственного интеллекта»

Прием заявок для участия в конкурсном отборе открыт до 5 февраля 2021 года
По вопросам участия в программе просим обращаться по адресу students@sochisirius.ru

Анализ российского цифрового рынка показывает, что на нём особенно востребованы специалисты по машинному обучению и анализу данных. За ними развитие и конкурентоспособность целых индустрий и эффективность экономики. Цель этого трека дать знания по решению продвинутых задач связанных с анализом данных и машинным обучением. В основе программы материалы и курсы Школы анализа данных Яндекса и работа над проектами, в основе которых — актуальные проблемы, с которыми сталкиваются компании-партнёры в исследовательских и производственных задачах.
Программа подойдёт людям, которые хотят освоить новую профессию и сразу начать работать в области машинного обучения и анализа данных в одной из компаний-партнеров ИНТЦ «Сириус». Во время программы участники могут доучиваться в вузе или где-то работать: она рассчитана на 6 месяцев и включает очные и заочные этапы. Один раз нужно будет приехать в Сочи, но большая часть занятий пройдёт удаленно.
Преподавателями и менторами станут сотрудники ведущих вузов страны, в том числе преподаватели Школы анализа данных, а также эксперты из компаний-партнёров: ООО «ОЦРВ», Тинькофф и Яндекса. Программа включает индивидуальную и командную работу.

Цели программы:
Программа направлена на освоение профильных направлений подготовки и методов работы в области цифровизации и автоматизации процессов обработки данных.
Основные цели образовательного модуля:
- изучение области применения методов машинного обучения для решения задач классификации, кластеризации, регрессии и ранжирования;
- изучение теоретических основ методов и алгоритмов машинного обучения;
- практическая реализация методов машинного обучения для решения прикладных задач;
- практическая реализация методов экспериментальной проверки гипотез;
- освоение навыков работы в команде, выполнение проекта по созданию приложения, базирующегося на анализе и обработке данных.

Основные задачи программы:
- разбор алгоритмов машинного обучения, изучение области применимости и методов настройки параметров обучения;
- изучение методологии сбора данных для эффективного анализа и получения результирующей модели, изучение методов отбора признаков;
- введение в комплекс актуальных и показательных методов, представленных в различных программных библиотеках и комплексах, для решения задач машинного обучения;
- развитие логического мышления и формирование знаний и умений в области математических моделей;
- совершенствование методов решения прикладных задач, аргументировано обосновывая критерии, по которым проводились изменения и сравнение методов;
- исследование полученных математических моделей конкретных задач в области профессиональной деятельности;
- развитие умений совместной работы над проектом и практических навыков декомпозиции задач, использовании систем совместной работы с данными и программным кодом, документирование.

Результатом обучения на программе станет получение дополнительных компетенций в области аналитики и создания практических решений с использованием современных технологий. В рамках работы над проектом будет получен дополнительный опыт командной работы над этапами разработки программных модулей с использованием потоков данных и машинного обучения.

Основной формой подведения итогов для определения уровня освоения программы является выполнение заданий при дистанционном изучении теоретического материала и защита проекта.

По итогам защиты проектов обучащиеся, продемонстрировавшие лучшие результаты, будут приглашены на стажировки в компании-партнеры.

Полученные навыки использования инструментов коллективного выполнения поставленных задач и опыт использования современных методов обработки данных должны значительно повысить шанс занимать значимые позиции в области разработки программных решений на основе технологий искусственного интеллекта.

Форма обучения - очно-заочная. На заочном этапе обучащиеся изучают материалы дистанционных курсов. В рамках очного этапа: выполнение проекта в командах, подготовка презентации с результатами, защита проекта.

Сроки и продолжительность образовательного модуля.
26 февраля – 25 июля 2021 года.
С 1 по 7 февраля 2021 года – онлайн-тест с решением задач по математике и программированию (на прохождение теста дается 48 часов с момента старта).
С 10 по 20 февраля 2021 года – собеседование в режиме видеосвязи с преподавателем или представителем организаторов программы.
С 26 февраля по 31 мая 2021 года – дистанционная работа над Блоками 1-3 (курсы «Машинное обучение»/«Глубинное обучение», «Основы статистики в машинном обучении» и «Язык Python для анализа данных»).
С 5 июля по 25 июля 2021 года – работа над проектом в команде.

Участники и порядок отбора

Образовательный модуль предназначен для студентов старших курсов бакалавриата, магистратуры, аспирантов, знакомых с основами математического анализа, линейной алгебры, комбинаторики, теории вероятностей, математической статистики и методов численного решения оптимизационных задач, владеющих навыками программирования на языках высокого уровня.
Минимальный уровень образования: успешное окончание 1-3 курсов по перечисленным направлениям подготовки.
01.00.00 Математика и механика
02.00.00 Компьютерные и информационные науки
09.00.00 Информатика и вычислительная техника

Форма организации отбора участников

Вступительные испытания проходят в два этапа: тестовое задание и собеседование. На собеседование приглашаются участники, успешно справившиеся с тестовым заданием.

Тестовое задание

В рамках тестового задания проверяются два типа заданий:
- Знания в требуемых математических дисциплинах (математический анализ, линейная алгебра, комбинаторика, теория вероятностей, математическая статистика).
- Навыками программирования на языках высокого уровня с использованием эффективных структур данных и алгоритмов.
(скачать вариант тестового задания 2020 года)

Собеседование - после успешного написания теста вам будет назначено дистанционное собеседование с представителем программы, на котором с вами обсудят ваш бэкграунд и мотивацию поступления на образовательную программу.

Также мы просим участников отбора предоставить нам следующие документы:

1. Резюме

Помимо общей и контактной информации резюме должно включать:
- описание опыта работы в научных лабораториях (стаж, функционал, полученные компетенции);
- перечень научных публикаций;
- перечень научных конференций и школ, в которых студент принимал участие;
- уровень владения английским языком.

2. Мотивационное письмо

Должно включать ответы на вопросы: почему участнику важно попасть именно на этот образовательный̆ модуль, какие знания и компетенции он планирует развить в результате прохождения обучения.

3. Справка с места обучения или диплом, если вы уже окончили обучение;

4. Сертификаты пройденных курсов/программ (при наличии);

5. Научные публикации, относящиеся к тематике образовательного модуля (при наличии).

Количество обучающихся, приглашаемых для освоения образовательного модуля.
40 человек.

О программе

Руководитель программы

Куликова
Евгения Александровна

Руководитель службы академических программ компании «Яндекс»

Условия участия

Всем, кто прошел конкурсный отбор и был приглашен на программу, необходимо получить и отправить на почту oumr.university@talantiuspeh.ru скан-копии:

1) справки о санитарно-эпидемиологическом окружении, полученной не ранее чем за 3 дня до выезда в Университет;

2) справки с отрицательным результатом тестирования методом ПЦР на новую коронавирусную инфекцию COVID-19, полученной не ранее чем за 3 дня до выезда в Университет.

По приезде в Университет участникам образовательного модуля следует предоставить оригиналы указанных документов (справки и результата теста) во время регистрации участников.

Научно-технологический университет «Сириус» обеспечивает проживание, проезд / перелет по территории РФ и питание для участников программы.

Плата за обучение на программе не взимается.

К участию в программе допускаются только граждане РФ.

Партнеры

ООО «ОЦРВ»;
АО «Тинькофф Банк»;
ООО «Яндекс»;

Образовательный Фонд "Талант и успех".

Проектная часть

Формулировка проектов 2021 года еще не завершена, но желающие могут ознакомиться с примерами проектов 2020 года:

Проект 1. Dish-ID: все о еде по одному фото

Общее описание проекта/данных

В проекте предлагается реализовать модель, которая по фотографии еды определяет состав блюда, его калорийность и предлагает несколько возможных рецептов. На основе этой модели нужно дополнительно сделать приложение или телеграмм-бота.

Постановка задачи

Цель проекта – построить модель машинного обучения, которая по фотографии определяет название блюда, а затем подбирает его состав, калорийность и рецепт. Решение данной задачи осуществляется в несколько этапов. На первом этапе необходимо обучить модель, которая распознает еду на фотографии и генерирует название блюда. На втором этапе по названию блюда определяется его состав, калорийность и подбирается рецепт. Для решения каждой из подзадач существует ряд методов из области Computer Vision и Natural Language Processing, в качестве данных для обучения предлагается использовать датасет с аннотированными фотографиями из открытых источников (например, соревнования Kaggle). Основной упор в проекте будет сделан на адаптацию известных алгоритмов к специфике конкретной задачи и объединение всех этапов в единую модель. Дополнительно понадобится собрать данные о рецептах блюд из открытых источников.

Описание данных

Для реализации первого этапа (распознавание еды по картинке) предполагается взять датасет с соревнования Kaggle (https://www.kaggle.com/artgor/food-recognition-challenge-eda). На втором этапе (определение состава, калорийности и подбор рецепта) понадобится самостоятельно собрать данные из открытых источников.

Желаемый результат

Финальным результатом будет обученная модель машинного обучения, в идеале реализованная в виде приложения для андроид или телеграмм-бота, которая по фотографии блюда будет генерировать его состав, калорийность и предлагать возможный рецепт.

Проект №2. Чатбот на тему

Общее описание проекта/данных

Только недавно люди смогли научить нейросети генерировать правдоподобные и уникальные пассажи текста. Однако, это только часть проблемы, на самом деле, интересно получить управляемую генерацию текста. Например, заставить нейросеть говорить только про подоконники или котов.

Необходимо разработать чатбота, который будет играть с пользователем в словесную игру.

Постановка задачи

Задача состоит в том, чтобы применить и немного улучшить существующие подходы контролируемой генерации текста (например, https://arxiv.org/abs/1912.02164). Мы будем применять эти методы для разработки словесной игры, в которой пользователю нужно будет «убедить» бота ответить определенным образом, чтобы перейти на следующий шаг игры.

Описание данных

Будут использованы данные с открытых источников — форумы, развлекательные сайты, социальные сети и так далее.

Желаемый результат

В качестве финального результата будет разработан простой чатбот на русском языке, с которым можно будет поговорить в telegram-е.

Проект №3. Автоматизация заполнения форм

Общее описание проекта/данных

В настоящий момент множество специалистов по результатам работы заполняют отчетную форму, что приводит к затратам времени. С другой стороны, качество заполнения форм оставляет желать лучшего. Цель проекта создать мобильное приложение под Android, способное записывать речь специалиста и автоматически заполнять форму фиксированного формата.

Для создания данного приложения необходимо разработать и протестировать алгоритм распознавания речи.

Постановка задачи

Задача состоит в построении модели машинного обучения, которая обучается на данных аудио записи русской речи с разметкой результатов распознавания (текст). Необходимо протестировать существующие библиотеки и попробовать разработать свой алгоритм. Предлагается использовать нейронные сети для распознавания фонем и далее букв и слов.

Желаемый результат

В качестве финального результата группа студентов должна предоставить предсказания целевой переменной, отчет-описание о проделанной работе, нетривиальный реализованный алгоритм предобработки данных.

Дополнительно (но не обязательно) может быть разработан прототип приложения с внедренной моделью.

все программы