Научно-практический интенсив для студентов-разработчиков. Программа включает лекции и практические занятия по компьютерному зрению, автоматической обработке текстов, оптимизации квантовых алгоритмов, защите информации в машинном обучении и системах хранения данных. В течение двух недель студенты погружены в процесс создания технологий. Под руководством наставников они воспроизводят результаты последних достижений в области компьютерных наук и учатся использовать их на практике. В конце интенсива команды презентуют свои проекты.
Список обучающихся, прошедших конкурсный отбор на программу
По вопросам участия в программе можно писать по адресам:
• sirius@yandex-team.ru — вопросы по содержанию программы, включая выполнение отборочных заданий
• student@talantiuspeh.ru — организационные вопросы (приезд, размещение, отбор и участие в программе, предоставление документов и сведений для организации приезда и зачисления на программу)
Направленность программы
Техническая / Искусственный интеллект и информационные технологии
Актуальность программы
Работа над инновационными проектами требует глубокого погружения в мир исследований и научных достижений в определенной области. Специалисты постоянно работают над решением новых задач и анализом разработок коллег, опубликованных в научных статьях и результатах конференций. Важнейшей задачей работы с подобными материалами является анализ возможности использования подходов и методов для улучшения собственного сервиса.
Данная образовательная программа направлена на дополнительную подготовку студентов, умеющих программировать и стремящихся работать в IT компании. Учащиеся программы будут работать в командах над проектами при консультировании куратора – аналитика или разработчика-исследователя. Куратор формулирует какой именно результат необходимо воспроизвести, при необходимости помогает найти подходящие данные и дополнительные материалы по теме проекта. На защите проектов команды презентуют полученные итоговые результаты.
Постпрограммное сопровождение будет осуществляться кураторами через электронную почту и/или чат команды. Результаты выполненного проекта будут отличной строчкой в резюме, которая повысит вероятность трудоустройства. Знания, полученные при работе в команде над проектом, близком к индустриальному, позволят быстро расти в IT компании или науке.
Цель и задачи программы
Программа направлена на развитие умений критически относиться к научным и исследовательским результатам, проводить анализ реальной практической задачи, строить программные комплексы, основанные на формальной математической модели, работать в команде.
Основные задачи программы:
Категории учащихся
Студенты российских вузов (18+), в том числе, победители и призеры мероприятий, включенные в государственный информационный ресурс о детях, проявивших выдающиеся способности, получатели грантов Президента РФ, выпускники Образовательного центра «Сириус».
Группа формируется на конкурсной основе.
Формы и режим занятий по программе
Форма обучения – очно-заочная.
Программа включает в себя прохождение предварительной заочной подготовки по материалам, перечень которых определяется из прилагаемого списка куратором проекта для группы.
На очном этапе: тематические лекции и выполнение научных практических проектов по компьютерным наукам и машинному обучению на основе результатов научных публикаций под руководством опытных наставников – аналитиков и разработчиков-исследователей из Яндекса, других компаний и университетов. Ежедневно предусмотрены консультации по проектной работе.
Режим занятий:
Очный этап – 6-тидневная неделя по 9 академических часов в день, 54 академических часа в неделю.
Объем и срок реализации программы
Единицы измерения |
Всего |
В том числе: |
|
---|---|---|---|
Заочный этап |
Очный этап |
||
Академических часов |
188 |
80 |
108 |
Длительность, недель |
4 |
2 |
2 |
Учебный план
№ п/п |
Наименование разделов и дисциплин (модулей) |
Трудоем- кость, час |
Всего ауд. часов |
в том числе |
Дистанци- онные занятия, час |
Самост. работа, час |
Форма кон- троля |
|
---|---|---|---|---|---|---|---|---|
лекции |
практ. занятия |
|||||||
1. |
Компьютерное зрение |
2 |
2 |
2 |
0 |
0 |
0 |
Опрос |
2. |
Системы хранения данных |
2 |
2 |
2 |
0 |
0 |
0 |
Опрос |
3. |
Автоматическая обработка текста |
2 |
2 |
2 |
0 |
0 |
0 |
Опрос |
4. |
Защита информации в машинном обучении |
2 |
2 |
2 |
0 |
0 |
0 |
Опрос |
5. |
Презентация и структура подачи результатов |
10 |
10 |
2 |
8 |
0 |
0 |
Проект |
6. |
Репликация научных статей |
170 |
90 |
4 |
86 |
40 |
40 |
Проект |
|
ИТОГО |
188 |
108 |
14 |
94 |
40 |
40 |
|
Содержание программы
№ п/п |
Наименование темы |
Содержание обучения по темам, наименование и тематика практических занятий, самостоятельной работы |
---|---|---|
1. |
Компьютерное зрение |
Ключевая терминология. Актуальные задачи компьютерного зрения. Постановка задач практических проектов на тему «Компьютерное зрение». |
2. |
Системы хранения данных |
Ключевая терминология. Архитектура систем хранения данных. Реляционные и не реляционные хранилища. Оптимизация работы систем хранения данных (скорость ответа, объем памяти). Постановка задач практических проектов на тему «Системы хранения данных». |
3. |
Автоматическая обработка текстов |
Ключевая терминология. Актуальные задачи автоматической обработки текстов. Постановка задач практических проектов на тему «Автоматическая обработка текстов». |
4. |
Защита информации в машинном обучении |
Ключевая терминология. Гомогенное шифрование. Постановка задач практических проектов на тему «Защита информации в машинном обучении». |
5. |
Презентация и структура подачи результатов |
Логика и структура презентации результатов исследований или проектов. Возможности PowerPoint и LaTeX в подготовке презентаций. |
6. |
Репликация научных статей |
Структура и план вычислительного эксперимента. Системы управления версиями: код, модели, промежуточные результаты. Генераторы случайных величин. |
Практические занятия |
Выполнение групповых проектов по перечню (Приложение №1). Подготовка в группе презентации результатов проекта. |
|
Самостоятельная работа |
Изучение материалов лекций дистанционных курсов: 1. Лекции по курсу «Алгоритмы и структуры данных» 2. Лекции по Python 3. Практикум по С++ 4. Практикум по машинному обучению 5. Курс, посвященный генеративно-состязательным сетям |
Планируемые результаты, формы аттестации и оценочные материалы
По итогам обучения по программе учащиеся приобретут навыки:
Результат проекта: вердикт о воспроизводимости результатов анализируемой задачи, возможность внедрения подобного подхода в тот или иной проект.
Основной формой подведения итогов для определения уровня освоения программы является презентация результатов, сравнение полученных результатов с заявленными показателями в статьях. Оценка реализации программы будет производиться по следующим критериям:
№ |
Содержательный модуль |
Максимум баллов |
Кто оценивает |
1. |
Декомпозиция задач |
10 |
Куратор |
2. |
Работа над задачами |
50 |
Куратор и команда |
3. |
Подготовка презентации |
20 |
Куратор и команда |
4. |
Презентация результатов |
20 |
Куратор и публичная оценка |
Итого |
100 |
|
Организационно-педагогические условия реализации программы
Материально-технические условия
Все помещения для занятий должны быть оснащены мебелью для разных форматов работы (индивидуальной и в группах по 3-5 человек), проектором, доской для записи или флипчартом (2 шт. в каждой аудитории), доступом в Интернет.
Участникам, не имеющим собственного ноутбука, необходимо его предоставить.
Во внеучебное время желателен доступ учащихся в аудитории для самостоятельной работы.
№ |
Тип аудитории |
Количество |
Оборудование |
---|---|---|---|
1. |
Зал для лекций, презентаций и мастер классов (вместимость не менее 50 человек) |
1 |
Проектор, аудиосистема, микрофон, экран, флипчарты, маркеры, кликер. |
2. |
Малые залы для работы над проектами (вместимость не менее 10 человек) |
5 (ориентировочно по 1-2 проекта в аудитории) |
Столы, ноутбуки, проектор, экран, флипчарты или доски для записи, маркеры, канцтовары, интернет. |
Техническое обеспечение для выполнения проектов
Высокопроизводительные сервера (не менее 2):
Методические материалы
Используются образовательные ресурсы Яндекса (ШАД и CS центр) и ведущих университетов. Конкретные онлайн-курсы, книги и статьи будут рекомендовать кураторы в зависимости от задач проекта.
Электронные ресурсы, рекомендованные к изучению в рамках программы:
Учебные материалы для самостоятельного изучения в рамках заочного этапа программы
Сроки проведения программы:
• заочный (дистанционный) модуль: с 21 октября по 2 ноября 2019 года
• очный модуль: с 4 по 16 ноября 2019 года
Прием заявок на программу завершен. Было подано 203 заявки.
Результаты отбора на программу: 30 человек, в том числе 22 студента из числа лиц, чьи достижения включены в государственный информационных ресурс о детях, проявивших выдающиеся способности, из них 8 студентов — получатели грантов Президента РФ.
К участию в конкурсном отборе приглашаются студенты российских вузов (18+), в том числе, победители и призеры мероприятий, включенные в государственный информационный ресурс о детях, проявивших выдающиеся способности, получатели грантов Президента РФ, выпускники Образовательного центра «Сириус».
Группа формируется на конкурсной основе.
Общее число учащихся программы – до 30 чел.
Для участия в конкурсном отборе необходимо до 19.00 13 сентября 2019 года пройти регистрацию на нашем сайте, к заявке прикрепить мотивационное письмо (форма).
Конкурсный отбор будет проходить в два этапа:
Первый этап с 1 по 15 сентября 2019 года – онлайн-соревнование на платформе Яндекс.Контест (ссылку и данные для авторизации кандидат на участие получит после того, как отправит заявку), на выполнение заданий будет предоставлено 48 часов.
Конкурсные задания направлены на проверку наличия у кандидатов знаний по алгоритмам в объеме курса «Алгоритмов и структур данных» в ШАД, умений писать код на языке программирования (Python, C++), умений анализировать научные статьи.
По итогам соревнования 40 участников, показавшие лучшие результаты, будут приглашены на устное собеседование.
Второй этап с 19 по 25 сентября 2019 года – скайп-интервью с экспертами Яндекс и оценка мотивационного письма.
Результаты отбора будут опубликованы 01.10.2019 на данном сайте.
Критерии оценки заявок на программу
1. Выполнение общих (технических) требований к заявке:
прохождение регистрации на сайте Образовательного центра «Сириус» и предоставление мотивационного письма;
соответствие требованиям возраста участника – 18 лет и старше на дату начала отбора на программу.
2. Результат прохождения отборочных испытаний.
Отборочная комиссия принимает решение по совокупности результатов, включающих результаты соревнования, скайп-интервью и CV, наличие достижений. Выстраивается итоговый рейтинг, 30 участников, продемонстрировавшие наилучшие результаты и выполнившие общие (технические) требования к заявке, приглашаются на обучение по программе. Спорные вопросы решаются на уровне руководителя программы с участием представителей Фонда.
При равных результатах: обучение по программе магистратуры является преимуществом.
Для участия в программе приглашаются студенты российских образовательных организаций.
Если студент:
1) является получателем гранта Президента РФ для лиц, проявивших выдающиеся способности (в соответствии с Указом Президента РФ № 607 от 7 декабря 2015 г.),
2) имеет достижения (является победителем / призером конкурсных мероприятий), внесенные в государственный информационный ресурс о детях, проявивших выдающиеся способности (формируемый в соответствии с постановлением Правительства РФ № 1239 от 17 ноября 2015 г.),
то участие в программе бесплатное (Фонд «Талант и успех» обеспечивает проезд / перелет по территории РФ, проживание и питание на базе Образовательного центра «Сириус» и иных объектов Фонда). Проездные документы приобретаются сотрудниками Фонда и направляются участнику не позднее чем за 2 дня до отправления.
Студенты, не относящиеся к указанным выше категориям, несут затраты на участие в программе (проезд, проживание, питание) самостоятельно. При этом плата за обучение на программе не взимается.
1. Компьютерное зрение
2. Системы хранения данных
3. Автоматическая обработка текста
4. Защита информации в машинном обучении
Спрайтовый GAN
Автоматическая генерация изображений - панорам городов с высоты птичьего полета позволит создавать захватывающие пейзажи.
Материалы: https://arxiv.org/pdf/1808.00327.pdf
Удаление отражений из фотографий
Автоматическое исправление фотографий поможет улучшить получаемые снимки, артефакты отражения в видоискателе, как правило, не являются запланированными.
Материалы: https://arxiv.org/abs/1802.00094
Исследование состязательных атак на классификаторы изображений
Атака на классификаторы изображений вносит непредсказуемое поведение для многих систем компьютерного зрения. В предложенном проекте необходимо исследовать новый вид атаки, при котором абсолютно разные картинки имеют одинаковое представление в нейрогенной сети.
Материалы: https://arxiv.org/abs/1811.00401
Сравнение подходов обнаружения аномалий с использованием генеративных сетей
Поиск аномалий – одна из наиболее часто встречающихся на практике задач машинного обучения. Она встречается в широком спектре индустриальных приложений от обнаружения проблем сердечного ритма до выявления попыток мошенничества со страховыми случаями. Основная сложность при этом – отсутствие априорных знаний о распределении аномалий, что снижает силу двухклассовых методов классификации. При этом классические одноклассовые методы не учитывают уже имеющуюся информацию о проблемных событиях в системе. Предлагается сравнить два алгоритма поиска аномалий с помощью генеративно-состязательных сетей на наборе данных CIFAR.
Материалы: https://www.sciencedirect.com/science/article/abs/pii/S1361841518302640
https://arxiv.org/abs/1906.06096
Проверка свойств GAN на «хвостах распределений»
Один из важных вопросов к генеративным нейронным сетям заключается в оценке их достоверности. В частности, рассмотрим задачу оценки точности работы GAN в регионах, для которых статистики недостаточно. Необходимо определить можно ли доверять этой сети больше, чем объему учебных данных, т.е. уменьшится ли статистическая погрешность. Определить условия, при которых статистическая погрешность уменьшается.
Материалы: https://arxiv.org/abs/1903.02433
2. Тема «Системы хранения данных»
Open Aurora
Большинство сервисов хранит данные в том или ином виде в базах данных. Однако в работе отказоустойчивых систем есть еще множество нерешенных вопросов. К вопросу журналирования изменений и обращается данный проект. Вместо хранения журнала на одном устройстве предполагается разработать сетевое хранилище, которое дополнительно будет еще и масштабируемой системой.
Материалы: https://dl.acm.org/citation.cfm?id=128770
https://www.allthingsdistributed.com/files/p1041-verbitski.pdf
https://www.microsoft.com/en-us/research/uploads/prod/2019/05/socrates.pdf
Простой поиск в массиве данных
Реализация этого проекта поможет ускорить работу баз данных при обработке поисковых запросов. Для ускорения необходимо реализовать метод Ньютона поиска в последовательности целых чисел, в условиях поиска в В-дереве.
Материалы: https://dl.acm.org/citation.cfm?id=3196909
Efficiently Searching In-Memory Sorted Arrays: Revenge of the Interpolation Search?
FITing-Tree: A Data-aware Index Structure
Designing Succinct Secondary Indexing Mechanism by Exploiting Column Correlations
Буферизированные вероятностные структуры данных
Использование SSD накопителей для хранения кэш-подобных структур позволяет экономить на оперативной памяти, дополнительно используя более экономный источник быстрой памяти.
Материалы: https://arxiv.org/abs/1804.10673
3. Тема «Автоматическая обработка текста»
Автоматизированное преобразование последовательностей ограниченной длины
Метод может быть использован для повышения качества работы сервисов машинного перевода, построения выдержек статей и других документов, автоматического редактировании текстов.
Материалы: https://arxiv.org/abs/1905.11006
Машинное обучение читает между строк
Распознавание интента (намерения) и реакций субъекта на события является достаточно естественным для живого человека, однако весьма сложной задачей для компьютера. Метод позволяет определить, по текстовому сообщению, намерения совершающего действие человека, а также предсказывает возможную реакцию и эмоции участников события.
Результаты данного исследования могут быть использованы в множестве рекомендательных систем, например, в Маркете.
Материалы: https://arxiv.org/abs/1805.06939
Семантический парсинг с использованием иерархических представлений
Семантический парсинг (представления текста в некотором структурированном виде, понятном для компьютера) является востребованной областью в компьютерной лингвистике. Семантический парсинг активно используется, например, в чат-ботах и диалоговых системах.
Материалы: https://arxiv.org/abs/1810.07942
Выбор релевантного сценария в диалоговых ассистентах
В исследовании диалоговых систем рассматриваются факторы, которые можно извлечь из контекста диалога, а также сравниваются базовые модели машинного обучения на этих факторах. Следующим шагом строится сверхточная нейронная модель, которая учитывает структуру диалога и показывает лучшее качество, при этом не используя факторов, полученных руками.
В проекте предлагается воспроизвести как базовые факторы, чтобы убедиться, что основное качество дает именно структура диалога, а также повторить архитектуру сверточной сети для классификации интентов голосовых ассистентов.
Материалы: https://arxiv.org/pdf/1901.03489.pdf
4. Тема «Защита информации в машинном обучении»
Приватное машинное обучение
Необходимо реализовать алгоритм кластеризации k-средних по данным, прошедшим гомоморфное шифрование. В качестве тестовых данных используются данные из UCI репозитория и проверить зависимость времени работы алгоритма от количества признаков и итераций.
Материалы: https://link.springer.com/chapter/10.1007%2F978-3-319-64283-3_20
https://core.ac.uk/download/pdf/82985136.pdf
Партнерами Фонда по программе выступают:
Компания «Яндекс»
Факультет компьютерных наук Национального исследовательского университета «Высшая школа экономики»