help@sochisirius.ru
21 октября-16 ноября 2019

Научно-практический интенсив по воспроизведению state-of-the-art научных результатов

Научно-практический интенсив для студентов-разработчиков. Программа включает лекции и практические занятия по компьютерному зрению, автоматической обработке текстов, оптимизации квантовых алгоритмов, защите информации в машинном обучении и системах хранения данных. В течение двух недель студенты погружены в процесс создания технологий. Под руководством наставников они воспроизводят результаты последних достижений в области компьютерных наук и учатся использовать их на практике. В конце интенсива команды презентуют свои проекты.

Список обучающихся, прошедших конкурсный отбор на программу

 

По вопросам участия в программе можно писать по адресам:
sirius@yandex-team.ru — вопросы по содержанию программы, включая выполнение отборочных заданий
• student@talantiuspeh.ru — организационные вопросы (приезд, размещение, отбор и участие в программе, предоставление документов и сведений для организации приезда и зачисления на программу)

О программе

Направленность программы

Техническая / Искусственный интеллект и информационные технологии

Актуальность программы

Работа над инновационными проектами требует глубокого погружения в мир исследований и научных достижений в определенной области. Специалисты постоянно работают над решением новых задач и анализом разработок коллег, опубликованных в научных статьях и результатах конференций. Важнейшей задачей работы с подобными материалами является анализ возможности использования подходов и методов для улучшения собственного сервиса.

Данная образовательная программа направлена на дополнительную подготовку студентов, умеющих программировать и стремящихся работать в IT компании. Учащиеся программы будут работать в командах над проектами при консультировании куратора – аналитика или разработчика-исследователя. Куратор формулирует какой именно результат необходимо воспроизвести, при необходимости помогает найти подходящие данные и дополнительные материалы по теме проекта. На защите проектов команды презентуют полученные итоговые результаты.

Постпрограммное сопровождение будет осуществляться кураторами через электронную почту и/или чат команды. Результаты выполненного проекта будут отличной строчкой в резюме, которая повысит вероятность трудоустройства. Знания, полученные при работе в команде над проектом, близком к индустриальному, позволят быстро расти в IT компании или науке.

Цель и задачи программы

Программа направлена на развитие умений критически относиться к научным и исследовательским результатам, проводить анализ реальной практической задачи, строить программные комплексы, основанные на формальной математической модели, работать в команде.

Основные задачи программы:
 

  • развитие практико-ориентированного мышления;
  • приобретение устойчивых навыков программирования;
  • повышение уровня готовности участников программы к работе разработчиком или разработчиком-исследователем в IT компании;
  • на основе анализа конкретных ситуаций научиться ставить перед собой задачи и самостоятельно их решать;
  • приобретение первичных навыков презентации полученных результатов.

Категории учащихся

Студенты российских вузов (18+), в том числе, победители и призеры мероприятий, включенные в государственный информационный ресурс о детях, проявивших выдающиеся способности, получатели грантов Президента РФ, выпускники Образовательного центра «Сириус».

Группа формируется на конкурсной основе.

Порядок отбора на программу 

Формы и режим занятий по программе

Форма обучения – очно-заочная.

Программа включает в себя прохождение предварительной заочной подготовки по материалам, перечень которых определяется из прилагаемого списка  куратором проекта для группы.

На очном этапе: тематические лекции и выполнение научных практических проектов по компьютерным наукам и машинному обучению на основе результатов научных публикаций под руководством опытных наставников – аналитиков и разработчиков-исследователей из Яндекса, других компаний и университетов. Ежедневно предусмотрены консультации по проектной работе.

Режим занятий:

Очный этап – 6-тидневная неделя по 9 академических часов в день, 54 академических часа в неделю.

Объем и срок реализации программы

Единицы измерения

Всего

В том числе:

Заочный этап

Очный этап

Академических часов

188

80

108

Длительность, недель

4

2

2

 

Учебный план

№ п/п

Наименование разделов и дисциплин (модулей)

Трудоем- кость, час

Всего ауд. часов

в том числе

Дистанци- онные занятия, час

Самост. работа, час

Форма кон- троля

лекции

практ. занятия

1.

Компьютерное зрение

2

2

2

0

0

0

Опрос

2.

Системы хранения данных

2

2

2

0

0

0

Опрос

3.

Автоматическая обработка текста

2

2

2

0

0

0

Опрос

4.

Защита информации в машинном обучении

2

2

2

0

0

0

Опрос

5.

Презентация и структура подачи результатов

10

10

2

8

0

0

Проект

6.

Репликация научных статей

170

90

4

86

40

40

Проект

 

ИТОГО

188

108

14

94

40

40

 

 

Содержание программы

№ п/п

Наименование темы

Содержание обучения по темам, наименование и тематика практических занятий, самостоятельной работы

1.

Компьютерное зрение

Ключевая терминология. Актуальные задачи компьютерного зрения. Постановка задач практических проектов на тему «Компьютерное зрение».

2.

Системы хранения данных

Ключевая терминология. Архитектура систем хранения данных. Реляционные и не реляционные хранилища. Оптимизация работы систем хранения данных (скорость ответа, объем памяти). Постановка задач практических проектов на тему «Системы хранения данных».

3.

Автоматическая обработка текстов

Ключевая терминология. Актуальные задачи автоматической обработки текстов. Постановка задач практических проектов на тему «Автоматическая обработка текстов».

4.

Защита информации в машинном обучении

Ключевая терминология. Гомогенное шифрование. Постановка задач практических проектов на тему «Защита информации в машинном обучении».

5.

Презентация и структура подачи результатов

Логика и структура презентации результатов исследований или проектов. Возможности PowerPoint и LaTeX в подготовке презентаций.

6.

Репликация научных статей

Структура и план вычислительного эксперимента. Системы управления версиями: код, модели, промежуточные результаты. Генераторы случайных величин.

Практические занятия

Выполнение групповых проектов по перечню (Приложение №1).

Подготовка в группе презентации результатов проекта.

Самостоятельная работа

Изучение материалов лекций дистанционных курсов:

1. Лекции по курсу «Алгоритмы и структуры данных»

2. Лекции по Python

3. Практикум по С++

4. Практикум по машинному обучению

5. Курс, посвященный генеративно-состязательным сетям

Планируемые результаты, формы аттестации и оценочные материалы

По итогам обучения по программе учащиеся приобретут навыки:
 

  • работы в команде;
  • анализа процесса разработки, декомпозиции на подзадачи;
  • контроля графика работы;
  • критического анализа научных статей;
  • анализа и дополнения существующих программных библиотек и моделей;
  • программирования сложных математических моделей.

Результат проекта: вердикт о воспроизводимости результатов анализируемой задачи, возможность внедрения подобного подхода в тот или иной проект.

Основной формой подведения итогов для определения уровня освоения программы является презентация результатов, сравнение полученных результатов с заявленными показателями в статьях. Оценка реализации программы будет производиться по следующим критериям:

Содержательный модуль

Максимум баллов

Кто оценивает

1.

Декомпозиция задач

10

Куратор

2.

Работа над задачами

50

Куратор и команда

3.

Подготовка презентации

20

Куратор и команда

4.

Презентация результатов

20

Куратор и публичная оценка

Итого

100

 

 

Организационно-педагогические условия реализации программы

Материально-технические условия

Все помещения для занятий должны быть оснащены мебелью для разных форматов работы (индивидуальной и в группах по 3-5 человек), проектором, доской для записи или флипчартом (2 шт. в каждой аудитории), доступом в Интернет.

Участникам, не имеющим собственного ноутбука, необходимо его предоставить.

Во внеучебное время желателен доступ учащихся в аудитории для самостоятельной работы.

Тип аудитории

Количество

Оборудование

1.

Зал для лекций, презентаций и мастер классов (вместимость не менее 50 человек)

1

Проектор, аудиосистема, микрофон, экран, флипчарты, маркеры, кликер.

2.

Малые залы для работы над проектами (вместимость не менее 10 человек)

5 (ориентировочно по 1-2 проекта в аудитории)

Столы, ноутбуки, проектор, экран, флипчарты или доски для записи, маркеры, канцтовары, интернет.

 

Техническое обеспечение для выполнения проектов

Высокопроизводительные сервера (не менее 2):
 

  • Intel Xeon E5-2630 (не менее двух CPU), не менее 64GB оперативной памяти, графический ускоритель NVIDIA GTX 1080 или NVIDIA Tesla K40m
  • Надежный интернет с высокой скоростью (не менее 100Mb/s).

Методические материалы

Используются образовательные ресурсы Яндекса (ШАД и CS центр) и ведущих университетов. Конкретные онлайн-курсы, книги и статьи будут рекомендовать кураторы в зависимости от задач проекта.

Электронные ресурсы, рекомендованные к изучению в рамках программы:
 

Учебные материалы для самостоятельного изучения в рамках заочного этапа программы
 

  1. Лекции по курсу «Алгоритмы и структуры данных»:
    https://yandexdataschool.ru/edu-process/courses/algorithms
  2. Лекции по Python:
    https://habr.com/company/compscicenter/blog/280426/
    https://leetcode.com
    https://www.topcoder.com
  3. Практикум по С++:
    https://ru.coursera.org/specializations/c-plus-plus-modern-development
    https://leetcode.com
    https://www.topcoder.com или https://codeforces.com
  4. Практикум по машинному обучению: 
    https://habr.com/company/yandex/blog/277427/
  5. Курс, посвященный генеративно-состязательным сетям:
    https://www.coursera.org/lecture/intro-to-deep-learning/generative-adversarial-networks-5UOxJ

Участники и порядок отбора

Сроки проведения программы: 
     • заочный (дистанционный) модуль: с 21 октября по 2 ноября 2019 года
     • очный модуль: с 4 по 16 ноября 2019 года

Прием заявок на программу завершен. Было подано 203 заявки.
Результаты отбора на программу: 30 человек, в том числе 22 студента из числа лиц, чьи достижения включены в государственный информационных ресурс о детях, проявивших выдающиеся способности, из них 8 студентов — получатели грантов Президента РФ. 

 

К участию в конкурсном отборе приглашаются студенты российских вузов (18+), в том числе, победители и призеры мероприятий, включенные в государственный информационный ресурс о детях, проявивших выдающиеся способности, получатели грантов Президента РФ, выпускники Образовательного центра «Сириус».

Группа формируется на конкурсной основе.

Общее число учащихся программы – до 30 чел.

Для участия в конкурсном отборе необходимо до 19.00  13 сентября 2019 года пройти регистрацию на нашем сайте, к заявке прикрепить мотивационное письмо (форма).

Конкурсный отбор будет проходить в два этапа:

Первый этап с 1 по 15 сентября 2019 годаонлайн-соревнование на платформе Яндекс.Контест (ссылку и данные для авторизации кандидат на участие получит после того, как отправит заявку), на выполнение заданий будет предоставлено 48 часов.

Конкурсные задания направлены на проверку наличия у кандидатов знаний по алгоритмам в объеме курса «Алгоритмов и структур данных» в ШАД, умений писать код на языке программирования (Python, C++), умений анализировать научные статьи.

По итогам соревнования 40 участников, показавшие лучшие результаты, будут приглашены на устное собеседование. 

Второй этап с 19 по 25 сентября 2019 года – скайп-интервью с экспертами Яндекс и оценка мотивационного письма. 

Результаты отбора будут опубликованы 01.10.2019 на данном сайте.

Критерии оценки заявок на программу

1. Выполнение общих (технических) требований к заявке:

  • прохождение регистрации на сайте Образовательного центра «Сириус» и предоставление мотивационного письма;

  • соответствие требованиям возраста участника – 18 лет и старше на дату начала отбора на программу.

2. Результат прохождения отборочных испытаний.

Отборочная комиссия принимает решение по совокупности результатов, включающих результаты соревнования, скайп-интервью и CV, наличие достижений. Выстраивается итоговый рейтинг, 30 участников, продемонстрировавшие наилучшие результаты и выполнившие общие (технические) требования к заявке, приглашаются на обучение по программе. Спорные вопросы решаются на уровне руководителя программы с участием представителей Фонда.

При равных результатах: обучение по программе магистратуры является преимуществом.

Условия участия

Для участия в программе приглашаются студенты российских образовательных организаций.

Если студент:

1) является получателем гранта Президента РФ для лиц, проявивших выдающиеся способности (в соответствии с Указом Президента РФ № 607 от 7 декабря 2015 г.),

2) имеет достижения (является победителем / призером конкурсных мероприятий), внесенные в государственный информационный ресурс о детях, проявивших выдающиеся способности (формируемый в соответствии с постановлением Правительства РФ № 1239 от 17 ноября 2015 г.),

то участие в программе бесплатное (Фонд «Талант и успех» обеспечивает проезд / перелет по территории РФ, проживание и питание на базе Образовательного центра «Сириус» и иных объектов Фонда). Проездные документы приобретаются сотрудниками Фонда и направляются участнику не позднее чем за 2 дня до отправления.

Студенты, не относящиеся к указанным выше категориям, несут затраты на участие в программе (проезд, проживание, питание) самостоятельно. При этом плата за обучение на программе не взимается.

Описание проектов

1. Компьютерное зрение
2. Системы хранения данных
3. Автоматическая обработка текста
4. Защита информации в машинном обучении

1. Тема «Компьютерное зрение»

Спрайтовый GAN

Автоматическая генерация изображений - панорам городов с высоты птичьего полета позволит создавать захватывающие пейзажи.

Материалы: https://arxiv.org/pdf/1808.00327.pdf

Удаление отражений из фотографий

Автоматическое исправление фотографий поможет улучшить получаемые снимки, артефакты отражения в видоискателе, как правило, не являются запланированными.

Материалы: https://arxiv.org/abs/1802.00094

Исследование состязательных атак на классификаторы изображений

Атака на классификаторы изображений вносит непредсказуемое поведение для многих систем компьютерного зрения. В предложенном проекте необходимо исследовать новый вид атаки, при котором абсолютно разные картинки имеют одинаковое представление в нейрогенной сети.

Материалы: https://arxiv.org/abs/1811.00401

Сравнение подходов обнаружения аномалий с использованием генеративных сетей

Поиск аномалий – одна из наиболее часто встречающихся на практике задач машинного обучения. Она встречается в широком спектре индустриальных приложений от обнаружения проблем сердечного ритма до выявления попыток мошенничества со страховыми случаями. Основная сложность при этом – отсутствие априорных знаний о распределении аномалий, что снижает силу двухклассовых методов классификации. При этом классические одноклассовые методы не учитывают уже имеющуюся информацию о проблемных событиях в системе. Предлагается сравнить два алгоритма поиска аномалий с помощью генеративно-состязательных сетей на наборе данных CIFAR.

Материалы: https://www.sciencedirect.com/science/article/abs/pii/S1361841518302640
https://arxiv.org/abs/1906.06096

Проверка свойств GAN на «хвостах распределений»

Один из важных вопросов к генеративным нейронным сетям заключается в оценке их достоверности. В частности, рассмотрим задачу оценки точности работы GAN в регионах, для которых статистики недостаточно. Необходимо определить можно ли доверять этой сети больше, чем объему учебных данных, т.е. уменьшится ли статистическая погрешность. Определить условия, при которых статистическая погрешность уменьшается.

Материалы: https://arxiv.org/abs/1903.02433

 

2. Тема «Системы хранения данных»

Open Aurora

Большинство сервисов хранит данные в том или ином виде в базах данных. Однако в работе отказоустойчивых систем есть еще множество нерешенных вопросов. К вопросу журналирования изменений и обращается данный проект. Вместо хранения журнала на одном устройстве предполагается разработать сетевое хранилище, которое дополнительно будет еще и масштабируемой системой.

Материалы: https://dl.acm.org/citation.cfm?id=128770
https://www.allthingsdistributed.com/files/p1041-verbitski.pdf
https://www.microsoft.com/en-us/research/uploads/prod/2019/05/socrates.pdf

Простой поиск в массиве данных

Реализация этого проекта поможет ускорить работу баз данных при обработке поисковых запросов. Для ускорения необходимо реализовать метод Ньютона поиска в последовательности целых чисел, в условиях поиска в В-дереве.

Материалы: https://dl.acm.org/citation.cfm?id=3196909
Efficiently Searching In-Memory Sorted Arrays: Revenge of the Interpolation Search?
FITing-Tree: A Data-aware Index Structure
Designing Succinct Secondary Indexing Mechanism by Exploiting Column Correlations

Буферизированные вероятностные структуры данных

Использование SSD накопителей для хранения кэш-подобных структур позволяет экономить на оперативной памяти, дополнительно используя более экономный источник быстрой памяти.

Материалы: https://arxiv.org/abs/1804.10673

 

3. Тема «Автоматическая обработка текста»

Автоматизированное преобразование последовательностей ограниченной длины

Метод может быть использован для повышения качества работы сервисов машинного перевода, построения выдержек статей и других документов, автоматического редактировании текстов.

Материалы: https://arxiv.org/abs/1905.11006

Машинное обучение читает между строк

Распознавание интента (намерения) и реакций субъекта на события является достаточно естественным для живого человека, однако весьма сложной задачей для компьютера. Метод позволяет определить, по текстовому сообщению, намерения совершающего действие человека, а также предсказывает возможную реакцию и эмоции участников события.

Результаты данного исследования могут быть использованы в множестве рекомендательных систем, например, в Маркете.

Материалы: https://arxiv.org/abs/1805.06939

Семантический парсинг с использованием иерархических представлений

Семантический парсинг (представления текста в некотором структурированном виде, понятном для компьютера) является востребованной областью в компьютерной лингвистике. Семантический парсинг активно используется, например, в чат-ботах и диалоговых системах.

Материалы: https://arxiv.org/abs/1810.07942

Выбор релевантного сценария в диалоговых ассистентах

В исследовании диалоговых систем рассматриваются факторы, которые можно извлечь из контекста диалога, а также сравниваются базовые модели машинного обучения на этих факторах. Следующим шагом строится сверхточная нейронная модель, которая учитывает структуру диалога и показывает лучшее качество, при этом не используя факторов, полученных руками.

В проекте предлагается воспроизвести как базовые факторы, чтобы убедиться, что основное качество дает именно структура диалога, а также повторить архитектуру сверточной сети для классификации интентов голосовых ассистентов.

Материалы: https://arxiv.org/pdf/1901.03489.pdf

 

4. Тема «Защита информации в машинном обучении»

Приватное машинное обучение

Необходимо реализовать алгоритм кластеризации k-средних по данным, прошедшим гомоморфное шифрование. В качестве тестовых данных используются данные из UCI репозитория и проверить зависимость времени работы алгоритма от количества признаков и итераций.

Материалы: https://link.springer.com/chapter/10.1007%2F978-3-319-64283-3_20
https://core.ac.uk/download/pdf/82985136.pdf

Партнеры

Партнерами Фонда по программе выступают:

Компания «Яндекс»

Факультет компьютерных наук Национального исследовательского университета «Высшая школа экономики»

Подать заявку
© 2015–2024 Фонд «Талант и успех»
Нашли ошибку на сайте? Нажмите Ctrl(Cmd) + Enter. Спасибо!