13-23 декабря 2020

Большие данные, искусственный интеллект, финансовые технологии и машинное обучение

Цифровые технологии присутствуют во всех областях жизни человека. Объем записываемых в мировые хранилища данных ежесекундно растет. Расширение Big Data и ускорение темпа роста стало объективной реальностью. Ежесекундно гигантские объемы контента генерируют социальные сети, информационные сайты, файлообменники, а также приборы для мониторинга, сенсоры, системы наблюдения, операционные системы, смартфоны, интеллектуальные и финансовые системы, датчики и прочее. Все они задают бешеный темп роста объема данных, что приводит к появлению потребности наращивать количество рабочих серверов (и реальных, и виртуальных) и, как следствие, расширять и внедрять новые data-центры.

Работе с большими объемами данных (включая вопросы кибербезопасности) в разных проявлениях посвящено данное направление.

Все направления программы «Большие вызовы»

1. Новая редакция
2. Построение профиля абитуриента бизнес школы на базе данных социальной сети
3. Оценка правдоподобия структуры молекулярного комплекса
4. Инструменты поддержки врача рентгенолога на основе ИИ

Описание проектов

1. Новая редакция

Руководитель проекта: Бибилов И.

Аннотация: Предстоит два больших этапа.

1 этап. Исследовательский этап. Будет найдено большое количество мест, в которых можно заменить редактора, копирайтера, журналиста компьютерными программами. Например, можно отслеживать новости на сайтах информационных агентств, следить публикациями популярных блогеров, спортивными и погодными сервисами. Из предложенных текстов можно извлекать смысловые куски и публиковать новости на основе извлеченных данных. Например, «Российская лыжница Наталья Непряева завоевала серебро в гонке на 10 километров свободным стилем на этапе Кубка мира в чешском Нове Место. Об этом сообщает корреспондент «Ленты.ру». Первой финишировала норвежка Тереза Йохауг, преодолевшая дистанцию за 23 минуты 51,6 секунды. Непряева отстала на 32,7 секунды. Замкнула тройку лидеров другая представительница Норвегии Хейди Венг (+40,3 секунды)». В тексте этой новости нет ничего такого, чего не могла бы написать программа, которая имеет доступ к результатам соревнований и списку итоговых результатов. Таким образом, огромное количество вторичной информации со ссылкой на первоисточники может быть сгенерировано в очень короткое время на новостном портале. Быстрота публикаций очень важна, ибо от нее зависит посещаемость страницы с новостью, а также количество ссылок на нее, а значит и рекламная привлекательность портала в целом. Вместе с участниками будут разобраны примерные алгоритмы такой генерации, включая шаблонные подстановки, алгоритмы морфологического и синтаксического разбора, некоторые алгоритмы машинного обучения.

2 этап. В конце первого этапа останется подвешенным вопрос: «А что будет теперь с журналистами, копирайтерами и редакциями?». Участники реализуют некоторые алгоритмы, изученные на 1 этапе. Окажется, что эти программы будут очень полезны для редакций, уберут кучу рутины по переписыванию новостей (рерайтинг), а также помогут в поиске интересных событий. А за живыми работниками редакций останется аналитика и интерпретация, что может привести к увеличению оригинального контента.

Партнер проекта: Общество с ограниченной ответственностью «Яндекс»

2. Построение профиля абитуриента бизнес школы на базе данных социальной сети

Руководитель проекта: Еремеева Л.А.

Аннотация: Университеты постоянно находятся в конкурентной борьбе за талантливых абитуриентов. Для того, чтобы придумать как продвигать свои образовательные программы, университеты, как и любые другие компании, должны лучше узнавать тех, кто потенциально может быть заинтересован в их продукте. При этом университеты знают из каких школ и городов поступают к ним студенты, но хотят знать то, что не лежит на поверхности – чем интересуется абитуриент, какую музыку слушает, что читает, с кем дружит.
На основании данных социальных сетей предлагается проанализировать данные о поступающих и учащихся студентах, классифицировать всех поступающих по интересам и построить профиль абитуриента одного из факультетов университета.

Партнер проекта: Публичное акционерное общество «БАНК ВТБ», Высшая школа менеджмента Санкт-Петербургского государственного университета

3. Оценка правдоподобия структуры молекулярного комплекса

Руководитель проекта: Садовников А.В.

Аннотация: Предсказание структуры комплекса, который образуют несколько молекул, — ключевой этап создания лекарства с помощью компьютерного моделирования.

Алгоритмы решения этой задачи для каждого молекулярного комплекса выдают несколько вариантов его структуры. Среди этих вариантов нужно найти наиболее правдоподобные: такие, которые действительно могут существовать в природе. По отобранным вариантам структуры комплекса можно понять, какими частями взаимодействуют молекулы, входящие в его состав. От этого зависит, насколько правильно будет работать создаваемое лекарство.

Участникам проекта предстоит разработать новый способ оценки правдоподобия структуры молекулярного комплекса. В его основу лягут классические подходы машинного обучения, которые участники освоят в процессе работы над проектом: кластеризация, метод k ближайших соседей, линейная регрессия, решающие деревья и другие.

Новый способ оценки правдоподобия структуры молекулярного комплекса впоследствии будет использоваться в алгоритме HEDGE, разработанном в компании «Биокад».

Партнер проекта: BIOCAD

4. Инструменты поддержки врача рентгенолога на основе ИИ

Руководитель проекта: Кисилев С.

Аннотация: Программа модуля разработана Центром ИИ Университета Иннополис. Как отмечают эксперты, применение технологий искусственного интеллекта в медицине в последние годы переживает «бум» в России и в мире. Особенно это актуально сейчас, когда ситуация с распространением коронавирусной инфекции показала, насколько важно автоматизировать все возможные процессы и разгружать врачей в части рутинных операций.

На теоретической части курса участники познакомятся с особенностями медицинских изображений, методами машинного обучения для их анализа, классическими методами компьютерного зрения для сегментации органов на КТ. Практическая часть даст возможность поработать с публичными данными и датасетами, собранными из реальных больниц, применить изучаемые алгоритмы к реальным исследованиям. Участники реализуют алгоритм сегментации легких из уже существующих научных статей и затем расширят его для определения отдельных частей легких. А также получат опыты работы с фреймворком PyTorch в языке Python. На базе разработанных моделей и алгоритмов, они создадут open-source библиотеку, которая позволит разработчикам со всего мира протестировать и использовать результаты данного проекта. Опционально будет разработан графический интерфейс для визуализации работы моделей и алгоритмов.

Партнер проекта: Университет Иннополис

Проекты направления

Описание проектов

1. Новая редакция

Руководитель проекта: Бибилов И.

Аннотация: Предстоит два больших этапа.

Партнер проекта: Общество с ограниченной ответственностью «Яндекс»

2. Построение профиля абитуриента бизнес школы на базе данных социальной сети

Руководитель проекта: Еремеева Л.А.

3. Оценка правдоподобия структуры молекулярного комплекса

Руководитель проекта: Садовников А.В.

Партнер проекта: BIOCAD

4. Инструменты поддержки врача рентгенолога на основе ИИ

Руководитель проекта: Кисилев С.

Партнер проекта: Университет Иннополис

Эксперты и руководители проектов

Бибилов
Иван Владимирович

Старший преподаватель ООО «Яндекс»

Еремеева
Любовь Андреевна

Ассистент кафедры стратегического и международного менеджмента Высшей школы менеджмента Санкт-Петербургского государственного университета

Садовников
Александр Владимирович

Заместитель руководителя центра аналитики и оптимизации процессов — руководитель аналитического отдела Образовательного Фонда «Талант и успех», методист направления «Большие данные, искусственный интеллект, автоматизированные системы и безопасность» проектной программы, конкурса «Большие вызовы», методист программы «Сириус.ИИ»

Кисилев
Семен

Младший аналитик данных Университета Иннополис

Руководители направления

Райгородский
Андрей Михайлович

Директор физтех-школы прикладной математики и информатики МФТИ, научный руководитель РНОМЦ «Кавказский математический центр Адыгейского государственного университета», доктор физико-математических наук

Гусев
Антон Сергеевич

Заместитель руководителя Образовательного Фонда «Талант и успех» – директор департамента науки. Обладатель почетной грамоты Министерства просвещения (2020), лауреат гранта Москвы в сфере образования (2016–2020), призер Всероссийской олимпиады школьников по математике (2007–2009)

все программы