help@sochisirius.ru

Обучение с подкреплением — раздел искусственного интеллекта, в котором модель машинного обучения (агент) учится решать задачи, взаимодействуя с окружающей средой и получая за это награды. Именно так роботы обучаются ходить и переносить вещи, программа AlphaZero — играть в шахматы и го, а современные языковые модели — лучше понимать, что от них нужно людям.

«Важно, что в обучении с подкреплением агент не использует заранее заготовленный набор данных. Например, ему нет смысла учиться играть в шахматы, анализируя старые партии гроссмейстеров. Так агент никогда не будет лучше, чем гроссмейстеры. Изначально он знает только правила игры и может обучаться, играя с самим собой или противниками. Агент делает ходы, а окружающая среда награждает его или наказывает, когда партия закончится. А пока игра идет, окружающая среда делает ход за противника и переводит агента в новое состояние, где тому нужно снова думать и принимать решение», - говорит Сергей Николенко, автор курса, старший научный сотрудник ПОМИ РАН, доцент ФМКН СПбГУ, Head of AI компании Synthesis AI.

Курс «Обучение с подкреплением» состоит из двух частей: теоретической и практической. Ученики могут получить сертификат за каждую из них. 

В теоретических модулях слушатели узнают про основные методы и подходы обучения с подкреплением: понятия функций значений для состояний и действий (оценка позиции) и уравнения Беллмана на них, упрощенную постановку задачи о многоруких бандитах, методы планирования (как подумать и посчитать вперед), методы градиентного улучшения стратегий и некоторые другие. 

В практических модулях ученики реализуют на языке Python методы, обсуждаемые в теории, и создадут своих первых агентов для решения модельных задач: например, балансировки маятника или управления машиной при въезде в гору.

Для освоения теоретической части нужно быть знакомым с теорией вероятностей. Получить необходимые знания можно на курсе «Теория вероятностей и математическая статистика».

 

Поделиться
Подать заявку
© 2015–2024 Фонд «Талант и успех»
Нашли ошибку на сайте? Нажмите Ctrl(Cmd) + Enter. Спасибо!