Партнером шестого цикла выступила компания Яндекс, которая поддерживает крупнейшую в России сеть центров обработки и хранения данных — десятки тысяч серверов. Кроме того, разработала языковой сервис Яндекс.Спеллер. Он помогает находить и исправлять орфографические ошибки в русском, украинском и английском текстах.
Участники проекта не только изучили автоматическое исправление орфографических ошибок и нормализацию написания названий организаций, но и сами автоматизировали поиск множества слов со всевозможными ошибками с помощью алгоритмов и моделей Machine Learning.
Все циклы программы «Уроки настоящего» 2021/22 учебного года
На онлайн-лекции «Методы нормализации неструктурированных данных. Уточнение данных на практике» выступил Алексей Александрович Толстиков, старший преподаватель факультета прикладной математики и информатики Белорусского государственного университета, тренер студентов и школьников на олимпиадах по программированию, куратор Школы анализа данных компании Яндекс (г. Минск).
Участники проекта узнали о:
– возможной классификации ошибок,
– методах нахождения ошибок/опечаток в тексте,
– сопоставлении данных в единое понятие (например, мы понимаем, что «МГУ» и «Московский государственный университет им. М.В. Ломоносова» почти всегда это один и тот же университет). Эти методы необходимы для повышения точности поиска информации в сети, верного и быстрого заполнения форм на сайтах и сокращения дублирования информации.
Лекция
Задачи в цикле
Первая задача — «Исправить опечатки» — необходимо обработать 100000 слов и определить, какие из них есть в предоставленном словаре, а какие могут быть получены:
– исправлением одной опечатки (вставкой, заменой или удалением одной буквы или перемещением двух соседних букв местами);
– исправлением двух опечаток.
Во второй задаче — «Нормализация названий университетов» — потребуется обработать 50000 строк данных и сопоставить их с 757 эталонными названиями.
С лучшими решениями цикла вы можете познакомиться в официальной группе проекта в социальной сети «ВКонтакте».
На онлайн-лекции «Методы нормализации неструктурированных данных. Уточнение данных на практике» выступил Алексей Александрович Толстиков, старший преподаватель факультета прикладной математики и информатики Белорусского государственного университета, тренер студентов и школьников на олимпиадах по программированию, куратор Школы анализа данных компании Яндекс (г. Минск).
Участники проекта узнали о:
– возможной классификации ошибок,
– методах нахождения ошибок/опечаток в тексте,
– сопоставлении данных в единое понятие (например, мы понимаем, что «МГУ» и «Московский государственный университет им. М.В. Ломоносова» почти всегда это один и тот же университет). Эти методы необходимы для повышения точности поиска информации в сети, верного и быстрого заполнения форм на сайтах и сокращения дублирования информации.
Лекция
Задачи в цикле
Первая задача — «Исправить опечатки» — необходимо обработать 100000 слов и определить, какие из них есть в предоставленном словаре, а какие могут быть получены:
– исправлением одной опечатки (вставкой, заменой или удалением одной буквы или перемещением двух соседних букв местами);
– исправлением двух опечаток.
Во второй задаче — «Нормализация названий университетов» — потребуется обработать 50000 строк данных и сопоставить их с 757 эталонными названиями.
С лучшими решениями цикла вы можете познакомиться в официальной группе проекта в социальной сети «ВКонтакте».
Старший преподаватель факультета прикладной математики и информатики Белорусского государственного университета, тренер студентов и школьников на олимпиадах по программированию, куратор Школы анализа данных компании Яндекс (г. Минск)
Федеральная территория «Сириус»,
Олимпийский пр-т, 40
help@sirius.online