1-28 февраля 2022

Уроки настоящей обработки данных

Партнером шестого цикла выступила компания Яндекс, которая поддерживает крупнейшую в России сеть центров обработки и хранения данных — десятки тысяч серверов. Кроме того, разработала языковой сервис Яндекс.Спеллер. Он помогает находить и исправлять орфографические ошибки в русском, украинском и английском текстах.

Участники проекта не только изучили автоматическое исправление орфографических ошибок и нормализацию написания названий организаций, но и сами автоматизировали поиск множества слов со всевозможными ошибками с помощью алгоритмов и моделей Machine Learning.

Все циклы программы «Уроки настоящего» 2021/22 учебного года

На онлайн-лекции «Методы нормализации неструктурированных данных. Уточнение данных на практике» выступил Алексей Александрович Толстиков, старший преподаватель факультета прикладной математики и информатики Белорусского государственного университета, тренер студентов и школьников на олимпиадах по программированию, куратор Школы анализа данных компании Яндекс (г. Минск).

Участники проекта узнали о:

– возможной классификации ошибок,
– методах нахождения ошибок/опечаток в тексте,
– сопоставлении данных в единое понятие (например, мы понимаем, что «МГУ» и «Московский государственный университет им. М.В. Ломоносова» почти всегда это один и тот же университет). Эти методы необходимы для повышения точности поиска информации в сети, верного и быстрого заполнения форм на сайтах и сокращения дублирования информации.

Лекция

Задачи в цикле

Первая задача — «Исправить опечатки» — необходимо обработать 100000 слов и определить, какие из них есть в предоставленном словаре, а какие могут быть получены:

– исправлением одной опечатки (вставкой, заменой или удалением одной буквы или перемещением двух соседних букв местами);
– исправлением двух опечаток.

Во второй задаче — «Нормализация названий университетов» — потребуется обработать 50000 строк данных и сопоставить их с 757 эталонными названиями.

С лучшими решениями цикла вы можете познакомиться в официальной группе проекта в социальной сети «ВКонтакте».

Лекция и задача

Участники проекта узнали о:

Лекция

Задачи в цикле

Экспертная группа

Толстиков
Алексей Александрович

Старший преподаватель факультета прикладной математики и информатики Белорусского государственного университета, тренер студентов и школьников на олимпиадах по программированию, куратор Школы анализа данных компании Яндекс (г. Минск)

все программы