На «Больших вызовах» разработали сервис разведочного анализа неструктурированных текстовых данных

Школьники Образовательного центра «Сириус» во время научно-технологической программы «Большие вызовы» создали систему, которая способна тематически структурировать и визуализировать текстовые данные. Сервис поможет оптимизировать процесс обработки информации, избавив дата-сайентистов (DS) от выполнения части рутинных задач. Работа велась в рамках направления «Большие данные, искусственный интеллект, финансовые технологии и машинное обучение».

Банки работают с огромными потоками текстовой информации, большая часть которых представляет собой неразмеченные и неструктурированные данные. Поэтому DS часто просят провести разведочный анализ коллекции текстов. Например, кол-центр просит проанализировать жалобы клиентов, чтобы лучше понять, какие проблемы их волнуют. При этом разведочный анализ может являться лишь вспомогательным этапом, цель которого – помочь бизнесу сформулировать конкретную задачу на этих данных. Например, результаты разведочного анализа жалоб клиентов могут побудить кол-центр перестроить рубрикатор обращений – сервис маршрутизации (т. е. классификации и отправки) жалоб на профильного специалиста. Основные выводы из разведочного анализа делает заказчик, но для этого ему необходимо тесно взаимодействовать с DS. На первых этапах взаимодействия задача дата-сайентистов, как правило, сводится к применению различных методов кластеризации и визуализации данных. Первые этапы работы DS можно автоматизировать, и заменить рутинную работу на веб-сервис анализа текстовых данных.

Над этой проблемой трудились участники проекта «Разработка аналитического сервиса на открытых данных». Банк ВТБ совместно с командой ребят из «Сириуса» отлаживал сервис, позволяющий компаниям автоматизировать обработку и структуризацию текстовых данных, которые есть в открытом доступе (например, социальные медиа, новостные ленты). Клиент может самостоятельно загрузить информацию в систему и получить готовую модель.

«Мы создавали нейросеть, которая помогает фильтровать данные и получать сгруппированную информацию, интересующую заказчика. Для того чтобы пользоваться нашей программой, клиенту нужно зайти на сайт, загрузить файл с данными в формате Excel-таблицы. После этого запускается наша модель кластеризации, которая и проводит анализ. При этом клиент не нуждается в помощи разработчика или программиста, потому что в результате он уже получает модель с отфильтрованными данными», – рассказал о проекте один из участников команды, школьник из Екатеринбурга Кирилл Осинцев.

Этот сервис может быть полезен для определения общего новостного фона компании. Прочитать и проанализировать такой объем материалов об организации самостоятельно затруднительно, а машинное обучение с этим справится легко.

«Если говорить про новости, то вам нужно просто загрузить семпл данных из новостей какого-нибудь информагентства за любой промежуток времени. Сайт вам отправит информацию по кластерам – определенным темам. Нажав на них, вы увидите еще и подкластеры. Так неизвестный и большой массив данных возвращается вам в структурированном и понятном формате. Если вы хотите получать уведомления от какого-то подкластера, то на него можно автоматически обучить модель, которая бы сообщала о поступлении новой информации. В нашем сервисе предусмотрен инструмент разметки, с его помощью клиент подсказывает модели машинного обучения, какая именно информация его интересует. Через несколько таких итераций разметки вам возвращается модель, которую можно интегрировать как сервис в бизнес-процесс клиента. На входе она будет принимать новости, а на выходе говорить, есть ли здесь что-то интересующее бизнес», – поясняет один из руководителей проекта, управляющий директор управления перспективных алгоритмов машинного обучения Банка ВТБ Алексей Рябых.

Проект оказался очень масштабным и, чтобы реализовать задумку за небольшой срок, ребятам было важно грамотно распределить задачи между собой. Одним из важных составляющих проекта была методика активного обучения.

«На проекте я занимался построением алгоритмов active learning – способа разметки данных и обучения на них нейросети. Вначале мы берем маленькую часть данных, размечаем ее вручную и обучаем на ней модель, она потом предсказывает все остальные примеры оставшегося кластера. Задания, которые оказались сложными для нее, мы размечаем снова и добавляем в нашу обучающую выборку. Так проходит несколько циклов, и наша обучающаяся выборка увеличивается. Она дополняется самыми сложными примерами из кластера, поэтому эффективность модели значительно повышается», – рассказывает о своих обязанностях один из участников проекта, школьник из Ростова-на-Дону Всеволод Киричук.

Для создания системы участники использовали четыре модели кластеризации – UMAP + DBSCAN, BERT Сlustering, LDA, DEEP k-MEANS. Каждая из них пытается разделить текст по темам. За внедрение модели DEEP k-MEANS отвечал один из участников проекта, школьник из Жуковского Юрий Соколов:

«Сначала модель DEEP k-MEANS обучается делать сжатые представления текстов. Это позволяет лучше работать алгоритму кластеризации, потому что если сразу же весь текст поместить в этот алгоритм, он будет плохо работать. Потом я инициализировал центры кластеров и дообучал их эмбеддинги, чтобы они максимально ровно распределяли сжатые тексты по кластерам. Мои коллеги по команде Илья, Степан и Алексей тоже занимались кластеризацией. Степан делал тематическое моделирование, когда у одного текста может быть несколько тем, но только один кластер. Алексей занимался другим методом кластеризации – BERT. Он брал языковую модель и считал две функции потери: одна – на угадывание пропущенных слов текста, а другая – на расстояние между центрами и точками в кластерах. Илья занимался больше визуализацией всего сервиса, а также алгоритмом DBSCAN, который смотрит на все точки и рисует вокруг них какой-то радиус. Если у точек радиусы пересекаются, тогда они находятся в одном кластере».

После успешного выполнения собственных задач участникам предстояло объединить полученные разработки.

«Школьники – творческие ребята, которые хорошо разбираются в своих направлениях. Но нашей задачей было собрать творческих людей в один поток, чтобы они давали результат по одним стандартам. В ином случае сервис просто не соберется. Еще есть ряд критериев, следование которым позволяет успешнее выстроить сервис. К ним относят, например, единую структуру данных, быстродействие и некоторые другие», – рассказывает о деталях работы над продуктом один из его руководителей, управляющий директор Управления развития новых образовательных продуктов и технологий ВТБ Василий Гаршин.

На итоговой защите участники проекта «Разработка аналитического сервиса на открытых данных» представили концепт сервиса, который может кластеризовать и классифицировать открытые данные. Они показали, как он устроен и в чем его смысл. Другие ребята могли самостоятельно протестировать сервис, перейдя по ссылке. Школьники рассчитывают, что уже в начале следующего года получится внедрить доработанный и адаптированный сервис в систему Банка.

«ВТБ системно поддерживает лучшие образовательные организации и, тем самым, помогает талантливой молодежи быть успешной в своем деле. Банк ведет открытый профессиональный диалог с молодым поколением и, развивая инновационные технологии, делится полученным опытом и экспертизой, встраивая своих лучших экспертов в учебные программы в качестве преподавателей-практиков и менторов. Мы верим, что обучение – это лучшая инвестиция в собственную жизнь, а повышение квалификации – подтверждение намерения достичь самых высоких результатов», – отметила заместитель президента – председателя правления Банка ВТБ, директор ВШМ СПбГУ Ольга Дергунова.

В 2022 году научно-технологическая проектная программа «Большие вызовы» проходила в «Сириусе» в седьмой раз. Участники работали над проектами по 13 направлениям. Подробнее – на сайте https://bigchallenges.ru/