
На научно-технологической программе «Большие вызовы» в Сириусе школьники разработали прототип сервиса, который сделает видеоконтент более доступным для людей с нарушениями зрения. Проект, реализуемый под руководством экспертов из компании VK, направлен на автоматизацию работы тифлокомментаторов — специалистов, которые создают текстовые описания визуальных элементов видео, чтобы люди с ограниченными возможностями могли полноценно воспринимать контент. Современные видео содержат множество визуальной информации — жесты, мимика, фоны, действия на экране, — которая недоступна людям с нарушениями зрения. Обычно тифлокомментаторы вручную анализируют видео, добавляют текстовые комментарии в ключевые моменты и озвучивают их, чтобы описать происходящее. Однако этот процесс занимает много времени и требует значительных ресурсов. Команда школьников разработала приложение, которое автоматизирует часть этой работы, делая её быстрее и доступнее.
«Мы поставили цель — создать инструмент, который помогает тифлокомментаторам, а не полностью заменяет их. Мы хотим ускорить процесс создания тифлокомментариев и сделать этот процесс экономичнее, чтобы больше людей с нарушениями зрения могли смотреть видео с комфортом», — рассказал наставник проекта, руководитель команды разработки направления монетизации в Почте и Облаке Mail Дмитрий Зайцев.
Сервис представляет собой приложение на платформе VK Mini Apps. Пользователь загружает видео, а система автоматически анализирует его, разбивая на небольшие фрагменты. Специальная модель искусственного интеллекта распознаёт, что происходит в каждом кадре, и генерирует текстовые комментарии, описывающие визуальные элементы. Затем пользователь проверяет и при необходимости корректирует эти комментарии. Далее другая модель преобразует текст в речь, и итоговое видео с тифлокомментариями монтируется автоматически.
«Мы создали прототип, который умеет разбивать видео на кадры, анализировать их и генерировать текстовые описания. Также у нас готова серверная часть и модуль для монтажа видео. Итоговым этапом стала интеграция с клиентской частью и создание удобного интерфейса для пользователей», — поделился участник проекта Максим Степанов из лицея № 1 города Петрозаводска.
Для реализации проекта команда использовала современные инструменты программирования, а также алгоритмы машинного обучения. Например, одна модель анализирует кадры и создаёт описания, а другая отвечает за автоматическую расстановку комментариев в нужных местах видео. Особое внимание уделили качеству озвучки, чтобы итоговый результат был естественным и понятным.
В завершении программы школьники представили готовый прототип сервиса на фестивале проектов в Сириусе. Ребята продемонстрировали, как их приложение обрабатывает видео, добавляет комментарии и создаёт итоговый ролик, доступный для людей с нарушениями зрения.
Как отмечает наставник проекта Дмитрий Зайцев, этот проект — не только про технологии, а прежде всего про помощь людям. Наработки, сделанные на программе, могут стать основой для реальных продуктов, которые сделают цифровое пространство ещё более доступным для всех пользователей.