Российская газета: Кто такой DimaTorzok? Эксперты объяснили, как устроены галлюцинации нейросетей

Тут могла бы быть ваша реклама

Каждый, кто хоть раз пользовался ботом или нейросетью для расшифровки аудиозаписей, скорее всего наталкивался в полученном тексте на загадочную фразу "Субтитры сделал DimaTorzok". Кто-то считает, что это своего рода "подпись" нейросети, кто-то - что это неправильно интерпретированная речь на аудиозаписи или галлюцинация. И это действительно она. Но кроме того, это еще и отличный пример того, как именно галлюцинируют нейросети.

Изначально феномен возник из-за особенностей обучения модели Whisper. Это нейросеть компании OpenAI, которая автоматически распознает речь. Whisper используется, например, в Telegram и сети Х (ранее Twitter, заблокирована в РФ), а также во множестве мобильных приложений и веб-сервисов. Компания OpenAI обучала модель с помощью видео на платформе YouTube. Нейросеть Whisper прослушивала миллионы часов аудиозаписей, но дело не столько в этом. Все немного сложнее.

Нейросеть обучалась на огромном количестве пар "аудиодорожка → субтитры", рассказывает Константин Соболев, руководитель группы "Генеративный ИИ для видео" Института AIRI. По словам эксперта, в этих данных существовал очень устойчивый паттерн: в конце видео или фильма после основной речи часто появляются титры или подписи вроде "Subtitles by …", "Translated by …" и другие креды авторов субтитров.

"Модель выучила статистическую закономерность: если аудио подходит к концу, особенно если там начинается музыка, шумы или просто тишина, то велика вероятность, что...

Кто такой DimaTorzok? Эксперты объяснили, как устроены галлюцинации нейросетей Оригинал