Разработчики китайской Baidu создали систему Deep Voice на основе машинного обучения, предназначенную для “взлома” и имитации голоса конкретного человека, сообщает Naked Science. В качестве учебной выборки задействовали запись 2400 различных голосов, в среднем на каждый пришлось 20 минут звучания.
Обученной сети хватает 100 образцов голоса “взламываемого” человека длиной буквально 5 секунд. Изучив паттерны, система способна обмануть существующие системы аутентификации голосом всего за десять попыток.
Это очередной пример того, насколько уязвимы современные системы биометрической аутентификации.
Конечно же, Deep Voice предназначена далеко не только для подражания голосам тех или иных людей. Систему можно задействовать в создании персонализированных ИИ-помощников, она подойдёт для озвучивания книг, фильмов и видеоигр — например, можно будет переозвучить любимую игрушку хорошо узнаваемыми голосами знакомых или родственников.
Великолепная разработка, если говорить о научной стороне. Но что делать с тем, что этой технологией нетрудно будет воспользоваться в мошеннических целях — только представьте, что кто-то обзванивает ваших друзей и вашим голосом, с узнаваемыми интонациями, говорит им гадости или просит “помочь материально”. И как после этого можно будет всерьёз верить, что предъявленная суду аудиозапись является подлинной, а не создана с использованием Deep Voice?