Нейросеть научилась подделывать голоса

С каждым годом возможности машинного обучения и нейросетей становятся все более впечатляющими. На днях был создан алгоритм для синтеза речи, который подделывает голос человека по фрагменту аудиофайла.

Технология основана на нейросетевых моделях Tacotron 2 и WaveNet Результаты работы опубликованы на arxiv.org в июне 2018 года, открытый исходный код размещён на площадке GitHub.

Алгоритм использует два аудиофайла: первый содержит голос, который нужно подделать, второй – фразу, которую нужно произнести. Компьютер в реальном времени преобразует голос из второго файла так, чтобы он звучал как в первом.

Ранее команда программистов Dessa Engineers создала нейронную сеть, которая полностью скопировала голос известного американского комика и ведущего Джо Рогана. Сходство оказалось настолько точным, что испугало не только простых пользователей, но и саму знаменитость.