Теперь нейросеть может воссоздавать лицо человека только по его голосу. Как стало известно «Тульской прессе», модель Speech2Face, представленная американскими разработчиками, обучали на нескольких миллионах видео. Примерное изображение лица нейросеть составляет, основываясь на трех основных параметрах. Это пол, раса и возраст.
Пол определяется легко, чуть сложнее дело обстоит с возрастом, акцент дает нейросети общее представление о национальности. Отметим, что представление о внешности человека, основанное на этих параметрах, все равно не может быть в необходимой мере точным.
Как учили
Сотрудники Массачусетского технологического института при участии Тэхёна О использовали датасет AVSpeech, состоящий из более миллиона коротких видео более ста тысяч разных людей: каждое видео в базе данных разделено на аудио- и видеодорожку, передает N+1.
Сперва натренированный заранее алгоритм VGG-Face с помощью особенностей лица из кадра на видео нейтральное выражение в анфас. Вторая часть алгоритма из небольшой аудиодорожки длительностью от 3 до 6 секунд воссоздает спектрограмму речи и, используя результаты из параллельной нейросети, генерирующей изображение лица, дает на выход примерное изображение лица человека, который разговаривает на видео.
Насколько хорошо
Точность алгоритма оценили по трем демографическим показателям. Ученые сравнивали пол, примерный возраст и расу оригинального изображения человека из видео и изображения, восстановленного на основе голоса. Авторам определенно удалось добиться успехов в восстановлении изображений, однако объективные метрики показали, что разработанная в МТИ модель несовершенна. Так, она хорошо угадывает пол человека, но редко может определить возраст с точностью до десяти лет. Лучше всего ей удаются «портреты» людей с европеоидной и азиатской внешностью.
Ученые отметили, что не преследовали цель досконально восстанавливать внешность человека по голосу, а сосредоточились именно на выделении и точности некоторых важных параметров: пола, возраста и этнической принадлежности. По их словам, работа носит также исследовательскую пользу, потому как генерация целых лиц на основе голоса поможет лучше изучить корреляцию с внешностью.