trim_c (trim_c) wrote,
trim_c
trim_c

Categories:

Нейросеть воссоздала движения рук человека по его речи



Американские разработчики создали алгоритм, способный предсказывать движения рук человека по его речи. Получая только аудиозапись речи, он создает анимированную модель тела человека, а затем на ее основе генерирует реалистичный видеоролик.

Основным способом донесения информации до окружающих у людей выступает речь. Однако помимо нее в разговоре мы также активно пользуемся жестами, подкрепляя произнесенные слова и придавая им эмоциональную окраску. Кстати, согласно наиболее вероятной гипотезе развития человеческого языка, изначально предки человека наоборот общались в основном с помощью жестов, однако активное использование рук в быту привело к развитию звуковой коммуникации и сделало ее основной. Так или иначе, процесс произнесения человеком слов в разговоре тесно связан с движениями рук.

Исследователи под руководством Джитендры Малика (Jitendra Malik) из Калифорнийского университета в Беркли использовали эту связь для предсказания жестикуляции человека в разговоре на основе голосовой составляющей его речи. Работу алгоритма можно разбить на два этапа: сначала он предсказывает движения рук по аудиозаписи речи, а затем визуализирует предсказанные жесты с помощью алгоритма, представленного в 2018 году смежной группой исследователей. Тогда разработчики научили нейросеть переносить движения людей между видеороликами, использовав промежуточный этап с распознаванием позы человека.



На первом этапе алгоритм на базе сверточной нейросети UNet принимает двумерную спектрограмму аудиозаписи и превращает ее в одномерный промежуточный сигнал. Затем этот сигнал превращается в последовательность поз, представленных в виде скелетной модели с 49 ключевыми точками, отражающими части рук, плеч и шеи. После этого последовательность поз передается алгоритму визуализации, который превращает ее в видеоролик.



Для того, чтобы обучить алгоритм преобразованию речи в движения, исследователи собрали датасет, состоящий из записей суммарной длиной 144 часа. На записях были телеведущие, лекторы и религиозные проповедники — такой выбор обусловлен тем, что для них было легко найти длинные записи речи с жестикуляцией. С помощью алгоритма OpenPose исследователи сопоставили каждому кадру из датасета скелетную модель. Получая во время обучения записи речи и кадры с готовой моделью алгоритм научился создавать реалистичные видеоролики. Стоит отметить, что выбранный авторами подход подразумевает, что для корректной работы необходимо обучать отдельную нейросетевую модель для конкретного человека.

На продемонстрированном исследователями ролике можно видеть, что некоторые движения не полностью соответствуют реальным движениям человека на исходной записи. К примеру, зачастую алгоритм подбирает корректное движение, но использует не ту руку. Однако, это следствие скорее принципиального недостатка подхода, чем его некорректной реализации. Дело в том, что жесты во время речи не являются инвариантными — одной и той же фразе, сказанной одним и тем же человеком, могут соответствовать разные жесты.

Исследователи провели количественную оценку работы алгоритма, подсчитав, какая доля ключевых точек в созданных алгоритмом моделях соответствовала положению точек, полученных для реального кадра. Новый алгоритм значительно опередил аналогичные алгоритмы, протестированные на тех же данных — 44,62 процента против 39,69 процента у алгоритма с лучшим результатом среди разработок других разработчиков. Примечательно, что вариант нового алгоритма, использованный без дискриминатора, получил более высокий результат, чем с дискриминатором. Авторы объясняют это тем, что дискриминатор провоцирует генератор на создание более однообразных выходных данных.

Недавно другая группа американских разработчиков научила нейросеть создавать по речи человека примерное изображение его лица. Алгоритм был обучен на датасете, состоящем из миллионов видеозаписей.

Григорий Копиев для сайта N+1


Мы, похоже окончательно разучились удивляться - во-первых.
И решительно не осознаем угроз того, что делаем сами - во-вторых.
И если раньше главной угрозой было оружие, - оно осталось угрозой, но - перестало быть главной. Потом стала набирать силу угроза разрушения окружающей среды - она осталась угрозой и все еще остается главной. Тем более, что и число идиотов, считающих эту угрозу выдуманной, уменьшается недостаточно быстро, так что за трампов успешно голосуют.

НО на наших глазах растет новая угроза - может более страшная чем первые две - это угроза излишней и очень быстрой роботизации, и роста зависимости человеческой цивилизации от функционирования роботизированных сетей. Отмечу - первые две угрозы только усиливаются сами и усиливают значение третьей угрозы.

Поскольку число угроз растет, причем новые не отменяют, а усиливают интенсивность уже наличных, создается ощущение, что мы вошли в зону "фазового перехода"; хотя что за ней последует не известно, какова будет "новая фаза" нам не понятно, но то, что дни человечества в привычном нам виде сообщества "голых обезьян" подходят к концу, становится все более очевидным.

И все более неизбежным. Остановиться мы очевидным образом не способны - мы с лишком жадные и слишком зависимые от манипуляций политических демагогов. И это часть нашей природы, оно было частью нашей природы еще на уровне общего предка с шимпанзе и по-видимому неустранимо
Tags: n+1, робототехника
Subscribe

  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 3 comments