Владелец TikTok представ OmniHuman-1 — генератор видео «оживит» фото по аудиотреку

Китайский технологический гигант ByteDance, который владеет TikTok, представив искусственный интеллект для создания видео OmniHuman-1. Модель очень реалистична, несмотря на некоторые нюансы.

В демонстрационных видео модель сгенерировала вымышленный эпизод TED Talk, лекцию Эйнштейна, прочитанную им самим, и поздравление пожилой леди с бокалом вина. Человеческие руки получились не слишком удачно, как это часто бывает у генеративных моделей, но в целом, похоже, OmniHuman-1 делает ставку на реализм.

Чтобы создать видео, модели достаточно предоставить лишь одно фото и аудиозапись. Среди возможностей ИИ — редактирование видео, изменения движений тела и жестов. OmniHuman-1 училась на 18700 часах видеоданных с использованием подхода «все условия», который позволяет одновременное обучение из нескольких источников ввода: текста, аудио, видео и тому подобное. Исследователи ByteDance говорят, что широкий диапазон обучающих данных помогает ИИ «значительно уменьшить потерю данных» по сравнению с более старыми моделями для создания глубоких подделок.

Сейчас китайские компании форсируют создание различных моделей ИИ, в частности языковых и генеративных. В прошлом году еще один гигант, Tencent, представил генеративную модель HunyuanVideo,которая демонстрирует великолепные видео, но не кажется такой же реалистичной. Также сообщалось, о другой разработке Tencent, модель для создания игр GameGen-O,которая якобы училась на современных играх.

Спецпроекты

Среди рисков использования китайских ИИ — безопасность данных, цензурирование и неуверенность в соблюдении авторских прав. Однако некоторые из них, как популярная языковая модель от DeepSeek взамен предлагают небольшую стоимость и открытый код. Заявленная низкая стоимость DeepSeek уже спровоцировала падение акций,однако аналитики сомневаются в заявленных цифрах.