迎来2024年首个工作日,社交媒体与朋友圈响起异乎寻常的节奏。从千年古迹兵马俑到科技巨头马斯克,再到临街小巷,各色人物异口同声跳起科目三和流行网络舞蹈,这波跳舞视频刷屏现象正是由一项大模型应用所激发。在这些大约10秒的视频里,似乎透出一种魔力,让不会跳舞的人一秒变成舞者。观众啧啧称奇:AI治愈了四肢不协调、考古界的风也跟着舞动起来、科目三不再有踩空的风险……

造成这场狂潮的幕后“英雄”正是阿里云通义千问APP的一个全新免费功能。用户在APP中输入”通义舞王”、“全民舞王”等口令,便能进入体验页面。步骤简单:上传一张照片,稍等十几分钟,一个既有神又有形的舞蹈视频便可呈现在眼前。视频保留了上传形象的面部表情、身材比例、服饰样式以及背景特度,给人以身临其境的体验。目前,阿里云提供了蒙古舞、科目三、划桨步、鬼步舞等12种舞蹈模板供用户选择。

这一非凡成果背后是阿里通义实验室独家研发的视频生成模型Animate Anyone。该技术早在去年11月就以其惊艳效果在推特、YouTube等海外社交平台走红,播放量破亿,Github上的关注度亦飙升,获得国际开发者和网友一致点赞,并且呼吁能早日开放体验。

Animate Anyone仗着其技术创新受到业界广泛关注。视频生成一直是大模型领域里富有挑战性的方向,海内外技术巨头如谷歌、Meta、Runway等都在此领域深耕。阿里的这款技术不仅解决了人物一致性、动作流畅度、时序无瑕疵等难题,公开论文指出,Animate Anyone融入了多项创新技术:ReferenceNet帮助捕捉原图像信息以高度还原人物特征;Pose Guider姿态引导器确保动作的精确性;时序生成模块则保证了视频帧之间的连贯性。在测试效果上,其性能大幅领先于其他同类模型。

如今,通义千问成为国内首批通过备案的大模型之一,其APP功能也持续升级,为用户带来包括文本对话、语音对话、翻译、PPT大纲助手、小红书文案、视频生成等众多便利。伴随着AI的深入应用,舞动的数字化时代已经揭开序幕,而这只是无限可能开始的一小步。