欢迎访问抖客教程网!

抖客教程网

您现在的位置是:主页 > 运营技巧 > 剧本大全 >

剧本大全

爆火的戎马俑跳“科目三”是怎么做出来的?

发布时间:2024-01-12 21:05:03剧本大全评论
界面新闻记者 | 李京亚 徐诗琪 人类已经不满意于让AI把照片中的人物变得更美,还要让他们随着音乐舞动起来。 近段时间以来,戎马俑和马斯克跳“科目三”的视频刷爆了伴侣圈,也

界面新闻记者 | 李京亚 徐诗琪

人类已经不满意于让AI把照片中的人物变得更美,还要让他们随着音乐舞动起来。

近段时间以来,戎马俑和马斯克跳“科目三”的视频刷爆了伴侣圈,也在微博上成为了热门词条。

这些由一张图片制成的舞蹈视频,来自阿里大模子应用通义千问APP最新上线的成果“全民舞王”。用户只需上传一张全身照(包罗真人与动漫脚色等),十分钟阁下即可让照片中的主角跳上一小段热门舞蹈,包罗科目三、蒙古舞、鬼步舞等等。这项成果今朝免费,所生成的舞蹈视频约莫在10秒阁下,高于同类产物Runway Gen-2和Pika的4秒时限。

爆火的兵马俑跳“科目三”是如何做出来的?

“全民舞王”应用今朝提供12种热门舞蹈模板,包罗科目三、蒙古舞、鬼步舞、DJ慢摇、划桨步、兔子舞等。

阿里巴巴通义尝试室XR认真人薄列峰汇报界面新闻,全民舞王源自阿里通义千问团队去年9月宣布的自研视频生成模子Animate Anyone,方针是做可控的人物视频生成。由于没有提供demo和源代码,外界一直无法感知其实际结果。

到了12月,该尝试室在arxiv上果真了Animate Anyone的论文和主页,从此又把它集成到通义千问APP中。全民舞王由此成为Animate Anyone落地的首款产物

爆火的兵马俑跳“科目三”是如何做出来的?

爆火的兵马俑跳“科目三”是如何做出来的?

Animate与外洋同类模子的机能比拟功效。

爆火的兵马俑跳“科目三”是如何做出来的?

Animate Anyone与其他视频生成模子的比拟。

AI图片生成的应用已日臻成熟,但AI视频生成仍是大模子规模的困难之一。当前文生视频技能处在早期阶段,更不消说以图片来生成视频,这造成了图片-视频-3D模态落地难度依次增加的近况。

过往,视频生成方案在生成结果上饱受诟病,色彩、音频和字幕难以整体做到最优,视频的细粒度控制也一直做得欠好。另外,之前一些驱动方案在以工钱主题的视频生成中,无法同时担保泛化性和一致性的本领。所谓泛化性,是指模子不只在练习数据上表示好,还能对未见过的新数据做出精确有效的预测。而一致性是指模子在处理惩罚同类问题的差异实例时,保持输出功效一致和不变。

Animate Anyone延续了主流视频生成模子采纳的扩散模子蹊径。这类模子被遍及运用到图像、视频生陋习模,像OpenAI的DALLE-2、Stable Diffusion都是以扩散模子为基本。

为担保视频生成的一致性、不变性和可控性,阿里团队采纳了几项法子办理了可控视频存在的一些技能问题,包罗ReferenceNet参考网络的引入,Pose Guider姿态引导器的利用,同时融合了一种时间建模方式。薄列峰称,这些技能可更好地实现对脚色举动的控制,人物和心情细节的还原,以及视频帧间的流通性。

另外,Animate Anyone还回收了分阶段练习计策,但愿在差异阶段存眷差异方针。这一思路在OpenAI练习ChatGPT时也有揭示。

从全民舞王的泛起结果来看,对比同类的DisCo和谷歌推出的模特换装模子DreamPose,Animate Anyone在生成视频内容的连贯性上表示较好,比方能捕获到原人物的衣服、头发、鞋子等细节,并适配到人物的体型上,但在处理惩罚一些配景巨大的图片时,不免呈现幻影等问题。

纵观国表里整个AI视频生陋习模,曾在去年底迎来突变,Runway Gen-2、Pika1.0、字节连系新加坡国立大学推出的Magic Animate、阿里Animate Anyone等黑马均有不错的表示。阿里内部也呈现了几款与Animate Anyone撞形的可控视频生成模子,12月开源的可控视频生成框架DreaMoving是个中之一。 

需要指出的是,这些视频产物的快速涌现,源于去年一整年基本大模子的一连演进,而非一时的技能打破。

虚拟人公司慧夜科技CEO渠思源曾提到,优质基座大模子对行动生成等实际应用的指导代价超乎想象,在涉及行动跟尾、融适时,大模子可以驱动神经网络辅佐上层小模子做出很是符合的数据配比,以指导小模子更丝滑地完成行动状态切换,而这只需要接入大模子就可完成,甚至不需要相识小模子的详细细节。

热心评论

评论列表