OpenAI深夜宣布首个文生视频模子Sora,现实将被彻底颠覆【核心】
2月16日破晓,OpenAI再次扔出一枚深水炸弹,宣布了首个文生视频模子Sora。据先容,Sora可以直接输出长达60秒的视频,而且包括高度细致的配景、巨大的多角度镜头,以及富有感情的多
2月16日破晓,OpenAI再次扔出一枚深水炸弹,宣布了首个文生视频模子Sora。据先容,Sora可以直接输出长达60秒的视频,而且包括高度细致的配景、巨大的多角度镜头,以及富有感情的多个脚色。
今朝官网上已经更新了48个视频demo,在这些demo中,Sora不只能精确泛起细节,还能领略物体在物理世界中的存在,并生成具有富厚感情的脚色。该模子还可以按照提示、静止图像甚至填补现有视频中的缺失帧来生成视频。
比方一个prompt(大语言模子中的提示词)的描写是:在东京陌头,一位时髦的密斯穿梭在布满暖和霓虹灯光和动感都市符号的街道上。
在Sora生成的视频里,密斯身着玄色皮衣、赤色裙子在霓虹陌头行走,不只主体连贯不变,尚有多镜头,包罗从大街景逐步切入到对密斯的脸部心情的特写,以及湿润的街道地面反射霓虹灯的光影结果。
另一个prompt则是,一只猫试图唤醒熟睡的主人,要求吃早餐,主人试图忽略这只猫,抖客教程网,但猫实验了新招,最终主人从枕头下拿出藏起来的零食,让猫本身再多待一会儿。在这个AI生成视频里,猫甚至都学会了踩奶,对主人鼻头的触碰甚至都是轻轻的,靠近物理世界里猫的真实回响。
OpenAI暗示,他们正在教AI领略和模仿举动中的物理世界,方针是练习模子来辅佐人们办理需要现实世界交互的问题。
随后OpenAI表明白Sora的事情道理,Sora是一个扩散模子,它从雷同于静态噪声的视频开始,通过多个步调逐渐去除噪声,视频也从最初的随机像素转化为清晰的图像场景。Sora利用了Transformer架构,有极强的扩展性。