a&s专业的自动化&安全生态服务平台
公众号
安全自动化

安全自动化

安防知识网

安防知识网

手机站
手机站

手机站

大安防供需平台
大安防供需平台

大安防供需平台

资讯频道横幅A1
首页 > 资讯 > 正文

OpenAI发布首个文生视频模型Sora

Sora不仅能准确呈现细节,还能理解物体在物理世界中的存在,并生成具有丰富情感的角色。该模型还可以根据提示、静止图像甚至填补现有视频中的缺失帧来生成视频。
资讯频道文章B

  2月16日凌晨,OpenAI再次扔出一枚深水炸弹,发布了首个文生视频模型Sora。据介绍,Sora可以直接输出长达60秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。

  目前官网上已经更新了48个视频demo,在这些demo中,Sora不仅能准确呈现细节,还能理解物体在物理世界中的存在,并生成具有丰富情感的角色。该模型还可以根据提示、静止图像甚至填补现有视频中的缺失帧来生成视频。

  例如一个Prompt(大语言模型中的提示词的描述是:在东京街头,一位时髦的女士穿梭在充满温暖霓虹灯光和动感城市标志的街道上。

  在Sora生成的视频里,女士身着黑色皮衣、红色裙子在霓虹街头行走,不仅主体连贯稳定,还有多镜头,包括从大街景慢慢切入到对女士的脸部表情的特写,以及潮湿的街道地面反射霓虹灯的光影效果。

  另一个Prompt则是,一只猫试图叫醒熟睡的主人,要求吃早餐,主人试图忽略这只猫,但猫尝试了新招,最终主人从枕头下拿出藏起来的零食,让猫自己再多待一会儿。在这个AI生成视频里,猫甚至都学会了踩奶,对主人鼻头的触碰甚至都是轻轻的,接近物理世界里猫的真实反应。

  OpenAI表示,他们正在教AI理解和模拟运动中的物理世界,目标是训练模型来帮助人们解决需要现实世界交互的问题。

  随后OpenAI解释了Sora的工作原理,Sora是一个扩散模型,它从类似于静态噪声的视频开始,通过多个步骤逐渐去除噪声,视频也从最初的随机像素转化为清晰的图像场景。Sora使用了Transformer架构,有极强的扩展性。

  视频和图像是被称为“补丁”的较小数据单位集合,每个“补丁”都类似于GPT中的一个标记(Token),通过统一的数据表达方式,可以在更广泛的视觉数据上训练和扩散变化,包括不同的时间、分辨率和纵横比。

  Sora是基于过去对DALL·E和GPT的研究基础构建,利用DALL·E 3的重述提示词技术,为视觉模型训练数据生成高描述性的标注,因此模型能更好的遵循文本指令。

  一位YouTube博主Paddy Galloway发表了对Sora的感想,他表示内容创作行业已经永远的改变了,并且毫不夸张。“我进入YouTube世界已经15年时间,但OpenAI刚刚的展示让我无言…动画师/3D艺术家们有麻烦了,素材网站将变得无关紧要,任何人都可以无壁垒获得难以置信的产品,内容背后的‘想法’和故事将变得更加重要。”

  但Sora模型当前也存在弱点。OpenAI称它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系。例如,一个人可能咬了一口饼干后,饼干会没有咬痕,玻璃破碎的物理过程可能也无法被准确呈现。

参与评论
回复:
0/300
文明上网理性发言,评论区仅供其表达个人看法,并不表明a&s观点。
0
关于我们

a&s是国际知名展览公司——德国法兰克福展览集团旗下专业的自动化&安全生态服务平台,为智慧安防、智慧生活、智能交通、智能建筑、IT通讯&网络等从业者提供市场分析、技术资讯、方案评估、行业预测等,为读者搭建专业的行业交流平台。

免责声明:本站所使用的字体和图片文字等素材部分来源于互联网共享平台。如使用任何字体和图片文字有冒犯其版权所有方的,皆为无意。如您是字体厂商、图片文字厂商等版权方,且不允许本站使用您的字体和图片文字等素材,请联系我们,本站核实后将立即删除!任何版权方从未通知联系本站管理者停止使用,并索要赔偿或上诉法院的,均视为新型网络碰瓷及敲诈勒索,将不予任何的法律和经济赔偿!敬请谅解!
© 2020 Messe Frankfurt (Shenzhen) Co., Ltd, All rights reserved.
法兰克福展览(深圳)有限公司版权所有 粤ICP备12072668号 粤公网安备 44030402000264号
用户
反馈