快捷搜索:  

sora三巨头初度解密幕后新闻(News),cto:最速年内盛开

"sora三巨头初度解密幕后新闻,cto:最速年内盛开,这篇新闻报道详尽,内容丰富,非常值得一读。 这篇报道的内容很有深度,让人看了之后有很多的感悟。 作者对于这个话题做了深入的调查和研究,呈现了很多有价值的信息。 这篇报道的观点独到,让人眼前一亮。 新闻的写作风格流畅,文笔优秀,让人容易理解。 " 账号设置我的关注我的收藏申请的报道退出登录登录搜索36氪Auto数字时氪将来消费智能涌现将来城市启动Power on36氪出海36氪研究院潮生TIDE36氪企服点评36氪财经(Finance)职场bonus36碳后浪研究所暗涌Waves硬氪媒体品牌企业号企服点评36Kr研究院36Kr创新咨询企业服务核心服务城市之窗行政部门服务创投发布LP源计划VClubVClub投资机构库投资机构职位推介投资人认证投资人服务寻求报道36氪Pro创投氪堂企业入驻创业者服务创投平台 首页快讯资讯推荐财经(Finance)科技(Technology)创新城市最新创投汽车(Car)企服专精特新直播视频专题活动搜索寻求报道我要入驻城市合作Sora三巨头首次解密幕后信息,CTO:最快年内开放36值班小助手·2024-03-24 14:48关注OpenAI即将公测视频生成模型Sora。

“Sora最快今年(This Year)内开放公测。”

在一场访谈中,OpenAI CTO Mira Murati亲自透露了这一消息。

短短10分钟里,Sora技术细节、进展、规划等当下最热议的问题,都有了更进一步解答:

生成20秒的720P视频只需几分钟

计算资源远超ChatGPT和DALL·E

目前(Currently)正在进行(Carry Out)正在进行(Carry Out)红队测试

将来版本有望支持视频声效

而且还向外界传递了一层重要信息:

OpenAI在考虑发布这项技术时,抱有非常谨慎的态度。

“我们(We)希望(Hope)电影(Movie)界人士和世界各地的创作者都能参与进来,与我们(We)共同探索如何进一步推动这些行业发展。”

加上前几天,Sora的三名研发主管——Tim Brooks、William Peebles和Aditya Ramesh,也参与了一场16分钟的播客访谈。

综合两场对话,关于Sora背后的秘密,也有了更多蛛丝马迹可以探寻。

Sora背后还有多少秘密?

关于Sora,人们最关心也最期待的,可能就是什么时候才能上手体验了。

对此,Mira表示Sora正在进行(Carry Out)红队测试,以确保工具的安危性,并且不会产生偏见可能其他有害问题。

对于具体的时间,Mira也立下了flag——今年(This Year)年内让Sora与广大用户正式见面。

此外,两场对话中谈到的其他话题,可以分为技术细节、项目规划和将来展望三个部分。

揭开更多技术细节

技术方面,三人团队表示,Sora更像是介于Dall·E这类扩散模型和GPT之间。

训练方式类似于Dall·E,但架构上更像GPT系列。

训练数据是不方便说滴(doge),大致就是公开数据和OpenAI已获授权的数据。

不过他们(They)专门cue了一个点:通常图像、视频模型都是在一个固定尺寸上进行(Carry Out)训练,而Sora使用了不同时长、比例和清晰度的视频。

具体方法之前的技术报告已经有了说明,就是用“Patches”来统一不同的视觉数据表现形式。

然后可以根据输入视频的大小,训练模型认识不同数量的小块。通过这种方式,模型能够更加灵活学习各种数据,同时也能生成不同分辨率和尺寸的内容。

性能方面,Mira和三人组的说法则略有不同:

三人组透露,有一次给Sora布置好任务后,出去买了杯咖啡,结果(Result)回来之后视频还没做好。

而Mira这边的回答则是,Sora生成720P分辨率、长达20秒的视频内容,只需要几分钟就能完成。

当然,具体消耗的时间,还要取决于任务复杂程度等多种因素,不能简单一概而论。

不过Mira这边表示,在正式发布之前将继续努力(Effort)优化算法,以降低所需的算力。

这些问题还需解决

而针对Sora存在的不足,他们(They)的回答也很坦诚,表示其还存在无法完美处理手部的生成,渲染复杂的物理过程也存在一定难度等一系列问题。

除了这些bug型的缺陷之外,Sora不能给视频添加声音也算一个美中不足之处,对此三人组给出了这样的回复:

很难确定什么时候能有这样的功能,但这并非一个技术问题,而是目前(Currently)有优先级更高的问题需要解决。目前(Currently),Sora还是更关注视频本身的生成,研究重点是提高视频的画质和帧率。所以,能够加入声音当然是更好的,但现在的当务之急,还是要把视频能力先搞上来。

而Mira对此的回答则更像是给人们吃了一颗定心丸——将来版本有望支持视频声效,增强用户体验。

而除了这些产品本身的问题之外,为Sora生成的视频加入溯源信息,以防出现造假,也是OpenAI当下的一项重要任务。

同时,负责人和Mira都表示,团队始终在收集来自各界的用户反馈,三人组还举例说有用户希望(Hope)能加入提示词以外,更精细、直接的控制方式,团队将此作为了重点考虑的一个方向。

Sora,将来可期

最后,针对Sora的将来,负责人给出了很高的预期,并表示其将不仅仅在视频创作方面发挥作用。

我们(We)的世界充满了视觉信息,其中有很多无法仅通过文本来传达。所以,虽然像GPT这样的语言模型已经对世界有了深刻的理解,但如果它们(They)无法像人类一样“看”到视觉的世界,对世界的认识就会有所缺失。

因此,负责人对Sora及将来可能在其基础上开发的其他AI模型充满了期待——通过学习视觉信息的方式理解这个世界,在将来能够更好地帮助人类。

对此有网友表示,这的确是个好消息,Sora的意义不仅在于其本身,而且还会对其他AI产生影响。

另一边,已经有人在期待Runway等前任王者对此的反应了。

不过,虽然团队自己说Sora在将来能够理解人类世界,但它到底能不能真的算世界模型,还存在不小的争议。

Sora是世界模型吗?

针对这个问题,正反双方各执一词,支持者的主要理由,是认为从Sora生成的视频中能看出其对物理世界的理解。

而反方则不认同Sora是世界模型,代表人物是图灵奖得主、Meta首席AI科学家LeCun。

近期,LeCun点赞了一篇澳大利亚学者的万字长文,文章的核心观点就是认为Sora不是世界模型。

其中最核心的原因,是Sora并没有物理引擎来运行前向时间模拟,而且训练过程是端到端完成的,数据中并没有物理规律信息。

即便是抛开训练和生成过程,单从表现上看,Sora的输出也出现了违反重力、碰撞动力学等物理规律的情况。

△Sora生成的“反重力玻璃杯”

所以,作者认为,将Sora称为世界模型是缺少充分依据的。

而人们比较关心的另一个问题,是Sora的训练过程,是否使用了虚幻引擎(Unreal Engine)5。

不过作者也没有给出确切结论,只表示这只是猜测,目前(Currently)并没有确切的证据表明Sora确实使用了UE5进行(Carry Out)训练。

而要想进一步揭开这些问题,可能许要OpenAI再次自己出来公布,可能者直接开源了。

One More Thing

虽然两场访谈的确透露出了不少干货,但针对人们同样广为关心的训练数据来源问题,无论是三人团队还是Mira,说法都十分模糊——

Sora的训练过程中使用的是公开可用和已获得授权的数据源。

但对于YouTube、Instagram和Facebook上的视频是否被用作训练数据,Mira则是顾左右而言他:

我不知道,但如果这些数据是公开可用的,他们(They)也许是(训练)数据(的一部分)……我不确定

不过,这个说法的可信度先放下不谈,即便真的如Mira所说,也有网友并不认账:

OpenAI好像觉得,只要是公开的数据就可以随便用,呵呵

参考链接:[1]https://www.youtube.com/watch?v=Srh1lut4Q2A(第53分钟开始)[2]https://www.youtube.com/watch?v=mAUpxN-EIgU[3]https://artificialcognition.net/posts/video-generation-world-simulators/

本文来自微信公众号“量子位”(ID:QbitAI),作者:关注前沿科技(Technology),36氪经授权发布。

该文观点仅代表作者本人,36氪平台仅提供信息存储空间服务。

+130

好文章,需要你的鼓励

36值班小助手新锐作者3收  藏+11评  论打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮微  博沉浸阅读返回顶部参与评论评论千万条,友善第一条登录后参与讨论(Discuss)提交评论0/1000你可能也喜欢这些文章马斯克为什么一定要开源AI?音乐(Music)ChatGPT时刻来临!Suno V3秒生爆款歌曲,12人团队创现象级AI史上最强 AI 芯片,到底强在哪?小冰CEO李笛:移动互联网可能是人工智能发展的最大敌人闭关一年创业大模型,姜大昕站在AGI呼啸的风中阿里、百度双双出手,大模型长文本时代终于到来?又一AI独角兽生变:CEO辞职,融资不顺,被起诉要赔1.8万亿|最前线苹果为了AI,上了谷歌的船微软鲸吞OpenAI最大对手最新文章推荐PocketHealth获3300万美元B轮融资,研发医学影像共享平台 | 国外New ThingsClasp Therapeutics获1.5亿美元A轮融资,研发针对肿瘤的精准免疫疗法 | 国外New ThingsEngrail Therapeutics获1.57亿美元B轮融资,研发针对焦虑症等的疗法 | 国外New Things马斯克为什么一定要开源AI?新能源汽车(Car)狂飙10年:半部大佬创业史与鲶鱼频出的时代不会写十万+的VC,不是好投资人首都二手车市场,不相信新能源Sora三巨头首次解密幕后信息,CTO:最快年内开放音乐(Music)ChatGPT时刻来临!Suno V3秒生爆款歌曲,12人团队创现象级AI史上最强 AI 芯片,到底强在哪?36值班小助手新锐作者

介绍下自己,获得更多关注

发表文章46篇最近内容Sora三巨头首次解密幕后信息,CTO:最快年内开放1小时前史上最强 AI 芯片,到底强在哪?1小时前米国2月非农新增就业27.5万,时薪环比骤降,失业(Unemployed)率意外升至两年新高2024-03-09阅读更多内容,狠戳这里下一篇音乐(Music)ChatGPT时刻来临!Suno V3秒生爆款歌曲,12人团队创现象级AI

音乐(Music)ChatGPT时刻来临!Suno V3秒生爆款歌曲,12人团队创现象级AI

1小时前

热门标签公务员退休工资启明星(Star)辰范迪塞尔主演的电影(Movie)范·迪塞尔快递包装过度方大苏米护唇膏保险核保孙建亮丙瑞林曲普瑞林潘嘉严天泽信息海水淡化贝爷泰禾金尊府predix年广久刘天成吴鹏ip代理定价方法滚石唱片运动损伤软组织损伤虚拟团队装修房子边缘系统光伏认证关于36氪城市合作寻求报道我要入驻投资者关系商务合作关于我们(We)联系我们(We)加入我们(We)网站谣言信息举报入口热门推荐热门资讯热门产品文章标签快讯标签合作伙伴阿里云火山引擎高德个推星球日报(Daily)鲸准氪空间富途牛牛企服点评人人都是产品经理领氪36氪APP下载iOS Android36氪本站由 阿里云 提供计算与安危服务 违法和不良信息、未成年人保护举报电话:010-89650707 举报邮箱:jubao@36kr.com 网上有害信息举报© 2011~2024 首都多氪信息科技(Technology)有限公司 | 京ICP备12031756号-6 | 京ICP证150143号 | 京公网安备11010502036099号意见反馈36氪APP让一部分人先看到将来36氪鲸准氪空间

推送和解读前沿、有料的科技(Technology)创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业

Sora三巨头首次解密幕后信息,CTO:最快年内开放

您可能还会对下面的文章感兴趣:

赞(181) 踩(21) 阅读数(1024) 最新评论 查看所有评论
加载中......
发表评论