汉唐归来
惟有中华

花猫哥哥:Sora来了,中国能否赶上与美国AI的差距?|2024-02-24

最近,OpenAI突然发布首款文生视频模型—Sora。

很多人试用之后感叹:AI视频要变天了!

Sora不仅能够根据文字指令,创造出宏大、精美且颇具想象力的作品,运镜角度也能达到大师的水平。

而且,它的制作长度达到了1分钟,比现在最好的Runway Gen 2、Pika等AI视频工具的几秒视频强了几倍。

图片

说实话,这本来应该是只有影视行业在意的事情,但万万没想到,国内又开始有人反思了。

有人说这意味着第N次的工业革命又被欧美人开启了,有人说面对算力芯片的封锁中国的国运又要再次沉沦,还有人引申吐槽国内的科研人员都在琢磨人际关系,搞不出来这种颠覆性的成果来。

那么,Sora到底是个啥?到底厉害在哪里?在AI领域,中美真正的差异在哪里?

1  Sora的原理和厉害之处

其实吧,别看现在写Sora的文章满天飞,原理机理头头是道,还有人开始趁机卖Sora的课程乃至变现课程了,但绝大部分不靠谱。

为啥?

因为Sora根本没公测呢!

OpenAI公布的,只是Sora发布的几个视频,而且至今没对公众开放Sora的测试权限。

事实上,OpenAI公开表示,为了保证Sora的安全性,需要经过红队安全测试之后再考虑面向公众开放。

所谓“红队”可以理解为模拟黑客团队,目前只招收居住在美国的人,也就是说,国内用户现在连内测的机会都没有。

而就在2月15日,OpenAI官网首次列出中国、俄罗斯、伊朗、朝鲜几个所谓国家附属行为AI威胁参与者,并终止相关OpenAI账户。

连测试还没有测试,甚至连测试的资格都没有,咱们网上那些课程和解读是哪来的?

可想而知。

目前,唯一可以一探Sora奥秘的渠道,就是OpenAI官网关于Sora背后的技术理论的简介。

内容比较抽象,一般人看不懂,不过Sora的技术来源之一的Transformer的作者、上海交大天才少年、纽约大学助理教授谢赛宁啃完了OpenAI附件的32篇的论文,对内容做出了分析,也许我们可以一探究竟。

Sora最大的创新,是在论文中,提出了一个SpaceTime latent patch的概念。

你可以把它理解为一个“时空图像块”,每个“时空图像块”就相当于语言模型的token。

Sora的原理,就是通过你的提示词,提取关键字,比如主题、动作、地点、时间和情绪。

再从它的数据集里搜索与关键字匹配的、最合适的时空图像块。

然后按照数据集中其他时空图像块的之间逻辑,猜测自己的下一个时空图像块是什么。

最后通过LDM的建模方法+DiT的模型结构的生成能力,在时间轴上生成了一个连续的视频。

Sora最强大的能力,其实就在这一点上:

它不是通过单帧画面想象的,而是通过一个个时空图像块,然后来构成整个场景。

所以它天然适合生成连贯的视频,而且这个视频还能保持一致性、一惯性(比如人物的衣服不会发生变化)。

图片

咱们通俗地打个不是十分贴切的比方。

你让Sora给你做个《三体》的视频,它要在数据集中先读一遍三体,然后给每一个角色,都建立了一个故事线。

谁和谁在一起,做了什么,然后所有角色和情节构成了很多网。

这样他就能通过网上交织的这一个个的时空图像块,按照你的提示词来构成整个画面。

汉风网网站提示:
经过两天的测试与系统重构,我们的支付问题已经解决,请老友们放心支付。
建议老友们升级会员,升级会员后,可以全部阅览。如果不会操作升级会员,请加汉风网微信,我们后台给您添加。
请老友们一定点击“立即购买 或 升级vip”按钮进行购买,因服务器反应慢点击购买后大概需要8秒左右,(如果等待8秒没有反应,可以再次点击一下)会跳转到支付页面。购买成功后才可以查看到剩余内容,购买成功后如果遇到服务器没有反应则请等待一会刷新(如果还是看不了,请再次刷新一下),或重新打开本篇文章,因技术原因请老友们尽量在半个小时内阅读完,超过时限会需要重新购买。此费用为支持汉风网服务器带宽以及编辑人员相关费用。谢谢老友您的支持。如果有疑问,请加微信联系我们,我们第一时间解决   

赞(6)
请您分享转发:汉风1918-汉唐归来-惟有中华 » 花猫哥哥:Sora来了,中国能否赶上与美国AI的差距?|2024-02-24