花猫哥哥：Sora来了，中国能否赶上与美国AI的差距？|2024-02-24-汉风1918-汉唐归来-惟有中华

最近，OpenAI突然发布首款文生视频模型—Sora。

很多人试用之后感叹：AI视频要变天了！

Sora不仅能够根据文字指令，创造出宏大、精美且颇具想象力的作品，运镜角度也能达到大师的水平。

而且，它的制作长度达到了1分钟，比现在最好的Runway Gen 2、Pika等AI视频工具的几秒视频强了几倍。

说实话，这本来应该是只有影视行业在意的事情，但万万没想到，国内又开始有人反思了。

有人说这意味着第N次的工业革命又被欧美人开启了，有人说面对算力芯片的封锁中国的国运又要再次沉沦，还有人引申吐槽国内的科研人员都在琢磨人际关系，搞不出来这种颠覆性的成果来。

那么，Sora到底是个啥？到底厉害在哪里？在AI领域，中美真正的差异在哪里？

1 Sora的原理和厉害之处

其实吧，别看现在写Sora的文章满天飞，原理机理头头是道，还有人开始趁机卖Sora的课程乃至变现课程了，但绝大部分不靠谱。

为啥？

因为Sora根本没公测呢！

OpenAI公布的，只是Sora发布的几个视频，而且至今没对公众开放Sora的测试权限。

事实上，OpenAI公开表示，为了保证Sora的安全性，需要经过红队安全测试之后再考虑面向公众开放。

所谓“红队”可以理解为模拟黑客团队，目前只招收居住在美国的人，也就是说，国内用户现在连内测的机会都没有。

而就在2月15日，OpenAI官网首次列出中国、俄罗斯、伊朗、朝鲜几个所谓国家附属行为AI威胁参与者，并终止相关OpenAI账户。

连测试还没有测试，甚至连测试的资格都没有，咱们网上那些课程和解读是哪来的？

可想而知。

目前，唯一可以一探Sora奥秘的渠道，就是OpenAI官网关于Sora背后的技术理论的简介。

内容比较抽象，一般人看不懂，不过Sora的技术来源之一的Transformer的作者、上海交大天才少年、纽约大学助理教授谢赛宁啃完了OpenAI附件的32篇的论文，对内容做出了分析，也许我们可以一探究竟。

Sora最大的创新，是在论文中，提出了一个SpaceTime latent patch的概念。

你可以把它理解为一个“时空图像块”，每个“时空图像块”就相当于语言模型的token。

Sora的原理，就是通过你的提示词，提取关键字，比如主题、动作、地点、时间和情绪。

再从它的数据集里搜索与关键字匹配的、最合适的时空图像块。

然后按照数据集中其他时空图像块的之间逻辑，猜测自己的下一个时空图像块是什么。

最后通过LDM的建模方法+DiT的模型结构的生成能力，在时间轴上生成了一个连续的视频。

Sora最强大的能力，其实就在这一点上：

它不是通过单帧画面想象的，而是通过一个个时空图像块，然后来构成整个场景。

所以它天然适合生成连贯的视频，而且这个视频还能保持一致性、一惯性（比如人物的衣服不会发生变化）。

咱们通俗地打个不是十分贴切的比方。

你让Sora给你做个《三体》的视频，它要在数据集中先读一遍三体，然后给每一个角色，都建立了一个故事线。

谁和谁在一起，做了什么，然后所有角色和情节构成了很多网。

这样他就能通过网上交织的这一个个的时空图像块，按照你的提示词来构成整个画面。

汉风网网站提示：

经过两天的测试与系统重构，我们的支付问题已经解决，请老友们放心支付。

建议老友们升级会员，升级会员后，可以全部阅览。如果不会操作升级会员，请加汉风网微信，我们后台给您添加。

请老友们一定点击“立即购买或升级vip”按钮进行购买，因服务器反应慢点击购买后大概需要8秒左右，(如果等待8秒没有反应，可以再次点击一下)会跳转到支付页面。购买成功后才可以查看到剩余内容，购买成功后如果遇到服务器没有反应则请等待一会刷新（如果还是看不了，请再次刷新一下），或重新打开本篇文章,因技术原因请老友们尽量在半个小时内阅读完，超过时限会需要重新购买。此费用为支持汉风网服务器带宽以及编辑人员相关费用。谢谢老友您的支持。如果有疑问，请加微信联系我们，我们第一时间解决

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

花猫哥哥：Sora来了，中国能否赶上与美国AI的差距？|2024-02-24

相关推荐

分类

按日期归档文章