最近这段时间,OpenAI公司的Sora火爆了,查了下时间是2月15日(美国当地时间)发布的。
当然了,每一次有新的东西出来,都是我们学习的机会,比如AGI这个词,最近因为Sora火了,我们就经常看到,但这个词是什么意思呢?平时我们不是都说AI(人工智能)吗,怎么又出来一个AGI。
像360的董事长周鸿祎就针对Sora的发布评论说“AGI真的就不远了,不是10年20年的问题,可能一两年很快就可以实现”。
AGI是Artificial General Intelligence的的缩写,直译过来就是通用人工智能,直接点说就是能在各个领域都达到人类水平的人工智能。
人类是智慧的生物,所以一个人可以训练为医生,护士,司机,飞行员,士兵,工程师,快递员等等,表现出从事各行各业工作的通用性,对现实世界有强大的理解能力,而且还可以在工作中不断学习成长。
当然了,AGI是未来的事情,
相对于人类的水平而言,现在普遍应用的人工智能有以下几个特点:
1:只能做特定的工作,
比如你家里的智能摄像头, 它能做的就是图像识别,
再比如我们手机里面的智能语音输入法,它能做的就是把你说的汉语转化为文字。
再比如我们汽车里面的各种车机对话机器人,什么理想同学,小艺,小P等等,它能做的就是听懂你说的指令然后打开空调,调温度,打开车窗,导航什么的。
2:缺乏对世界的理解
我们现在登录一些程序的时候,经常会弹出一些图片,让你把它指定的选出来,比如汽车,自行车,女性,海边的男孩什么,这样做的目的是确认你是人类在登陆,因为人类有对世界的理解,我们脑子里不需要去存储记忆那么多海边男孩的画面,而是凭着对描述的这个画面的理解可以把相关图片筛选出来。
现在智能手机已经可以很方便的用文字搜索图片了,
比如在相册里面搜索驾驶证,那么驾驶证的图片就可以很快的显示出来,我今天就在我的华为手机上用了这个功能,因为在试驾车需要出示驾照。
而且如果搜索“两个人”,也能把含有两个人的照片显示出来。
但是如果如果搜索复杂一点的东西,比如搜索“父亲和儿子“,就显示不出来了。
如果再搜索“认真工作的照片”,就更搜不出来了。
这就是自然语言理解能力还不行。
再比如有的AI画出来的画,或者做出来的视频,感觉就是怪怪的,和现实物理世界不一样,以至于人类可以分辨出这就是AI风格图片视频。
3:自主学习功能较差。
像现在新能源汽车的车机对话机器人,
我过去的半年开了一些火热的国产新势力新能源车型,有时候让它放一首歌,它放出来的是错的,不是我想听的版本,那能不能做到我说话告诉它放出来的歌不对,什么版本才是我想听的,然后它下次就能把正确的歌放出来了?目前还不能。简单的说,就是没有记忆功能,就像是一个没有记忆的人。
现在还只能依靠后台的工程师,通过不断搜集反馈的数据在云端训练,
然后发布更新版本再推送到端侧,而且更新的版本也不一定是我们想要训练出的效果。
如果能够达到AGI的话,我们就可以自己把车机聊天机器人越训练越聪明了,训练成我们想要的样子了。
当然等AGI通用人工智能实现了,上面的问题也就解决了。
这次Sora出来,之所以能够出现这么大的震撼,是因为在第二点上,也就是对世界的理解上实在是太惊艳了,根据文本生成的视频居然没有什么逻辑错误,和人类生存的物理世界表现一致,让人难以分辨这是AI生成的视频还是人类做出来的视频。
我们看一下OPENAI公司是怎么介绍自己的产品的。
首先说Sora是一个能够通过文本描述来创造现实和想象的场景的AI模型。