OpenAI看似平淡地推出了Sora,却在国内引起了“炸场”般的效果。
Sora能够制作长达60秒的流畅视频,这与通常只能生成不足5秒视频的其它文生视频技术相比,无疑是一次“跨代”的飞跃。在OpenAI发布的演示视频中,遮挡后的物品能够随着遮挡物的移除而重新显现。在放出的示例视频中,被遮挡的物品在遮挡物离开之后,可以再次重现,这个细节又让业内惊叹。OpenAI在公开的技术文档中将Sora视为一种“世界模拟器”,表达比较谨慎。但是行业内还是有讨论,看起来Sora正在构建“物理世界模型”。
然而,在惊叹之余,它的诞生也让AI行业的赛跑者们担忧起来,那些在文生视频赛道与OpenAI正面相撞的创业公司,曾经积累的技术护城河是否会在一夜间崩塌?技术迭代如此之快,到底什么才是真正安全的壁垒?
这种担忧并非无的放矢,Sora的出现标志着AI在视频生成领域的一次重大突破,这不仅挑战了现有技术,也重新定义了行业的技术标准。在这个快速变化的领域,技术的领先优势可能转瞬即逝,而持续的创新、对用户需求的深刻理解以及快速适应市场变化的能力,可能才是构建持久竞争力的关键。为了更深入地理解Sora的潜力及其对行业的影响,腾讯科技特别组织了这次直播讨论,和在硅谷的一线专家及创业者,共同探讨Sora对未来的AI技术路线及应用生态的影响。
丨嘉宾
①何宜晖(Ethan)NVidia 资深深度学习算法工程师
②How在硅谷(How) 工程学博士,前苹果核心技术项目主管
③鲁为民 MoPaaS 魔泊云创始人和CEO
④SHAUN.AGI (Shaun) 前Google Assistant 部门Tech Lead,GenAI领域创业者
⑤主持人(腾讯科技):纪振宇 腾讯新闻驻硅谷作者
丨划重点
① Sora生成的视频让业界惊艳,除了时长和画面效果,还从某种程度看到它对于物理世界的理解(比如拿开遮挡物,依然能够让被遮挡的物体复原。
② 和所有概率模型一样,Sora依然存在“悖谬”和“幻觉”。按照ChatGPT的安全对齐调整时间来推算,正式上线也至少还需要几个月的时间。
③ 视频模型的推理成本更高,Sora真正上线还面临对计算资源和成本的挑战。
④ 在 AI 领域创业,如果跟大厂在一个赛道“相撞”,是有窗口期的,在窗口期内做这件事,如果数据飞轮提前转起来,是有机会的,比如Midjourney。
⑤ 从第一性角度来讲,AGI是一定能实现的。人类是进化而来的,从进化算法来讲,我们现在需要恒星级的算力达到AGI。进化算法并不是一个高效的算法,我们需要寻找更高效的算法。
以下为直播实录精简版:
01 Sora的出现,到底为什么那么强?
腾讯科技:第一次了解到Sora时,它最让你惊艳的地方在哪?
鲁为民:这次OpenAI 发布Sora生成的每一个视频都很让我惊叹,特别是其高保真的效果以及视频图像的前后一致性。
但是有一个视频让我印象最深刻,就是装着果汁的玻璃杯在桌子上破碎的视频,“果汁洒在桌面上,杯子横在桌面上,杯子有一部分变扁,但是没有玻璃碎片。” 这个事件发生的次序在物理世界是不可能的,但是视频中各个事件的连贯表现得十分丝滑。Sora 模型生成的视频让人惊艳,但也展现出大模型一直存在违背规律和事实的“悖谬”和“幻觉”。这个也是对我们的一个提醒:Sora的实际应用还存在一些待解决的问题。
Shaun:让我最震惊的是其中一个视频,就是“一只狗趴在窗台上,一个人从它面前走过,人走过的时候,把狗挡住了,当人走过去之后,狗还在原来的位置。”
为什么会让人震惊,这个视频某些程度证明了,它和以前的视频完全不一样,它其实是对物理世界事物之前的关系有一定的认知了,而不是简简单单把一段文字转化成视频。
Ethan:让我惊艳的首先是Sora能生成长达60s的连续视频,这个长度是非常可怕的。之前的视频生成模型大多都只有5s以内;另外就是视频的变化幅度很大,甚至可以做镜头切换、移动,而且能保证场景和人物的一致性。这是非常大的技术突破。
How:最让我惊艳的是它的连贯性做的特别强,但我还有两个希望探讨的点,后续我们可以继续聊:
第一,它是不是真的能够理解世界了?
第二,遮挡物走过去,后面的物体能复原,这说明它对三维世界有一定的理解,它是不是也能生成3D的视频,还是说因为3D的数据不够多,没有办法把Alignment(对齐,确保AI模型的行为和决策与人类价值观、目标和意图相一致的过程)做得很好,所以只能把高维的东西拉到2D视频中,让大家观赏和理解。
腾讯科技:刚才大家都提到了一个点,就是看到视频中有一个物体被遮挡后,它又重新回到镜头里面。从技术角度来讲,这为什么是很大的突破或者说让人很惊艳?
Shaun:我尽量不涉及到技术细节来解释这件事。大家如果听得多,会知道Sora应用了Diffusion Model(扩散模型)。原理是先把它加“噪音”,就好像我们摘掉眼镜,然后再不断降噪,就像不断增加眼镜度数,逐渐清晰。在数据量少的时候,它不会出现中文中我们说的“涌现”的效果,当数据量大到一定程度,才能有涌现的能力。物体被遮挡之后,又能重新出现,这在之前几乎是做不到的,Sora达到了这个能力,它居然能够认识到这个物体是在那个地方,而且当遮挡的东西被拿开之后,它永远是在那边的。这其实给了业界所有人一个惊喜。
Ethan:再打个比方,就好像你和小朋友开玩笑,把手捂住脸,再把脸露出来,他会很惊讶,也不太理解会是同样一个人。他会有新奇感,其实是同样的道理。
在传统的AI模型中,在数据标注的时候可能会做物体分类,比如有1000张图片都是猫,1000张图片都是狗,模型能识别出来哪些是猫、哪些是狗,但是模型不知道这个猫是“这只猫”,而不是“另外一只猫”。当你把遮挡物拿开,它又出现,这其实证明模型有了记忆同一个物体的能力,而且还是从不同角度看这个物体的能力。
腾讯科技:从这个角度理解,我们是不是能认为模型其实已经具备一个四岁小孩的能力?
Ethan:还不能这样说,这需要科学的指标去全面对比。
腾讯科技:Sora生成的视频中还是有不稳定的情况产生,你可以看到一些逻辑明显错误的视频出来,而OpenAI也并不避讳放出这些视频,为什么会有这些不稳定的情况出现?
Shaun:我觉得这是Transformer模型本身的特性,大家都知道Transformer是一个按照概率产生下一个结果的概率模型。再好的模型如果让它连续答1000个问题的时候,它的错误率就会比较高。
鲁为民:基于Transformer的生成式模型是一种计算Token生成概率的预测模型。我认为只要牵涉到概率的模型,就会有一定的近似和不确定性,使得视频的生成呈现不稳定性,甚至出现明显的逻辑错误。另一方面,训练数据也很重要。训练数据中包含一些场景,但这些场景是否能完全覆盖生成的应用场景是一个问题。例如,前面提到的玻璃杯破碎的场景,可能在之前的训练数据中,这种场景可能并不存在;在这种情况下,模型可能会对生成视频做出最可能出现的预测,即模型依赖概率来估计图像出现 的时间序列,但后来我们发现,这种估计在时间次序上并不符合物理规律或逻辑。
此外,对于一般正常的场景,视频的呈现通常是平滑且连续的。然而,对于突然变化的场景,比如玻璃杯突然碎裂,以及不常发生的边角事件在近似的模型中很难被准确模拟。尽管一般认为神经网络可以近似任何类型的线性或非线性关系,无论是连续还是非连续的,但它们仍然是近似并存在误差。在某些场景中,这些误差的结果可能导致模型在表达世界时呈现物理原理、因果关系、和时空细节等方面的错误。
这种问题不仅仅是在当前的Sora模型中存在,之前的GPT系列模型也遇到了类似的情况。这从经验上也证实幻觉问题是这类模型架构存在的一个先天性问题。当然,我们可以不断地对模型进行细致的优化,不断去逼近这个模型系统真实的解,但很难完全消除这样的问题。然而,这并不妨碍这类模型在许多合适场景中的广泛应用。
Ethan:问题的本质还是模型不够强大,如果大家玩过Stable Diffusion就应该知道,如果你玩得比较多,会发现一些小错误,比如人有4-6根手指,或者背景是歪的,这些问题在它上线半年后,都逐渐解决了。
Shaun:再补充一个点,OpenAI收购了一家游戏公司Global Illumination,其实有很大的原因也是要增大3D数据量,真正意义让模型知道怎么跟周围去交互。
How:游戏引擎在三维世界中所做的工作实际上是将物理定律——比如重力——用数学表达式描述出来,并将这些定律应用于三维场景中,以模拟现实世界的状态。
通过这样的引擎,他们实际上是在一定程度上通过图像、视觉或数据的方式,向模型传达相同的物理定律。例如,如果你问模型为什么一个球在放手后会掉下来,模型可能并不真正理解重力加速度的概念,但它可以通过观察连续的图像——比如视频,视频对我来说就是连续的图像序列,每秒24帧或32帧——来理解物体下坠的过程。通过这个过程,模型能够意识到存在某种原理或定义,即使它不知道这是重力的原理。当模型再次生成类似的场景时,它可能不会意识到这是重力的作用,但它能够生成相同的现象。实际上,虚拟引擎也在帮助大型模型通过公式表达的方式在虚拟世界中呈现物理定律,让模型观察和学习这些现象。
鲁为民:另外对于这类模型,包括将视觉元素整合进去的环境建模或物理世界建模,我们基本上有两种不同的方法。一种方法是数据驱动的,比如Sora,使用扩散Transformer架构,延续了语言大模型的思路,通过大量的互联网规模的数据来训练模型。另一种方法,应用第一性原则来建模,比如Unreal Engine主要基于物理规律和其它数学模型生成图像和视频;所以如果使用依赖基于第一性原则的Unreal Engine来建模,那么能够覆盖的场景范围与可以这样建模的场景数量和其普遍性有关。
这两种方法代表了不同的思路。
前者可能使得模型学习更广泛的知识,可能涌现非设计的能力。后者可以建立更精确的模型 。当然,如果能够将这两种方法结合起来,比如通过大模型来调用基于第一原则的生成视频的工具,可能可以呈现两者最好的一面。但是也可能被某一方法的局限,比如有可能你想要生成的视频内容是像Unreal Engine这样的视频生成引擎无法覆盖的场景。所以通过基础模型调用专有工具可能是一把双刃剑,既有其优势,也可能带来一些问题。
02 Sora真的接近世界模型吗?
腾讯科技:这个话题直接让人联想到最近讨论的物理世界引擎。OpenAI在Sora的技术报告中也刻意避免了世界模型这种词汇,只是说这可能是AI通向物理世界的一个有希望的道路。各位怎么看呢?
Shaun:在硅谷,有两类人对生成式人工智能(AI)持有不同的看法。一类是像我这样的生成式AI的忠实粉丝,另一类则是像Yaun Lecun这样的批评者。通过观察OpenAI的代码库,我可以感受到他们确实相信通过大量投入可以实现突破。
以他们发布的一个视频为例,视频中展示了一只狗在雪地里玩耍。当模型规模较小、计算能力有限时,视频质量很差,几乎无法辨认出是一只狗。但随着计算能力的增强,视频质量显著提高。这表明OpenAI认为生成式AI的发展潜力还远未达到上限,尽管他们不确定这是否是AI发展的唯一路径。在没有明确答案之前,他们愿意继续投资,扩大计算能力,不断优化模型。
在OpenAI的实践中,无论是大数据还是大型语言模型,最大的挑战始终是数据。 当所有可用的数据都被利用之后,如何继续训练模型成为一个问题。这就是为什么他们需要物理引擎,因为这些引擎能够创造出无限多的数据,提供各种各样的训练场景。物理引擎代表了人类多年来在模拟现实世界方面的技术精华,它让我们能够在虚拟环境中感受到周围环境的真实性。
在我看来,OpenAI并不认为生成式AI已经到达了发展的终点。同时,也有像Meta技术负责人这样的人物,他们完全相信世界模型的力量。他们认为应该专门训练一个模型来确定世界的运行模式。他们的模型使用了数百万小时的视频资料进行训练,但我认为其训练效果并不如OpenAI的方案。他们的模型在计算能力上还不足,尚未达到能够产生新能力的水平。在某种程度上,他们的成果被OpenAI的成就所掩盖。
鲁为民:图灵奖获得者Yann LeCun提出了世界模型的概念,现在对世界模型概念都存在着支持和排斥两种迥然不同的观点,它们各自都有其合理性。我个人对图灵奖获得者Yann LeCun的世界模型的观点有一定程度的认可,尤其是在当前条件下,从第一性原理出发来对世界进行建模,可能更方便其应用在特定的场景。另外,他的世界模型架构通过对环境的感知以及与环境的互动来生成行为,形成反馈闭环,从而进一步学习影响环境。虽然这种世界模型的思路有其合理性,但目前还没有特别突出的实际应用。
最近,Meta 发布了 V-JEPA 视频模型,声称是一个早期的LeCun物理世界模型,并在检测和理解物体之间的高度详细的交互方面表现出色,在推动机器智能迈向了更加深入理解世界的重要一步,但其锋芒被风头正劲的OpenAI Sora 模型所掩盖。
因为现在已经有了足够的条件,比如大算力和互联网规模的数据,可以大规模地训练数据驱动的模型,使得像Sora这样的数据驱动的生成模型的性能和效果、灵活性和涌现能力表现出色,在很多场景其生成的内容令人惊艳。虽然目前来看(高质量的)训练数据可能还不够,但我们一方面在不断努力增加数据量,另一方面通过人工或合成的方式提高数据的多样性和质量,确保数据的多样性和质量。
在这两个条件的基础上,再加上新的模型架构,比如这次Sora采用以Diffusion Transformer为主的架构,确实能够通过大力出奇迹的方式学习到一些关于环境或世界的知识,特别是它能够利用足够大的容量在某种程度上学会对世界的理解。
从这个角度来看,效果是显而易见的,它在视频长程一致性、3D一致性以及与现实世界的交互能力等方面的表现让人印象深刻,例如吃了一个汉堡包后能留下缺口,或者狗被遮挡后再出现的场景,这些都是模型从现有数据学到的关于世界的知识。
虽然Sora还可能不能完全理解世界,还存在违背规律和事实的“悖谬”和“幻觉”,但我相信通过OpenAI和其它机构的持续努力,像 Sora 这类模型将会不断地改进。希望在没有其它更好的替代方法之前,能够在应用中能够充分利用这样的进展,在合适的应用场景中产生一些正面的结果。
How:多年前,我看过一个关于MIT教授的报道,她当时专注于开发陪伴型机器人,特别是为那些早年丧子的母亲提供心理治疗。她开发了一个模拟孩子声音的机器人,外观也像个小孩,能够发出哭声。这个机器人被用来安抚那些经历不幸的母亲,并进行相关研究。
教授在演讲中提到,她发现许多母亲对这些机器人孩子产生了强烈的依赖,即使知道它们是假的,也会与它们建立情感联系。当项目结束,需要收回这些机器人时,许多母亲甚至拒绝放手,想要保护它们。这让教授开始质疑自己的工作是否真的帮助了这些母亲,因为她意识到这些机器人只是按照程序模拟孩子的声音。
这个故事让我思考了Yann Lecun和Geoffrey Hinton两派的观点。我认为,随着技术的发展,我们可能会越来越依赖AI技术,认为它已经接近或达到了通用人工智能(AGI)。然而,也有人可能会像Yann Lecun那样,从一个更客观的角度看待这些机器人,认为它们只是安慰者,没有必要与它们产生情感联系。
这个故事让我意识到,我们对于AI的理解和接受程度可能受到我们心理因素的影响。人们对于不同的模型可能会有不同的理解。我认为,这个问题背后的核心是我们缺乏一个清晰的原理来解释AI的本质,就像我们无法用第一性原理来解释拉伸单位或所有事物的本质一样。即使是OpenAI内部,他们也可能无法用一个清晰的原理或公式化的方式来解释AI。这可能会成为学术界和业界长期面临的最大问题。
Ethan:我们现在正在开发的是一个大型模型训练框架,这个框架能够支持训练达到万亿规模的模型。GPT-4就是一个例子,它是一个万亿级别的模型。目前来看,这种模型的增长趋势似乎还没有达到极限,至少在未来五年内,我们预计它还会继续变得更强大。
至于通向人工智能(AGI)的路径,我个人并没有特别倾向于某个学派,因为学派的流行往往随着时间而变化。从数据挖掘时代,到计算机视觉时代,再到现在的大模型时代,每个时代的主导算法都不尽相同。关键在于算法能否有效地利用最大的计算力,即所谓的“规模定律”。在OpenAI的公司理念中,他们坚信通过扩大规模来提升算法性能。如果一个算法即使在全世界所有计算机上训练也无法产生显著效果,那么它就不是一个好的算法,这时就应该考虑更换算法。
Yann LeCun也提到,他相信五年后,主导的算法将不再是现在的LLM,而是会被新的算法所取代。我部分同意这个观点,因为从历史规律来看,大约每五年就会有一次算法的更迭。五年后的具体算法我们现在还不知道,但最关键的是如何利用最多的数据和全球的算力进行训练。目前,AI训练所使用的电力相对于全球电力消耗来说还微不足道,不到万分之一。想象一下,如果这个比例能够大幅提升,那么AI的潜力将是非常巨大的。
鲁为民:(除了世界模型,AGI也是人们常谈到的一个相关概念。)实际上AGI 目前没有一个大家公认的定义,其目标也不太可能定义得非常明确。我们现在看到的世界模型和AGI各种实践应该是没有问题的。虽然各自发展的具体路径会因为目标的不同而有所不同,但我们相信在目前这个阶段这种百花齐放的多样性是有益的。
我们之前讨论过,对于AI系统的发展与其设定一个遥远的目标去试图一步到位实现,现在AI技术的推动实际上是沿著一种更为现实灵活的途径。实际上,最近这些年AI的发展,我们首先看到的是语言模型的突破,语言模型已经在语言理解、生成和处理方面取得了惊人的进展,尽管还有很多问题需要解决,但至少我们看到了语言模型已经在跨越应用的门槛。现在轮到视频视觉了,像今天的 Sora 已经初步显示视频模态理解、处理和生成的巨大应用潜力。
接下来,我们可能会看到更多的模态融合,不仅仅是语言和视频,还包括语音、视觉、味觉甚至嗅觉等不同的模态。这些模态的加入可能会让模型对现实世界和环境有更深的理解。具备了这样的条件之后,我们再去讨论对物理世界的理解、对人类环境的理解以及世界模型和AGI等概念,可能会更加水到渠成。
Ethan:关于通用人工智能(AGI),我们可以从第一性原理的角度来讨论一些明确的观点。理论上,AGI是可以实现的,而实现它的方法之一是进化算法。人类就是通过进化过程发展而来的。然而,进化算法需要巨大的算力,可能需要恒星级别的算力,即利用太阳的全部能量来计算结果。因此,进化算法并不是一个高效的算法,我们需要寻找更高效的算法。
芯片的发展遵循摩尔定律,即每隔一定时间,芯片的性能就会翻倍。同样,大模型遵循规模定律,即数据和模型的规模每增加一个量级,模型的效果就能线性稳定地增长到下一个阶段。因此,我们需要找到一个能够充分利用规模定律、不断自我优化的算法,这是实现AGI的基础理论。
Shaun:我非常相信AGI最终会实现。目前,我们在算力上的能源投入还远远不够,无论是计算资源还是电力,但即便如此,我们已经能够创造出强大的成果。我自己有一个理论,叫做“更大的压缩带来更大的智能”(more compression, more intelligence)。从人类的角度来看,我们从小到大都在学习,实际上是在将知识内化成自己的一部分,这也是一种压缩过程。考试则是对我们智能某方面能力的测试。现在的模型,尤其是以深度学习为主的模型,能够将压缩的数据转化为智能,这是以前许多算法无法实现的。
因此,我相信随着我们有更多的数据被压缩进模型,以及我们的能量或算法的提升,一定会产生超越普通人智能的存在。另一方面,每个人的认知能力都有极限,比如你能记住多少东西,以及在有限的时间内能学习多少知识。每个人都有自己的认知极限。所以,如果你思考一下,相信我们可能生活在一个更大的虚拟世界中,这也是非常有可能的。
How:首先,关于算力问题,我最近看了Geoffrey Hinton的一次演讲,他提出了一个新的算力理念,我觉得很有趣,想和大家分享。他指出,现在的计算机都是基于二进制数据,0和1的转换,这种方式在处理大模型时非常耗能。他提出了一个概念,即是否可以将传统的二进制计算机系统模式转换为模拟系统,比如使用连续的信号,如电压,这样的系统在处理信息时可能更加高效,因为它们是连续的,而不是离散的。这种转换可能需要我们重新设计计算机的结构,以适应更高效的计算模式。
第二点,我想讨论的是世界模型的意义。我认为,一个真正的世界模型应该能够帮助AI真正融入我们的生活,像人类一样行动。目前,AI在某种程度上可以模仿人类的思考,但还无法直接影响我们的物理世界。例如,机器人在抓取物体时,需要三维空间的坐标信息,而不仅仅是二维图像。未来,无论是通过机器人还是其他载体,AI模型应该能够利用这些信息来创造或改变我们的物理世界。
最后一点,我想谈谈AI在日常生活中的实际应用。当GPT发布时,我的朋友圈被刷屏,大家都在讨论它的惊艳之处。但我有一个朋友转发了一个有趣的观点,指出人类原本期望AI能帮助我们做家务,从而让我们有更多时间去追求自己的梦想。然而,现实似乎相反,AI现在更多地被用于创作,而我们仍然需要处理日常的家务。所以,我认为AI的真正价值在于它能否真正改变我们的生活,让我们从传统的劳动模式中解放出来,拥有更多的时间和精力去追求更高层次的目标。在发展AGI的过程中,我们也应该思考它将如何具体改善我们每个人的生活。
03 Sora的出现,会给AI应用生态带来哪些改变?
腾讯科技:回到Sora,目前OpenAI只是开放了一小部分试用,未来还会有什么更广阔的应用场景?
鲁为民:目前,尽管Sora一亮像就让人感到惊艳,但存在一些问题。例如,这些模型并不总是能够生成令人满意的图片和视频,有时甚至会出现在物理规律和逻辑上的严重错误。我们之前使用 ChatGPT时,可能也经常遇到类似的问题。
一方面,我相信随着时间的推移,这些模型的优化使得其应用会变得更加成熟,成本会降低,也会有更多人使用。但具体来说,这些模型适合于哪些用户群体目前还不太明确。比如,相比于语言模型,视频生成模型可能更加小众。AI从业者还需要不断地应对各种各样的挑战。然而,我更关注这些模型对于更长远目标实现的影响,比如我们需要它们对其环境有更好的理解和对世界有更强的认知能力。因为从长远来看,我看好这些模型的应用能力可以扩展到能为机器人等真正地提供“大脑”,通过这些模型来增强它们的理解、推理和规划能力。我相信这样的应用方向可能会带来更高的价值,并且更广泛地惠及大众。
Ethan:我记得刚刚还问到下一步OpenAI会如何升级Sora。其实Sam Altman在推特上也说了,现在已经邀请少部分人内测,主要是看模型的漏洞,是否有安全风险。ChatGPT上线之前测试了比较长的时间,即使他们现在有了经验,我觉得还是需要一段时间测试,才会正式上线。应用方向其实可以从他们邀请的测试用户范围可以推测出来一些,好莱坞、YouTube的影视创作者。
腾讯科技:大家觉的Sora的出现,对这个领域的创业生态会产生什么影响?
How:每次OpenAI的炸场产品之后,行业中都会有一些哀叹的声音。这次Sora发布之后,像PIKA这类垂直做文生视频的公司,不可避免会产生很大的压力。不管是创业者还是投资人,都可能意识到,“OpenAI在卷的事情,机会可能变得越来越少。”
从我的角度来看,创业者在探索方向的时候,我觉得一定程度上还是避免大厂做的事情。
另外一个角度就是,“打不过它,你可以加入它”。在大厂的生态下,怎么做一些更好的产品。不如在基础模型的基础上去探索一个产品的真正价值,从用户需求来出发,而不是说从一个技术有多牛。硅谷创业者经常说,我不要拿着锤子去找钉子,看着什么钉子都想锤一下,锤完之后花了很多精力、烧了很多钱,但是没人买单。PIKA现在已经拿到融资,如果是新企业,再拿融资就不容易了,它拿到了融资就是优势,可以快速想想如何转型。
腾讯科技:这让我想到了Midjourney,其实他们的赛道是文生图,一直在大厂的技术覆盖范围内,为什么还是活得很好?
Ethan:我觉得创业做一个项目,如果跟大厂在一个赛道,它是有窗口期的,在窗口期内做这件事,如果你的数据飞轮转起来,是有机会的。
Midjourney起步的时候就是做的最好的,也积累了很多的用户数据,这些数据是非常有用的,这种叫做Human Preference,就是符合人类审美的数据。如果你玩过Midjourney的话你就知道,它会生成四张图,让你选择一张你最喜欢的,它就会在跟你的互动反馈中,不断地学习,这就是很好的数据飞轮。
当这个数据飞轮跑起来之后,大厂是追不上的。但是如果过了这个窗口期,你再去做,那就希望十分渺茫。
Shaun:Midjourney是一个很好的例子,成名要趁早。但是这波AI的速度是指数级增加,如果所有大厂都对某个事情有追赶的时候,风险是很大的。我觉得Sora相对于其它产品,是有代差的,如果你没有前期的积累,再去做事非常难的。
我同意刚刚How说的,应该从用户的需求,尤其是长尾需求出发,技术是你的工具,而不是你解决问题的唯一方法。
腾讯科技:AI在以指数级速度迭代,各位最期待什么?
Ethan:我还是想从scaling law(规模定律)来讲,从规模定律来讲,数据的量级增大,你的模型会进入下一个阶段。比如GPT-4,几乎已经利用了世界上可用的所有的网络上的数据。但是,你如何去找下一个10倍于现在量级的数据?
另外就是大量的视频数据也在被利用,但是现在据说把视频和文字的数据放在一起训练,效果反而变差了,这在技术上如何突破,也值得期待。
最后就是据说OpenAI现在有一个Super Alignment的项目,未来四年,通过无监督方法得到一个更强的模型。据Sam Altman说,他们每天通过ChatGPT应用获取到万亿级别的文字,这些文字还没有很好的办法用到训练中。
之前ChatGPT也出现过模型效果下降的问题,当他们发现一个能够十倍甚至百倍有效利用数据的方法的时候,这个模型就会进化到下一个层次。
腾讯科技:“暴力出奇迹”的方法是不是也有瓶颈?目前模型已经出现“涌现能力”当你再加大数据量的时候,是不是也不会再让模型更优化?
Ethan:对,瓶颈是有的。比如OpenAI的超级对齐中就提到了一个瓶颈,就是当你这个模型比人类强的时候,你怎样再去提升它。现在的数据基本都是靠人去标注的。但是当一个模型生成的东西太复杂,人类都没法进行判断,那如何让大模型变得更强?
鲁为民:Sora 在实践上也呈现规模优势和涌现特性,即通过(高质量的)数据、模型参数和算力的扩展,性能和能力的显著提升。但数据和计算资源往往不是唾手可得的。模型的发展还有必要从其它方面突破。我觉得接下来的模型发展可以从两方面来考虑,一个是模型继续改进,另外一个是有没有新的模型架构的出现?
刚刚提到数据的挑战,数据对模型的改进非常重要。特别是在物理世界和机器人等领域,相关的经验数据的获取因为受限往往缺失或不完整,这些数据与互联网数据有很大不同。我们需要考虑如何在这些特定环境中利用有限的数据建立更好的模型,同时考虑必要时如何生成相关的数据,例如机器人系统通过与环境的交互学习并影响环境,这涉及到强化学习,是一个有挑战性的问题。
另外,世界的模型并非完全开放,它们仍然受到许多约束,比如我们需要模型避免与人类价值观的不一致。目前,通过人类反馈进行强化学习等技术来微调模型是目前一个很好的实践方向,但还有很多发展空间。所有模型在理解生成上都有局限性,特别是在一些边角场景中,模型可能不可靠。
生成式 AI 模型的先天性局限,在理解和模拟物理世界可能存在违背规律、逻辑和事实的“悖谬”和“幻觉”,光靠模型本身的改进是不可能完全解决这些问题。在这种情况下,我们需要充分利用模型之外的能力,例如智能体 (Agents) 机制,来补充、改进和强化这些大模型。
特别是利用语言或多模态的生成式 AI模型提供的上下文提示学习模式以及理解、推理和规划能力,加上智能体为应用系统提供的天然反馈闭环来实现持续学习和自我改进的能力,使得基于生成式AI大模型的智能体可以解决复杂问题、对环境交互行动,纠正可能的错误、并从经验中持续学习。
另外,今天我们聊的主题是Sora,在特定方面表现出色。像其它大模型一样,虽然可能会“暴力出奇迹”,但其计算算力成本也是需要考虑的问题,尤其是视频生成模型的推理成本往往远高于类似能力的语言模型。如何降低模型的应用成本,提高相适应的性能和能力的回报,这需要在模型架构的设计时平衡考虑。
腾讯科技:对GPT-5有什么期待吗?
Shaun:今年一定会发生的事情是GPT-5、Llama3。我和业内的朋友聊,他们认为GPT-5 10倍于GPT-4的能力还是可以保证的。
腾讯科技:10倍能力是如何衡量的呢?
Shaun:所有优化点加起来之后差不多十倍能力,比如说Gemini1.5可以处理的文本长度变长为100万token;第二就是它图片理解能力增强,对物理世界能有一定的理解,这是很大的提升;另外,今年智能体生态的雏形也会出现;另外就是Apple,我们看到了Vision Pro,也在期待WWDC可能会放出的Apple的大模型。
AI离每个人都越来越近了。
本文来自微信公众号“腾讯科技”(ID:qqtech),作者:郭晓静 魔泊云 秦昊阳