周伯文:下一代大模型 OS,工具和语言缺一不可丨GAIR 2023

作者丨孙溥茜
编辑丨陈彩娴
编者按:2023 年 8 月14日,第七届 GAIR 全球人工智能与机器人大会在新加坡乌节大酒店正式开幕。论坛由 GAIR 研究院、雷峰网、世界科技出版社、科特勒咨询集团联合主办。大会共开设 10 个主题论坛,聚焦大模型时代下的AIGC、Infra、生命科学、教育,SaaS、web3、跨境电商等领域的变革创新。此次大会是在大模型技术爆炸时代,国内首个出海的AI顶级论坛,也是中国人工智能影响力的一次跨境溢出。
在第一天的“GPT时代的杰出贡献者”专场上,周伯文以“复杂场景下的生成式 AI”为题发表了主题演讲。周伯文是清华大学讲席教授、电子工程系长聘教授,衔远科技创始人,IEEE/CAAI Fellow 。同时也是前京东集团高级副总裁、技术委员会主席。
他提到,今天 AI 已经体现出掌握人类语言的能力,下一步,如要复现人类智能,周伯文认为 AI 应适配到更加复杂的场景,其中如何系统地学习和使用工具就变得非常重要。
Tools for AI or AI for Tools ?这是一个哲学问题。以 AI 为中心、工具的存在是为了让 AI 更好;那么以工具为中心、 AI 的存在是为了让工具更容易被使用。如何抉择是人类与 AI 谁占主导。人与 AI 的关系走向何方,最终将取决于 AI 技术金字塔尖的引领者对这一问题的博弈思考。
以下为周伯文教授的现场演讲内容,雷峰网作了不改变原意的编辑及整理:
网上有个段子说,大模型在吟诗作画,人在苦哈哈干活。笑话背后反映了一个问题,我们需要考虑一些真实、复杂的场景,让 AI 去干更苦的事情。
从智力的角度讲,我认为人之所以为人,重要一点是因为人会使用工具,会创造工具,并且通过工具来完成各类复杂场景的任务。当然,AI 本身也是人类创造的一种工具。Next big question 是,AI 能否像人一样,用好工具。
过去的几十年中,我们终于把人类对于语言的理解能力教会了 AI ,有了今天的 ChatGPT 等大模型。那么下一个问题就是,我们是否能够将语言和工具结合起来,教给AI。
因为学会了语言和工具的结合,人类走到了今天,AI 能否复现人类智能,我对这个问题的回答是“YES”,因为基于基础模型的语言与推理能力,我们看到了AI融合语言与工具智能的能力。这之中一定会有非常多挑战,也需要对这个问题做一些更详尽的学术定义(to define the problem properly),在接下来的报告中我将给大家展开。
LLMs可以做很多事情,未来可以把所有工作基于一个 LLM 连接起来,这是一个方向。但是在这个方向之前还缺乏系统的思考,我想给出我们最新的研究和框架性思考,以及三个基础研究方向。
首先,什么是 Tools?
我们缺乏对工具的定义,工具非常多样,可以分为:一类是确定性工具,像时钟、计算器、秒表等;一类基于 API 能力的工具,本质上是将一个功能直接函数化;一类是有专长的神经网络,或者说是 其他的Foundation Models,这也是未来 AI 要去使用的工具;还有一类是与物理世界进行交互,像机器人、传感器等。
另外一种区分方法是从工具的互动角度分,包括能与物理世界互动的工具、把世界抽象成一个图形界面的GUI工具,和把世界抽象成 API工具 ,所谓的“软件正在吞噬世界”。
这些不同方式都定义了人和 AI 要去交互的工具。而最核心的一点是,所有的这些工具及他们的组合,在大模型时代,我们都可以将它看作 是Token序列而已。
但这不是什么新鲜事。
在 OpenAI 推出 ChatGPT 之前,还推出过一个非常重要的工作,叫做 WebGPT。问ChatGPT一个足够复杂的问题,图片展示的是它生成的答案,这个答案跟 ChatGPT 看到的不太一样。它不仅是语言模型,逐个字地给出答案,而是不但生成了答案,还给出了内容出处,也就是作为一个 AI 系统,是如何形成的这个答案。这个操作基本上就解决掉了目前看到的知识幻觉的问题,不像 ChatGPT 的答案不能准确给出它的答案从哪里来。
WebGPT 如何做到的呢?其实很简单,开发出一个集成环境,让人回答问题。在回答的过程中,让大模型学会人的搜索动作、鼠标拖拽、上下浏览等动作,这个过程中大模型学会的就不只是文字,而是学会了人的行为序列。在这种复杂场景中,大模型学会之后,就可以生成可以理解的回答。
结果很有意思,OpenAI 只标注了 6000 个例子,就可以训练出非常好的 WebGPT。这种让大模型学会使用工具的训练就可以解决现在大语言模型非常不擅长的点,比如时效问题分析,复杂计算等。解决这些复杂问题,只需要大模型学会在合适的时间,好用合适的工具组合,如何学会如何把结果融合在一起,这也就是为什么 AI 的下一步要学会系统性使用工具。
我认为 AI 的进一步发展取决于领军人物怎么看这个事情。AI 如何使用工具有两种不同的视角。一种视角是以 AI 为中心,另一种视角是 AI 辅助,这两种代表人对于 AI 和工具的思考。第一个思考是以 AI 为中心,工具是为了让 AI 回答的更好,AI 自己决定用什么工具。另一种对比思路是世界围绕工具展开, AI 是为了辅助更好理解人的决策。这两种不同模式决定开发不同的系统。
在不同的场景也许需要使用不同的观点来看待这个问题。但是目前的 AI 和工具融合缺少一个完整框架,在学术界中的认知中,一个比较完备的框架由以下四方面组成:控制器、工具集、环境和感知器。
控制器(Controller)的任务是提出一个可执行方案以满足人提出的要求。控制器负责决定工具的行为序列,怎样在合适的时间调用合适的工具去理解任务,返回结果,并执行下一步。
工具集(Tool Set)顾名思义,是工具的集合,有不同功能。这个工具集是完全异构异质的,从确定性工具、到API,到其他模型、再到机器人与机械臂等。
进而工具与环境(Environment)进行交互,在环境中操作。
接下来有一个感知器(Percevier),感知器负责感知使用工具后环境发生的变化,接收外部的信号,包括人类的反馈去纠正行为,最后给到控制器一个结果。
用数学语言来表示,可以将其分解成一系列的马尔科夫决策过程,去求解最佳行为序列。从贝叶斯公式展开,其核心部分取决于两点:给定了 Feedback(变量1),Histories(变量2),再给 Human Instruction(变量3) ,去决定在这个时间最好的行动是什么。
这里的行动包括两个信息:调用什么工具、返回什么信息,将其分解为两个子问题就是:第一,要基于目标去选择合适的工具,第二是在选定工具后决定行动。最终的目标则是选择一系列的行动,最大化这个概率。和 ChatGPT 对比,ChatGPT 是输出文字序列,由这个框架输出行为序列。
这个框架核心要解决三个问题:理解用户的意图或者任务本身(Intent Understanding),理解工具库与工具本身的表征(Tool Understanding),以及要有完整的推理和规划能力(Planning and Reasoning)
同样,在这点上也有不同的视角看待这个问题。站在大语言模型研究的视角看,会认为一切都是大语言模型的衍生物,只要去训练越来越多的大语言模型,问题自然会解决。但是从强化学习的角度看,这只是一个强化学习的过程,语言模型只是一个强有力的架构。但无论如何看待这个问题,都归根到如何去建立一个更好的基础模型,不过这个模型和ChatGPT 相比,无论从任务、能力,还是架构,可能都需要完全不同的思考与设计,我认为这是一个非常重大的研究机会。
接下来我来讲这三个方面各有什么进展。
机器人:OK
LLM 回答 OK 之后,它理解自己要产生一个 Token,这个 Token是一个 Action,Action 的含义是去桌子那边,当机器人走到桌子边,LLM 调用了另一个工具——摄像头,当摄像头获得数据并分析后,它发现里边有可乐、水,还有一个巧克力棒。LLM 开始思考,它收到的任务是“喝”,桌子上有可乐有水,它需要进一步确认消除歧义,于是它继续主动对话。
人:可乐。
机器人将“可乐”作为一个输入,继续向下采取行动。它的下一个 Action 是拿起可乐,Action 驱动机械臂去做“拿起”的动作,但是第一次失败了。这是 LLM 继续反馈,反馈信息:Action 失败,于是下一个 Action 是再拿一次。
以上这一系列复杂的动作依照我们 LLM 和 Tool 的理念,生成了一系列 Action,Action 和环境互动,每个互动的结果会帮助控制器(Controller)判断下一步做什么。这些内容听起来复杂,但还远远达不到解决复杂任务的场景。
我认为在未来,要完成复杂场景下的任务需要非常多的子步骤,每个子步骤涉及非常多工具,这个工具来自更大的工具集。人在复杂场景要用到许多工具,这对 LLM 的挑战就在于,要理解不同工具间的相互作用。
另外,工具不一定按顺序执行,会并行执行,产生叠加效应 。最后一种是从单机解决问题到多机协作,由多个工具可共同负责一项任务。
很多人认为 LLM 是未来的操作系统(OS),但我认为,仅仅从语言处理和生成的角度讲,它不足以成为未来的 OS。
未来的 OS 应该融合了语言能力的工具平台。现在的 OS 是 在设备上Enable各种APP与功能 ,而在 LLM 的眼里,无论是 APP、功能还是设备本身,都是工具。LLM 的核心逻辑是理解任务后决定在什么平台以及什么样的复杂场景下唤醒什么工具,根据工具的返回结果再采取下一个行为。
所以,未来的 OS 一定是 NextGen OS = a tool-learning platform with a human language interface
Nothing more,nothing less。这也是为什么我们对工具和语言结合十分感兴趣的原因,欢迎大家考虑加入我们清华大学电子系协同交互智能中心和我们一起开展这些智能前沿研究,衔远科技也在招聘多名LLM和多模态算法工程师!谢谢大家!
参考文献:
更多内容,点击下方关注:
