发布时间:2023-10-11 19:27:34 来源:丰图软件园
编辑|邓咏仪
想象一下,假如现在你要去海外旅行,从“请假、订酒店、买机票、到做旅行规划”这一整个流程都不需要你费心。现在有了AI Agent,动动嘴皮子,它马上就列出一个待办事件清单,而你唯一要做的事情就是等待出发。
过程中,Agent还会根据进展不断调整和增加新的待办来满足你的需求,直到旅行结束。
在GitHub上的明星Agent项目AutoGPT已经让Agent火了一把,目前已被网友应用在各种场景中。包括将其与别的软件集成进行竞对背调、甚至是点披萨,又或通过语音指令,让AutoGPT在电脑上部署应用程序。
最近,复旦大学的NLP实验室和米哈游专门搞了篇讲LLM-based Agents的论文,从AI Agent历史出发,全面梳理了基于大型语言模型的智能代理现状,包括背景、构成、应用场景、以及备受关注的代理社会等。
图源:arxiv
论文一经发布,英伟达科学家Jim Fan就忍不住在网上分享,并直接表示:
图源:Twitter
还有部分网友直接喊话说:“没读的快去,真的很推荐”。
图源:Twitter
一个Agent的诞生在摸清一个Agent是如何诞生前,先来了解下Agent(代理或智能体)的历史。
Agent的起源可以上溯到古希腊哲学思想,不过最早将其引入引入计算机科学和人工智能领域的人,则是著名科学家图灵,他在20世纪50年代提出机器智能的测试方法时引入了智能体相关概念。
在经历了经历了符号主义、连接主义、数学分析等多个发展阶段,目前的Agent(智能体)更强调主体的自主性、目标性、主动性和社交性等方面的能动特征。
图源:arxiv
原神的海灯节这一部分,一个由Agent构成的和谐社会,人类也可以参与其中。
以前,基于强化学习方法训练的Agent在问题和技能方面存在限制,只能在数字游戏等特定场景中进行规划和模拟对抗,或者在有限领域内进行规划和执行,缺乏泛化能力,难以进行真正的人机互动。
现在有了大模型,就极大地扩展了Agent的能力,它就像Agent的大脑,使Agent能够在接收到目标后进行逻辑推理和自我引导,不断寻找实现目标的最佳途径。
通过与其他软硬件的连接,Agent能够熟练地执行计算机任务、浏览网页、读写文件、进行支付等操作,而我们只需提供目标即可。
图源:arxiv
△LLM-based Agent的概念框架,包含三个组成部分
作为一个智能体的Agent,就如同人类通过感知应对外界变化,在社会中逐步适应环境。智能代理的框架也由三个部分组成,分别是“控制端(Brain)、感知端(Perception)和行动端(Action)”。
“控制端”通常由 LLMs 构成,是智能代理的核心,主要发挥存储记忆知识,承担着信息处理、决策等功能;“感知端”则是将Agent的感知空间从纯文本拓展到包括文本、视觉和听觉等多模态领域,使其能够从周围环境中获取与利用信息;“行动端”除了常规的文本输出,还赋予Agent具身能力、使用工具的能力,使其能够更好地适应环境变化。
为了更容易了解Agent,研究团队还用了一个简单的例子来说明LLM-based Agent的工作流程。
比如,当人类询问是否会下雨时,感知端(Perception)将指令转换为大模型可以理解的表示。然后控制端(Brain)开始根据当前天气和网上的天气预报进行推理和行动规划。最后,行动端(Action)做出响应并将雨伞递给人类。
从单一到多样化的应用场景从AutoGPT到MetaGPT,再到GPT Engineer,LLM-based Agents已经展现出强大的能力。
研究团队认为,Agengt应该是一个仅通过简单的指令,就可以完全自主的分析规划,减轻人类的工作压力,提高解决任务效率的智能体。未来,在解放用户双手后,甚至可以自主完成创新性的、探索性的工作,就像电影《HER》中的AI一样。
基于此,团队提出代理的应用可以有三种范式,包括“单代理、多代理和人机交互”。
图源:arxiv
△LLM-based Agent的三种应用范式:单代理、多代理、人机交互
单代理场景指可以接受人类自然语言命令,执行日常任务的Agent目前备受用户青睐。具有很高的现实使用价值,可以分成“任务导向、创新导向、生命周期导向”这三类。
图源:arxiv
△单代理三个层次:任务导向、创新导向、生命周期导向
而在多代理场景中,Agent被看作是许多较小、特定功能的个体,它们相互协作和互动以解决问题。这种场景包括“合作型互动”和“对抗型互动”两种主要形式。合作型互动可以进一步细分为无序合作和有序合作,有助于提高任务效率和改进决策。
在人机交互场景中,Agent则主要与人类进行互动,共同完成任务。互动分两种模式“Instructor-Executor”和“Equal Partnership”。
其中,在Instructor-Executor模式中,人类充当指导者,提供指令和反馈,而Agent则充当执行者,根据指示逐步调整和优化;Equal Partnership模式中,Agent可以表现出共情能力,与人类平等地参与任务执行。
全Agent互动的社会体系从爆火的斯坦福Generative Agents小镇开始,各类Agents试验、游戏层出不穷,研究人员也在试图构建一个交互式的人工社会,在这里智能体可以根据环境做出各类反应、决策。
为了更容易看懂Agent,研究人员还用了一张图描述Agent社会的概念框架。
图源:arxiv
△代理社会的概念框架,分为两个关键部分:代理和环境
在代理社会的概念框架中,我们可以清晰看到论文分为三个关键部分,共同构建了这个复杂的社会模型。
左侧部分描述了在个体层面上,代理展现出多种内化行为,包括计划、推理和反思。此外,代理还具备内在的人格特征,这些特征涵盖了认知、情感和性格三个方面,进一步塑造了他们的行为和决策。
中间部分强调了单个代理能够与其他代理形成群体,共同展现出协同合作等群体行为。这种合作性互动是代理社会中的重要组成部分,代理们在群体中互相影响,形成共同决策和行为,从而实现更高层次的目标。
右侧部分则关注了代理社会的环境,这个环境可以是虚拟的沙盒环境,也可以是真实的物理世界。在这个环境中,存在着多种要素,包括其他人类参与者和各类可用资源。对于每个单独的代理来说,其他代理也构成了环境的一部分,影响着他们的互动和决策。
整体互动则是代理社会的核心,代理们通过感知外界环境、采取行动,积极地参与整个交互过程。这个过程是复杂而动态的,代理社会的运作机制就是通过这种整体互动不断演化和发展的。
这三个关键部分共同构成了代理社会的概念框架,它们相互交织,共同塑造了代理社会的复杂性和多样性。
论文的最后,研究团队也放出了一些诸如“LLM-based Agents会带来哪些挑战与隐忧?”、“智能代理与大语言模型的研究该如何互相促进、共同发展?”等开放性问题,供大家思考。
你觉得,LLM-based Agent是否是通向AGI的合适道路吗?
热门游戏
原神:每年17个新角色+游戏手机?CEO透露的惊人计划曝光
阅读此文之前,麻烦您点击一下“关注”,既方便您进行讨论和分享,又能给您带来不一样的参与感,感谢您的支持!《原神》和《黑帝斯/哈迪斯》斩获GDC2021大奖,米哈游CEO分享游戏设计...
2023-11-26
原神发布会 米哈游新作原神PS4版
原神发布会,近日,备受瞩目的游戏发布会上,米哈游正式宣布了其全新作品原神的PS4版,作为一款备受期待的开放世界冒险游戏,原神以其精美的画面、丰富的剧情和众多创新玩法,吸引了无数...
2023-10-25
原神x必胜客 2023台词 《原神》必胜客联动口号及套餐一览2023
2023年,原神与必胜客这两个并不相关的品牌,携手合作推出了一场令人瞩目的联动活动,不同领域的跨界合作往往能够带来全新的体验,而原神与必胜客的结合也给人们带来了极大的惊喜。作为...
2023-12-11
今天上午11点,《绝区零》将开启“喧响测试”,资格与设备绑定
据米哈游官方公告,新作《绝区零》将于今天上午11点启动“喧响测试”。这是该游戏的第三次测试,属于限量删档计费测试。在本次测试中,资格将与各平台首次登录设备绑定。即每个米哈游通行证只...
2024-04-18
原神如何联机玩 原神怎么联机玩
原神如何联机玩,原神是一款备受瞩目的开放世界角色扮演游戏,其精美的画面、丰富的剧情和多样化的游戏玩法吸引了无数玩家的注意,许多玩家可能不清楚如何与好友一起联机游玩原神。在这篇文...
2023-10-05
《元梦之星》与VIVO合作,带给你全新的游戏体验:狂欢活动和丰厚奖品等你来参与!
《元梦之星》自北京时间2023年12月15日全平台上线以来,迅速成为了游戏界的焦点。现在,这款备受瞩目的游戏与VIVO强强联手,共同开启“山海奇遇”新赛季,为玩家们带来更加精彩的体...
2024-01-26
就我眼神好拖动时钟看看20年间的变化 就我眼神好拖动时钟看看30年间的变化怎么过攻略
在这个快节奏的时代,时间的流逝让人们常常感到匆忙和焦虑,当我们停下脚步,静下心来回顾过去的20年,或者30年,会发现时间所带来的变化和影响。通过拖动时钟,我们可以看到社会、科技...
2024-11-10
dota2如何隐藏自己战绩 《dota2》好友战绩保密方法
Dota2作为一款备受玩家喜爱的电子竞技游戏,战绩的保密对于一些玩家来说显得尤为重要,在游戏中好友之间互相查看战绩是一种常见的交流方式,但有时候我们可能并不希望他人知道自己的战...
2024-11-10