开云·kaiyun体育「中国」官方网站 登录入口-开云体育(中国)官方网站即使是性能突出的 GPT-4-开云·kaiyun体育「中国」官方网站 登录入口

开云体育(中国)官方网站即使是性能突出的 GPT-4-开云·kaiyun体育「中国」官方网站 登录入口

发布日期:2026-04-06 04:42  点击次数:147

开云体育(中国)官方网站即使是性能突出的 GPT-4-开云·kaiyun体育「中国」官方网站 登录入口

大模子智能体正在速即发展,材干已不再局限于 API 调用。

诸如 OpenAI 的 Operator 和 Anthropic 的 Computer Use 等,简略像东说念主类通常径直与界面交互,推论复杂操作。

在处理这类复杂任务的过程中,大模子智能体将问题剖释为可推论的使命流(Workflow)是要害的一步。但是,这一中枢材干当今缺少完善的评测基准。

现存的数据集和评估框架存在彰着局限性:要么仅存眷想象任务的端到端性能,要么在场景袒护领域、使命流结构的复杂性以及评估次第的全面性上存在不足。完善的使命流评测基准关于鼓舞大模子智能体在真确场景中的应用和性能提高至关重要。

为处罚上述问题,浙大通义合股发布WorfBench——一个涵盖多场景和复杂图结构使命流的协调基准,以及WorfEval——一套系统性评估公约,通过子序列和子图匹配算法精确量化大模子生成使命流的材干。这一盘考不仅填补了现存评估体系的空缺,还为异日大模子智能体在复杂任务中的应用提供了重要的参考。

该使命已被东说念主工智能顶级会议 ICLR 2025 请托。

WorfBench 运用 GPT 自动化构建多场景任务,包括 problem solving、function calling、embodied planning 和 open-ended planning 等,生成了包含 18k 磨砺样本、2146 测试样本和 723 个 OOD 的评测数据集。作家将使命流建模为有向无环图(DAG),以更精确地暗意实践寰宇中的复杂串行或并行智能体使命流。

为了确保数据质料,作家引入了节点链手脚中间结构,并采选拓扑排序(Topological Sorting)算法对图结构进行质料过滤,并在测试集上进行东说念主工考据。

WorfEval 则通过子序列和子图匹配算法,分手从链结构和图结构两个维度对大模子生成的使命流进行量化评估,从而精确琢磨模子的线性想象和图想象材干。

基准评测扬弃

作家在 WorfBench 上对 18 种不同领域的主流大模子进行了全面评估,包括闭源模子(如 O1、GPT-4、Claude-3.5)和开源模子(如 Llama 系列、Qwen 系列等)。实验扬弃披露,与线性结构比拟,模子在图结构使命流规画上的材干远未达到实践需求,即使是性能突出的 GPT-4,其图结构使命流的平均性能也仅为 52.47%。

此外,作家还对两个开源模子进行了磨砺,并在 OOD 任务上评估其泛化材干。扬弃标明,尽管在磨砺集上进展出色,但在未见过的任务上,模子的泛化材干仍有待提高。这标明,仅通过数据拟合当今仍难以终了结构化使命流想象材干的有用学习。

使命流生因素析

通过对实验扬弃的真切分析,作家发现大模子在使命流生成中存在显耀的线性想象与图想象材干差距,且图想象材干涉模子领域并非澈底正联系。举例,部分 7B 模子在某些任务上卓越了 13B 模子,这可能与模子磨砺数据的领域和质料联系。

此外,作家还发现,即使提供标签节点链以简化图结构规画任务,模子的图想象性能仍不睬想,这标明图想象的复杂性在于对任务依赖关系的相识。

进一步的格外分析披露,大模子在使命流生成中的典型格外主要集结在职务剖释的粒度、任务形色的明确性、图结构的正确性以及输出时势的圭表性四个方面。这些格外大多源于模子对环境常识的缺少。

因此,异日的盘考标的可能包括优化教导战略、采选多智能体架构,以及将寰宇常识或寰宇模子更真切地融入大模子中,以提高其对实践寰宇的相识材干。

使命流常识增强智能体

作家探讨了使命流在智能体想象中的重要作用。盘考发现,使命流不仅不错手脚一种经过先验常识径直引导智能体的想象过程,匡助其在复杂任务中更高效地推论,还不错手脚链式念念考(Chain-of-Thought, CoT)的增强时间,通过为智能体提供更联系的 API 遴荐,收缩其在多步任务中的包袱。

此外,使命流的图结构特质简略终了并行任务推论,显耀减少推理时间,同期减少智能体在想象过程中的门径数,提高任务完成扬弃。这些扬弃标明,使命流不仅是勾通任务与具体推论动作的桥梁,还能显耀提高智能体在复杂任务中的进展和扬弃。

论文纠合 :   https://arxiv.org/abs/2410.07869  

代码纠合 :   https://github.com/zjunlp/WorfBench

—  完  —

投稿请使命日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿本色‍

附上论文 / 状貌主页纠合,以及筹划时势哦

咱们会(尽量)实时修起你

一键存眷 � � 点亮星标

科技前沿进展逐日见

一键三连「点赞」「转发」「注意心」

海涵在驳斥区留住你的观念!开云体育(中国)官方网站



相关资讯
热点资讯
  • 友情链接:

Powered by 开云·kaiyun体育「中国」官方网站 登录入口 @2013-2022 RSS地图 HTML地图