php中文网 | cnphp.com

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
查看: 115|回复: 0

CodeFuse发布面向ToolLearning领域中文评测基准ToolLearning-Eval

[复制链接]

2629

主题

2636

帖子

9344

积分

管理员

Rank: 9Rank: 9Rank: 9

UID
1
威望
0
积分
6593
贡献
0
注册时间
2021-4-14
最后登录
2024-4-28
在线时间
668 小时
QQ
发表于 2024-1-10 18:31:45 | 显示全部楼层 |阅读模式
蚂蚁集团旗下CodeFuse 发布了首个面向 ToolLearning 领域的中文评测基准 ToolLearning-Eval,旨在帮助开发者跟踪和了解各个 ToolLearning 领域大模型的优势与不足。

该评测基准按照 Function Call 流程划分为工具选择、工具调用和工具执行结果总结三个过程,并提供了相应的数据集供通用模型进行评测分析。

评测数据来源包括开源数据、英译中和大模型生成三种类型,以便更全面地评估模型的工具调用能力。
14aa6c65e9c70458621a4200cfe4bbe3_6384050484463440451091586.png
ToolLearning-Eval 包含了两份评测集,分别包含239种工具类别,涵盖了59个领域,共有1509条评测数据。评测指标包括工具调用准确率(fccr)、工具识别准确率(aar)、工具调用结果准确率(arr)等。

首批参与评测的大模型包括 CodeFuse、Qwen、Baichuan、Internlm、CodeLLaMa 等。

评测结果显示,各模型在指令微调后的 function call 能力存在一定的差异,但在整体评分上差异不大。未来,ToolLearning-Eval 项目将不断优化评测数据集、拓展多工具多轮对话数据集,增加评测模型,并希望与更多的开发者一起共建 ToolLearning 领域大模型评测体系。





上一篇:夸克App推出“AI学习助手” 基于自研大模型打造
下一篇:微信输入法更新 新版支持五笔输入
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|php中文网 | cnphp.com ( 赣ICP备2021002321号-2 )51LA统计

GMT+8, 2024-4-29 16:37 , Processed in 0.200696 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2020, Tencent Cloud.

申明:本站所有资源皆搜集自网络,相关版权归版权持有人所有,如有侵权,请电邮(fiorkn@foxmail.com)告之,本站会尽快删除。

快速回复 返回顶部 返回列表