php中文网 | cnphp.com › 资源中心 › › › CodeFuse发布面向ToolLearning领域中文评测基准ToolLearning-Eval: 14aa6c65e9c70458621a4200cfe4bbe3_6384050484463440451091586.png

资源分类

+ 源码

CodeFuse发布面向ToolLearning领域中文评测基准ToolLearning-Eval: 14aa6c65e9c70458621a4200cfe4bbe3_6384050484463440451091586.png

打开方式:
资料大小: 19.83 KB
下载次数: 64
上传会员: admin
上传时间: 2024-01-10
本站网址: www.cnphp.com
查看资源所在的主题
下载资源

CodeFuse发布面向ToolLearning领域中文评测基准ToolLearning-Eval:

蚂蚁集团旗下CodeFuse 发布了首个面向 ToolLearning 领域的中文评测基准 ToolLearning-Eval，旨在帮助开发者跟踪和了解各个 ToolLearning 领域大模型的优势与不足。

该评测基准按照 Function Call 流程划分为工具选择、工具调用和工具执行结果总结三个过程，并提供了相应的数据集供通用模型进行评测分析。

评测数据来源包括开源数据、英译中和大模型生成三种类型，以便更全面地评估模型的工具调用能力。

ToolLearning-Eval 包含了两份评测集，分别包含239种工具类别，涵盖了59个领域，共有1509条评测数据。评测指标包括工具调用准确率（fccr）、工具识别准确率(aar)、工具调用结果准确率(arr)等。

首批参与评测的大模型包括 CodeFuse、Qwen、Baichuan、Internlm、CodeLLaMa 等。

评测结果显示，各模型在指令微调后的 function call 能力存在一定的差异，但在整体评分上差异不大。未来，ToolLearning-Eval 项目将不断优化评测数据集、拓展多工具多轮对话数据集，增加评测模型，并希望与更多的开发者一起共建 ToolLearning 领域大模型评测体系。

|php中文网 | cnphp.com ( 赣ICP备2021002321号-2 )51LA统计

GMT+8, 2024-4-29 14:30 , Processed in 0.178027 second(s), 16 queries , Gzip On.

申明：本站所有资源皆搜集自网络，相关版权归版权持有人所有，如有侵权，请电邮（fiorkn@foxmail.com）告之，本站会尽快删除。

		自动登录	找回密码
密码			立即注册

资源分类

热门下载

CodeFuse发布面向ToolLearning领域中文评测基准ToolLearning-Eval: 14aa6c65e9c70458621a4200cfe4bbe3_6384050484463440451091586.png