Replies: 3 comments 3 replies
-
|
@junemoon-happy 补充的潜在应用场景 Agent能力潜在应用场景 1:0 day 复现新模型精度 当前现状:
接入Agent后(设想的最终形态) flowchart TD
A["用户告知Agent:需要复现模型精度"] --> B["Agent启动【精度复现方法论】技能"]
B --> C["联网检索模型涉及的测评数据集配置"]
C --> D["生成数据集配置调研结果"]
D --> E{"判断:数据集是否已在AISBench支撑?"}
E -- 是(已支持) --> F["Agent启动【自定义配置文件生成】技能"]
F --> G["自动生成模型评测配置文件"]
G --> H["用户一键启动评测,复现精度"]
E -- 否(未支持) --> I["Agent询问用户:是否提交Issue?"]
I -- 用户许可 --> J["基于调研结果,在AISBench GitHub社区提Issue"]
I -- 用户不许可 --> K["流程结束,等待后续处理"]
用户告诉Agent自己想要复现什么模型的精度,Agent会先基于精度复现方法论的skill去检索这个模型涉及测评的数据集配置,并生成调研结果。对于AISBench已经支撑测评的数据集,Agent基于调研结果,结合自定义配置文件生成skill直接生成评测配置,用户可以一键启动;对于未支持的数据集,Agent在用户许可下,基于调研结果在AISBench github社区提issue。 |
Beta Was this translation helpful? Give feedback.
-
|
@junemoon-happy 补充的潜在应用场景 Agent能力潜在应用场景 1:性能摸高 当前现状:
接入Agent后(设想的最终形态) flowchart TD
A["用户告知Agent:测试推理服务最优性能"] --> B["Agent调用【性能寻优】技能"]
B --> C["Agent引导用户输入限制条件\n• TTFT上限\n• 可调参数范围\n• 目标性能指标"]
C --> D["Agent设计性能测试用例"]
D --> E["调用【自定义配置文件生成】技能\n生成测试配置"]
E --> F["AISBench执行性能测试&寻优"]
F --> G{"执行是否失败?"}
G -- 是 --> H["按技能指引自动拉起重试"]
H --> F
G -- 否 --> I["定期向用户同步寻优进展"]
I --> J{"是否达到寻优目标?"}
J -- 是 --> K["结束,生成寻优报告"]
J -- 否 --> L{"用户确认是否继续"}
L -- 是 --> F
L -- 否 --> K
用户告诉Agent想要测当前推理服务的最优性能,Agent调用对应skill,Agent引导用户输入限制条件(TTFT不高于多少,只能调哪些参数,目标性能等),Agent就开始设计测试用例并通过生成自定义配置文件的skill不停得跑,并定期向用户同步寻优进展(用户确认是否继续执行),AISBench执行失败Agent会按照skill指引自动继续拉起执行,最终达到用户寻优的目标,最终自动生成寻优报告。 |
Beta Was this translation helpful? Give feedback.
-
|
Beta Was this translation helpful? Give feedback.
Uh oh!
There was an error while loading. Please reload this page.
Uh oh!
There was an error while loading. Please reload this page.
-
🔍背景
AISBench/benchmark评测工具从gitee的初步至今已经发布1年左右,也已经从基于opencompass框架的LLM测评工具逐渐发展为大模型全场景的测评平台(和evalscope类似了),从历史issue的支撑情况来看,目前主要有以下易用性问题:
易用性问题
1. 常规命令行执行测评太繁琐了
对于很多用惯命令行工具的新用户第一次用AISBench,不太适应AISBench中需要先选取任务(step 1),再到任务对应配置文件(1个或多个)中改个别参数(例如端口、IP)(step 2),最后命令行启动(step3)这种执行方式。
同时因为关键配置在配置文件内容中,需要跑多个配置不同的任务时还需要构造几个不同的任务配置文件,文件的内容还要做差异化处理,而传统命令行执行只要复制命令做一点差异化修改 。
相比于命令行直接传端口和IP,AISBench这套常规命令行执行三板斧显得非常麻烦。
2. 自定义配置文件执行测评学习成本太高
AISBench中自定义配置文件执行测评的方式比常规命令三板斧要方便,因为不需要专门去找一个或多个任务对应的配置文件,只需要在配置文件定义任务然后用二进制指定配置文件执行即可,无论单任务还是多任务都很简单,甚至借助python语法逻辑可以更方便实现多个任务的简单差异化。
但是对用户来说自定义配置文件的内容规则相对松散而且复杂,没有统一的范式(能查询到的文档 https://ais-bench-benchmark-rf.readthedocs.io/zh-cn/latest/advanced_tutorials/run_custom_config.html 也只提供了样例,没有限定规则),大部分用户想要自由灵活使用自定义配置文件目前很不现实。所以不难发现到目前为止几乎没有用户用过自定义配置文件这个强大的能力(0 issue)。
👉 一句话总结痛点:用户想用AISBench达成自己的测试目标还是太复杂了😵💫
历史想过的解决方案
干脆直接在命令行支持配置常用参数❌
AISBench底层还是基于一个合并的总配置来定义并执行任务的,对应很初级的用户来说可能够用,但是一旦要涉及到改数据集任务提示词之类的操作就无法在命令行里实现,还是需要改配置文件。
尝试提供一个通用的自定义配置文件❌
AISBench的测评场景比较多,就是只考虑主要的LLM推理服务化测评场景,就算模型配置部分可以归一,但是由于数据集配置是分散的,用户还需要知道从哪里去导入数据集,这个易用性更差。
每个场景都提供一个独立的自定义配置文件😕
这种方式是类似evalscope的,文档作为索引,每个支撑的测评场景都要配备端到端的文档。这种方式虽然解决了易用性问题,但是工作量过于庞大,持续维护成本太高,准确的文档几乎只能人写也无法靠AI显著提速。
🌟 核心议题:如何让AI Agent 借助AISBench已有的能力帮助用户快速达成测评目标?
简单场景描述
用户只需要告诉AI Agent:我需要测试GLM-5 模型的推理服务 在AIME2025数据集下的精度表现,希望能够复现论文精度。AI Agent就会要求用户提供必要信息(例如被测服务的url等),之后用AISBench构造一个满足用户要求的测评任务并在用户许可下执行,最终拿到结果。
一种可行的实现方案
AISBench所有配置和内部实现皆python代码,因此可以将整个项目接入常见的Code Agent(Curser, Claude Code, TRAE, OpenCode),我们需要做的就是实现一个专门的skill让Code Agent调用。这个skill的核心目标就是写出一个满足用户测试目标的自定义配置文件,并提供执行命令启动。这个skill大概估计会比较复杂(涉及到的reference和assets会比较多),具体的详细设计会在讨论区持续更新。
🚀 拓展议题:AI Agent如何在AISBench中帮助用户达成AISBench还不支持的测评目标?
简单场景描述
例如用户想测一个新的数据集,这个数据集虽然新但是范式和已支持的数据集差不多(例如AIME2026 可以参考AIME2025的实现)。AI Agent是否能够直接把这个新的数据集接入到AISBench中测评?
大致的使能方式
让AI Agent写个AISBench的插件临时接入AISBench,并结合核心议题的skill达成目标。
欢迎大家基于议题进行讨论🔥🔥🔥
Beta Was this translation helpful? Give feedback.
All reactions