必须得让AI明白,有些不该碰的东西别碰(doge)
创始人
2025-12-30 07:07:51
0

AdaTooler-V团队 投稿

量子位 | 公众号 QbitAI

近期,以DeepEyes、Thymes为代表的类o3模型通过调用视觉工具,突破了传统纯文本CoT的限制,在视觉推理任务中取得了优异表现。

然而,一个问题逐渐显现:视觉工具用得越多,模型真的更聪明吗?

大量实验发现,许多模型正在陷入“盲目用工具”的状态——即便任务并不需要,也会条件反射式地调用裁剪、抽帧、区域放大等工具。

结果却是:推理路径更长了,算力消耗更高了,准确率却没有同步提升,甚至在部分任务中出现下降。

这并不是工具不够强,而是模型从来没有学会一件事:什么时候真的值得用工具。

来自港中文MMLab等的研究团队,针对这一核心问题提出了AdaTooler-V——一个具备自适应工具使用能力的多模态推理模型,让模型学会判断“该不该用工具”,而不只是“怎么用工具”。

在12个主流图像和视频推理基准上,AdaTooler-V展现出了显著优势。例如,在高分辨率视觉推理任务V上,AdaTooler-V-7B的准确率达到*89.8%

工具使用的有效性探究

研究团队引入了一个关键指标——Tool Benefit Score(工具有益分数),用于量化视觉工具调用在所带来的真实性能增益。

具体而言,该指标通过比较同一问题在“使用工具”和“未使用工具”两种条件下的表现差异,判断工具调用是否产生了实质性的正向贡献。

如图所示,在相当一部分样本中,工具的引入不仅未能提升模型性能,反而导致结果出现明显下降。

AT-GRPO:让模型学会判断“该不该用工具”

为此,团队提出了全新的强化学习算法AT-GRPO算法用于训练模型的自适应视觉工具调用能力。

思路很简单:只有当工具确实带来性能提升时,模型才会因为工具使用获得正向奖励;当工具无效甚至有害时,工具调用本身会被惩罚。

实验结果表明,AT-GRPO使模型能够自主学习一种既有利又具备良好泛化能力的推理策略,在优化模型性能的同时有效降低推理成本

多模态工具调用数据构建

为了支撑训练,研究团队构建了两套大规模数据集:

AdaTooler-V-300k:用于强化学习阶段,覆盖单图、多图与视频三种模态,涵盖数学、计数、空间理解、逻辑推理等多类任务。

AdaTooler-V-CoT-100k:用于SFT冷启动,包含大量多轮工具交互的高质量推理轨迹。

在两阶段训练框架下,模型先通过SFT建立基本的多模态工具推理能力,再通过AT-GRPO学会自适应工具使用。

基准评测

研究团队在12个主流的图片和视频基准上进行测评。

从下表可以看出,AdaTooler-V在图像问答任务中表现出色,在MMBench上取得87.8%的准确率,在MathVista上达到74.5%

在视频理解任务中,AdaTooler-V同样展现出显著优势,例如在VSI-Bench和VideoHolmes上分别取得49.5%和58.3%的性能表现,明显领先于其他方法。

同时,从训练曲线可以观察到,随着模型准确率的持续提升,其平均推理长度逐渐下降,这表明模型正在学会在推理过程中合理选择是否进行工具调用,而非盲目地频繁使用工具。

一些AdaTooler-V的推理例子如下所示:

相关内容

乌克兰空军称,乌军一架米格...
据乌克兰“RBC.UA”新闻网等媒体报道,乌克兰空军27日在社交平...
2026-06-29 13:23:34
深开鸿王成录:M-Robo...
IT之家 6 月 28 日消息,深圳开鸿数字产业发展有限公司 CE...
2026-06-28 20:10:26
大国之翼 ——空军航空兵某...
黄沙烫金,金字塔棱线如刀,直指苍穹。蓦然,一道垂天之翼掠过——运-...
2026-06-28 20:01:44
OpenAI推出GPT-5...
OpenAI近日推出GPT-5.6全系列模型,首次采用天体命名体系...
2026-06-28 10:59:41
【OpenAI发布GPT-...
【OpenAI发布GPT-5.6系列模型 ,应美政府要求限量开放,...
2026-06-27 18:31:47
大盘暴跌,XRP、SHIB...
今天整个市场都不太好看。XRP跌破了关键支撑,SHIB接近年内低点...
2026-06-27 18:30:03

热门资讯

【比特币ETF创推出以来最严重... 【比特币ETF创推出以来最严重单月资金流出,净流出达40亿美元】数据显示,6月份,投资者已从13只比...
比特币ETF单月资金流出40亿... 6月29日消息,美国上市比特币交易所交易基金正迎来其面世两年来赎回规模最高的一个月。6月投资者从13...
比特币随美国股指期货小幅走高 6月29日,在美国和伊朗同意停止袭击后,随着美国股指期货小幅走高,比特币微涨。据报道,美国官员表示,...
3160亿稳定币恐致全球货币体... 据 Woofun AI 消息,国际清算银行在年度经济报告中发出严厉警告,指出规模约为 3160 亿美...
隔夜逆回购精准稳流动性,提速货... 6月29日和30日适逢月末、季末时点,受银行考核等因素影响,市场资金面通常容易趋于偏紧。对此,东方金...
国泰基金的货币ETF国泰(51... 6月29日,货币ETF国泰(511620)报收99.999元,收跌0.01%,成交金额1051.9万...
英国5月M4货币供应年率 4.... 英国5月M4货币供应年率 4.3%,前值4.50%。 来源:金融界AI电报
透明加密防泄密如何实现?单位透... 很多企业还在用手动设置文档密码、压缩包上锁的方式保护资料,这类手段极易被破解,挡不住员工拷贝、截图、...
电脑加密软件有哪些?设计院 C... 研发图纸、项目方案、财务台账、核心源代码是企业不可替代的无形资产,如今文件拷贝、外网传输、外勤离线使...
原创 特... 文|梦漫弥 编辑|梦漫弥 6月26日,美国总统特朗普在社交媒体上抛出了一枚重磅炸弹——任何对美国科技...