九成以上模型止步白银段位,只有3个铂金!通用AI下半场评测标准来了
创始人
2025-05-21 16:16:17
0

引言:从“解题”到“定义问题”,评测引领AI下半场

OpenAI 研究员姚顺雨最近在其博文《AI 下半场》中提出了振聋发聩的观点:人工智能的发展正步入一个全新的阶段。在上半场,我们习惯于专注模型架构与训练方法的突破;而如今,下半场的关键在于如何评估模型的真实智能。“接下来,AI 的重点将从解决问题转向定义问题。在这个新时代,评估的重要性将超过训练”。换言之,我们需要像产品经理那样重新思考应该让 AI 解决什么问题、以及如何衡量“解决得好”。过去,Transformer、AlexNet、GPT-4 等里程碑工作让算法和模型大放异彩;但在下半场,比拼的不再是谁的模型更大、更强,而是谁能定义出更有效的评测标准,推动 AI 朝着对人类真正有用的方向演进。

这样的理念正在获得实践的支撑。近期,一支来自新加坡国立大学(NUS)和南洋理工大学(NTU)等机构领衔的团队的研究,围绕了通用多模态模型的评估而非训练展开。这篇题为《On Path to Multimodal Generalist: General-Level and General-Bench》的论文提出了全新的“通才智能”评测框架,旨在为多模态大模型(Multimodal Large Language Model, MLLM)的能力设立一把更合适的标尺。该团队强调,只有转变思路,把精力投向评测体系的革新,我们才能真正衡量 AI 是否在朝着通用智能(AGI)的目标迈进。正如姚顺雨所言,下半场 AI 的胜负手在于评测标准的制定,而非一味堆砌训练技巧。这项超过 300 页的研究由超过 30 位研究者共同完成,核心作者团队来自新加坡国立大学、南洋理工大学,联合了浙江大学、北京大兴、罗切斯特大学等多家机构的学者,这支跨学科、跨地域的多元团队集合了计算机视觉、多模态、NLP 等领域的专家。该工作录用于国际机器学习大会 ICML 2025(Spotlight 论文),在众多投稿中脱颖而出,获得评审高度评价。该工作将期待为未来的通用多模态大模型的发展指明一条明道。

  • 项目主页:https://generalist.top/
  • Leaderboard:https://generalist.top/leaderboard
  • 论文地址:https://arxiv.org/abs/2505.04620
  • Benchmark:https://huggingface.co/General-Level

“通才智能”之问,多模态大模型的短板:“拼接怪”难言智能

该工作瞄准的是多模态大模型如何进化为“全能通才”的重大命题。论文之所以引发瞩目,源于其聚焦的核心问题:当前的多模态大模型到底离“通才智能”有多远?随着 GPT-4、PaLM-E、Deepseek 等模型不断涌现,业界开始畅想 AI 从各自为战的“专才”走向举一反三的“通才”。但一个现实挑战是,缺乏衡量“通才智能”的统一标准——过往评测往往各自为政、碎片化,难以回答“大模型是不是更通用了”这一根本问题。为此,该团队提出了 General-Level 评估体系和 General-Bench 测试集,希望为 AI 社区提供一个公认的“通才智能”试金石。正如论文指出的,那些在各项任务上指标再高的模型,也未必真正更接近人类水平智能。我们需要新的评估范式来定义问题、发现短板,照亮通往 AGI 的路径。这正契合了“AI 下半场”的时代精神,也难怪工作一经发布就收获了学术界和工业界的密切关注。

在踏上“通才”之路前,团队首先剖析了当前绝大部分的多模态大模型(无论是多模态基础模型还是多模态智能体)存在的瓶颈。论文一针见血地指出:现有的大部分的多模态模型基本是基于“语言智能 LLM”所二次构建的“间接式多模态智能”,类似于用胶水拼接起来的“缝合怪”。虽然它们可以同时处理图像、文本、视频等等多种模态,但本质上往往是不同模块的堆叠+二次微调:比如用预训练视觉编码器接上语言模型,让模型“看图说话”。这种架构上的松耦合导致模型更像多个专才的拼盘,而非一个真正融会贯通的通才。这样的“多模态 Frankenstein”只是在语言智能的基础上外挂视觉、听觉接口,其多模态推理过程很大程度上仍依赖底层的大语言模型对文本的强大记忆和关联能力。模型缺乏各模态间的深度协同,更谈不上原生多模态智能,实现在跨模态/任务之间举一反三。

不仅如此,简单地用传统任务准确率去评价这些模型,往往会产生误导。很多现有的 MLLM benchmarks 看似涵盖多模态任务,但不同模型各擅胜场:有的专精图像问答拿高分,有的擅长视频描述拔头筹。然而,这些分数的堆叠并不等于智能的提升。正如作者所质疑的,难道任务指标高就代表模型更接近人类智能了吗?答案远非如此简单。举个例子,一个模型如果靠暴力记忆在封闭题库上取得高分,并不能说明它具备通用理解力。同样,一个只会在单一模态侃侃而谈的模型,换个场景就可能语焉不详。由此可见,仅以各项任务的准确率为标准来衡量智能是片面的。当前的 MLLM 存在三大典型短板:

  • “拼接”导致偏科严重:大多数多模态模型只在擅长的领域表现亮眼,超出熟悉范畴就束手无策。例如很多模型能做到基本的“看图说话”,但遇到“听声音画图”或“看视频改剧本”一类跨模态任务就抓瞎,仿佛一个偏科的学霸。这说明它们缺乏各模态技能的均衡发展,更没有真正将不同能力融会贯通。
  • 生成能力薄弱:“纸上谈兵”:目前的 MLLM 普遍在内容生成上乏力。比如 GPT-4V 可以精确描述《蒙娜丽莎》的细节,但要让它画一张简笔画却完全办不到。很多模型充当了很好的解说员,却当不好创作者,正所谓理论一流但实践欠佳。这种“只懂描述不会创作”的现象表明,模型缺失了主动生成、多模态创作的能力。
  • 单向协作,缺乏“通感”:更深层的瓶颈在于,模型在不同模态间的知识迁移并不对等。目前往往是语言智能帮助了图像理解(例如利用 LLM 的知识提升了视觉问答表现),但反过来,视觉等其他模态的学习却并未真正提升模型的语言表达或推理能力。这意味着模型各模块之间没有形成双向增强的闭环,好比你看再多名画也无法直接提高写诗水平。真正的通才 AI 应当具备“通感”式的协同学习——各种模态互相促进,而非各顾各的单箭头输出。

综上,当前的多模态大模型更像多个专家的简单拼合,远未形成跨模态的融会贯通。针对这些短板,评估标准也必须升级,才能暴露模型的真实能力缺陷。General-Level 和 General-Bench 的提出,正是要回答“如何定义和衡量通才智能”这一问题,为 AI 下半场奠定新的竞赛规程。

General-Level 五级评估体系:用“协同效应”定义通才智能

要评估“通才智能”,该论文借鉴了自动驾驶分级评估的思路,创造性地提出了 General-Level 五级能力段位体系。它将多模态模型的能力划分为由低到高的五个段位,从“专才”一直到“通才”。评判标准的核心是模型是否展现出 Synergy(协同效应)——也就是不同模态、不同任务间是否互相赋能General-Level 评估体系以“协同效应 (Synergy)”为核心,将多模态模型划分为五个能力等级,从青铜级的专才到王者级的通才,每升高一级意味着更强的协同效应。简而言之,一个真正的通才型 AI,其在某一模态/任务上学到的本领应能迁移并增强它在其他模态/任务上的表现,实现“1+1>2”的效果。

具体来说,General-Level 将 MLLM 划分为如下五个等级,:

  • Level-1(青铜级)“单科”专才。此级别对应各领域的单任务专家。模型只针对特定模态的特定任务进行了优化,比如只会图像分类或语音识别等。它们在各自狭窄领域表现卓越,但不具备跨任务、跨模态的一般性。绝大多数传统 AI 模型(如只会识别图片的 ResNet 或只会翻译的 Transformer)都属于青铜段位。
  • Level-2(白银级)“多任务拼接”。这一级别是初级的多任务模型。模型能够支持不同模态或任务的输入输出,具备一定的通用性,例如一些视觉语言模型能看图回答也能文本生成。但是,这类模型通常采用模块拼接的方式整合功能,没有内部的协同增益。它们可以看作把若干青铜专才打包在一起的“综合体”,只能完成预先设计好的多种任务,却无法因为会做任务 A 而自动在任务 B 上做得更好。因此白银级被定义为“无协同效应”(No Synergy)——模型支持的任务越多、性能越高,段位评分越高,但并不要求跨任务有互助提升。
  • Level-3(黄金级)“跨任务协同”。黄金段位要求模型开始展现任务级别的协同效应。也就是说,模型在同一范式下的多个任务(例如都属于理解类任务,或都属于生成类任务)上通过联合学习,实现了 1+1>2 的效果:相比各任务独立训练的专家,通用模型因知识共享反而在若干任务上超越了单 task SOTA。这被视为出现了任务级协同(Task-level Synergy)的证据。评估方法是,将模型在每个任务上的成绩与该任务单任务专家的 SOTA 成绩比较,如果超越 SoTA 则记为一次协同加成。模型超越的任务越多、幅度越大,Level-3 评分越高。达到黄金段位,意味着模型不再只是简单兼顾多任务,而是因为多任务并举而在部分任务上表现得更好了。这标志着通才智能的开端:知识开始在相近任务间融通。正如通俗类比:“模型学会了修图之后,拍照水平也提高了”。
  • Level-4(铂金级)“理解-生成范式双修”。在这个级别,模型需要展现范式级的协同效应,即同时精通理解类任务和生成类任务,并且两种能力互相促进。所谓理解与生成的协同,可以理解为模型的阅读理解、分析判断能力和创意生成、内容创造能力是融会贯通的,不会出现一条腿长一条腿短。评估上,Level-4 通过计算模型在理解任务和生成任务上的成绩调和平均数,来看两者是否保持均衡高水平。只有当模型在“看”和“写”两方面都表现出色且互相补益,才能晋级铂金段位。这对应人类能力中的“既能读懂复杂文章又能写出好文章”。达到这一层次,模型已不再局限于单一任务范式的高手, 而是实现范式级协同(Paradigm-level Synergy),成为了跨范式的全才——既能看图说话,又能据图生文。例如论文将其比喻为“既能准确描述一部电影,又能续写其剧情”。
  • Level-5(王者级)“全模态互促的通才”。这是评估体系的顶点,代表真正实现了跨模态的全面协同。王者级模型不仅在视觉、听觉、文本的理解和生成各方面均衡强大,更实现了语言和非语言模态之间的相互赋能。换言之,模型具备高度的“通感”能力:语言智能可以加强视觉/听觉智能,反之视觉、听觉等多模态的感知也能反馈提升语言理解与表达。这就如同人类看到一幅画作能激发灵感写诗,反过来诗歌修养又丰富了对画作的解读。这种全模态协同效应(Cross-modal Total Synergy)是通才智能的终极标志。在评价上,如果模型在纯语言的 NLP 任务上也能超过单模态语言模型的 SOTA,并将这种能力融入多模态任务中,即可视为出现了完全协同。然而正如榜单所示,截至目前尚无模型达到王者段位,我们还在等待“多模态版的 ChatGPT 时刻”。

通过 General-Level 这个分级体系,研究者为“通才智能”提供了一个清晰的定义标准:不是看模型会多少项任务,而是看它是否能在多任务、多模态中实现协同增益。协同效应成为评估的核心指标,直接衡量模型的“通才度”。这套体系如同给多模态模型划定了晋级之路:从杂技般的拼凑,到初步融合产生化学反应,最终迈向模态互通的 AGI。这正如姚顺雨所呼吁的,要“重新思考评估设置并创造新的评估”,不断质疑旧假设、引入新任务,才能推动 AI 突破现有套路。General-Bench 由此成为多模态 AI 下半场的一座里程碑,为行业提供了共同的试炼场。正因如此,General-Level 可被称为“通才智能的新衡量尺”:它定义了未来多模态模型努力的方向,也为我们诊断现有模型的不足提供了依据。

General-Bench 通才测试集:700 项任务炼金“全能 AI”

有了评估等级的标准,还需要相应“考卷”来对模型进行全面测评General-Bench 正是为此打造的一套大规模多模态通才测试集。这套 Benchmark 题库堪称 MLLM 史上最全面、最严苛、最大规模的多模态考试:它囊括了 700 种不同任务、合计约 32.58 万道问题,覆盖图像、视频、音频、3D 点云、文本等 5 大最常见模态。从常规的图文理解,到开放式生成,再到跨模态推理,General-Bench 努力构建一个全面考察模型多方面能力的竞技场。

具体而言,General-Bench 在设计上有以下显著特点:

  • 任务多元,场景丰富:测试集涵盖了 145 项多模态技能,29 个应用场景。既包括常见的“看图说话”图像描述、视觉问答等基础题,也有诸如“听声音画图”、“读文章配视频”等烧脑的跨模态挑战。领域上横跨物理、几何、医学、历史、艺术、人文学科等,让模型面对如同人类考试文理综合的难题。举例来说,可能出现一道物理题附带复杂图表,或一道历史题给出文物的 3D 模型让模型辨析。如此广泛的覆盖,旨在测试模型是否具备跨学科、跨模态的知识整合能力
  • 理解+生成,全方位考察:与以往偏重选择题式的评测不同,General-Bench 注重开放式回答和内容生成。在这套考题中,模型面对的大多是非选择题,需要自由作答而非从选项中猜测。同时,相当比例的任务直接要求模型生成内容,例如看一段视频续写剧情、听一段音乐创作绘画等。这意味着模型不仅要会判断对错,还要有创造性产出的本领。这样的设计可以有效测出模型的生成能力和创造力,补足过去评测只重理解、不重生成的缺陷。正如作者强调的,未来的 AI 需要“既会看,还会画”——既能理解输入,也能产生输出。
  • 真正多模态考题:General-Bench 的一大创新是设计了跨模态组合的问题,以考察模型同时处理多模态信息的能力。在这里,任务不再是孤立的图像问答或文本总结,而是常常多模态交织:比如给模型一段音乐音频,要求它画出相应风格的图画;或者给出一段视频和一篇文章,让模型将两者信息融合进行分析。这类似于人类需要将眼睛看到的和耳朵听到的综合起来理解世界。如果说过去的基准测试更多是在考“单科”,那么 General-Bench 就是一场跨媒体、跨领域的综合性大考,逼真地模拟了 AI 在真实世界可能遇到的复杂任务。通过这些融合型题目,可以检验模型在多模态协同上的能力,看看它是否真的能像人一样将不同感官的信息打通。

如此庞大的题库是如何构建的?研究团队为保证质量和覆盖面,采用了严谨的五步数据构建流程。首先,他们明确了数据集的范围和结构:确定纳入哪些模态、元任务类型和回答范式。接着,团队广泛搜集潜在任务,通过爬取学术论文、开源数据集、在线平台等渠道汇总任务清单。随后,对每个候选任务的数据进行清洗筛选,并按照统一格式整理。整个过程中遵循“尽可能全面、多样,同时确保质量和真实性”的原则。最终产出的 General-Bench 既有开放部分(Open-Set,提供题目和标准答案,供研究者自由使用)也有闭卷部分(Close-Set,仅提供题目,答案保密用于官方评测)。这种开放+闭卷双轨设计,既鼓励学术社区广泛采用 Benchmark,又保证了排行榜评测的公平性。可以说,General-Bench 为评估多模态通才搭建了一个高标准竞技场。它的价值不仅在于出了一套难题,更在于树立了评测新风向:强调开放生成、强调多模态融合、强调动态扩展(团队称数据集将持续更新维护)。

榜单揭晓:GPT-4 段位几何?行业瓶颈尽现

当如此严苛的 General-Bench 试卷摆在当前顶尖模型面前,会是怎样的光景?论文对 100 多个先进的多模态模型700 多个跨模态任务上进行了测试(测试时间是 24 年底之前的多模态大模型,跟当前最新的一些版本模型稍有时间上的延迟),结果可以说是几家欢喜几家愁,更让人大跌眼镜。一些业界公认强大的模型在这场通才大考中显露出意想不到的短板。下面我们揭晓部分关键结果:

  • GPT-4V(含视觉能力的 GPT-4):这可能是公众眼中最强大的多模态模型之一。然而在 General-Bench 上,GPT-4V 的表现并非无懈可击。统计显示,GPT-4V 只回答了约 65% 的图像相关问题,对于视频类题目更是几乎束手无策。这意味着在接近三分之一的视觉题上,GPT-4V 要么答不出要么答错,更遑论对复杂的视频理解了。作为对比,一款开源模型 InternVL2.5-8B 在图像理解方面的得分竟然超过了 GPT-4V,颇令人为之一惊。这提示我们:大模型未必在所有细分能力上都占优势,有时小模型专精优化反而更胜一筹。另外,GPT-4V 缺乏视频处理能力暴露出其模态覆盖不足——这也直接将其评估段位限制在了更低级别。
  • 多模态模型整体弱项:General-Bench 的统计还发现,所有模型在音频类任务上的平均得分不足 30/100,几乎集体不及格。在需要解析语音、音乐的题目上,不论是大名鼎鼎的 GPT-4V 还是其他模型,表现都不理想。这反映出当前视觉-语言模型对声音的理解和生成还非常初级。更夸张的是,在 3D 相关任务上所有模型几乎全军覆没,最好的正确率仅有 6.7%!可见,处理三维模型、点云这样的高级感知任务,对现有 AI 仍是巨大挑战。

如果说按模态分解的成绩让人大跌眼镜,那么汇总到段位评定上则更显残酷:

  • 九成以上模型止步“白银”。据统计,约 90% 的模型只能达到 Level-2 白银段位。也就是说,它们顶多支持了若干模态和任务的组合,但没有体现出明显的协同泛化效应。换言之,这些模型只是勉强合格的“多面手”,尚未真正做到“融会贯通”。这当中不乏参数上千亿的大模型,可见规模大不等于段位高。
  • 寥寥数款模型跻身“铂金”在测试中,只有 3 个模型达到了 Level-4 铂金段位。论文提及其中包括名为 Mini-Gemini 的模型等,它们展现出了理解与生成能力的协同效应。然而值得注意的是,这些铂金段位的模型其协同效应主要局限在图文领域。也就是说,它们基本都是在视觉-语言这两种模态下达到了理解+生成双优,但在更广泛的音频、视频等模态上未能实现同等协同。换句话说,目前的铂金通才还是“片面的通才”,距离全能尚有距离。
  • “王者段位”依然空缺。最令人警醒的是,Level-5 王者级别完全没有模型触及。没有任何参评模型能够证明自己的语言智能被其他模态提升,或能将视觉、听觉等学习反馈改进 NLP 能力。这印证了前文提到的单向协同问题:目前还没有 AI 达到全模态互促的境界。王者宝座依旧虚位以待,这也意味着距离真正的多模态 AGI 还有相当的鸿沟。

General-Level 整体排行榜展示了不同模型所处的段位分布。如上图所示,目前绝大多数模型停留在 Level-2 和 Level-3,仅有极少数攀上 Level-4 铂金,而 Level-5 王者段位(黄色阶梯)尚无模型问鼎。这张图直观地回答了“你的多模态模型是青铜还是王者?”这一问题。

通过这次前所未有的通才测试,现有 MLLM 的三大致命弱点也彻底暴露无遗:

  1. 偏科严重,通用性欠缺:模型对特定模态任务驾轻就熟,但一遇到跨模态的新题型就表现失常。这说明当前模型通用性名不副实,“见多识广”还远远谈不上。是可能是实现“多模态通才”这一宏大目标最基本的障碍。
  2. 生成乏力,缺少创造:大部分模型在理解任务上还能应付,但让它们产出内容就频频失败。AI 缺乏像人一样灵活输出新内容的创造力,这将限制其解决实际问题的能力。
  3. 协同单向,缺乏通感:模型内部各模块没有形成双向增强。语言和视觉等智力没有真正融合,造成知识迁移的瓶颈。这也是为何最高段位迟迟无人问津的原因。

这些发现无疑给业界敲响了警钟:再强大的单点模型,在通才智能的新坐标系下都可能暴露短板。GPT-4 这样的巨头依然在视频、音频、3D 等维度力不从心,更遑论实现模态互促的飞跃。这充分证明,我们需要新的评测标准来发现和正视这些瓶颈,然后对症下药地改进模型。General-Level 和 General-Bench 正提供了这样的放大镜和标尺,让我们看清 AI 通往 AGI 道路上的真实差距。

社区反响:评测框架引热议,开放平台促协作

General-Level 和 General-Bench 的推出,近期在学术界和工业界都引起了积极反响。首先,这项工作获得了顶会 ICML 的 Spotlight 认可,证明同行专家们高度认同其创新性和重要性。许多国外研究者在社交媒体上评论、转发该工作,称其为“AGI 时代评测范式的里程碑”。在开源社区,General-Bench 基准受到了热烈欢迎。论文作者将数据集发布在 Hugging Face 平台,并开放了评测代码和排行榜系统。Hugging Face 上聚集了一批关注者,不少开发者加入项目组织成为成员,共同维护数据。有社区贡献者开始考虑提交新的任务数据,希望扩充 General-Bench 的覆盖范围。这种开源协作氛围正是作者期望的——让评测框架成为全社区共同的基础设施,持续完善并被广泛采用。

与此同时,排行榜(Leaderboard)竞赛的形式也激发了良性竞争。General-Level 官方网站上线了实时榜单和提交入口,任何人都可以上传自己模型在 Close-Set 测试集上的预测结果,获取官方评估分数和段位定位。这一机制吸引了业界一些领先 AI 团队参与,不仅有学术实验室,也有企业研发部门。大家都希望尝试让自家模型冲击更高段位,并将结果分享出来交流,比如“某某模型为何只能停留在白银段位,差距在哪”;“我们发现模型在音频理解上扣分严重,看来下个版本必须补上听觉模块的短板。”团队负责人称,将会长期维护这个项目,确保社区所有的多模态大模型都能够无门槛使用这个项目的资源。

欢迎公开打榜,Leaderboard:https://generalist.top/leaderboard

团队与研究背景:跨领域协作共筑评测基石

这样的突破性工作背后,是一支大规模的团队。该项目由新加坡国立大学(NUS)与南洋理工大学(NTU)牵头,汇集了计算机视觉、多模态理解、自然语言处理等方向的青年、资深专家学者。本工作由费豪博士主导整体项目推进,并分别由周源、李俊成、李祥泰、徐青山、李波波、吴胜琼博士等青年学者分别领衔各个模态、模块;并全称由张含望教授、颜水成教授坐镇通讯指导,由蔡达成教授、罗杰波教授作为项目顾问。据团队成员介绍,最初萌生这个想法,是在看到多模态模型不断刷新各种 Benchmark 的同时,却缺乏对整体智能水平的刻画。“我们训练出了很多擅长某一方面的模型,但很难说清楚 AI 整体上进步了多少”,张含望教授在相关研讨会上如此阐述初衷,“我们不妨借鉴自动驾驶行业的智能汽车分级机制,重新思考对于多模态大模型的智能分级体系”。于是大家决定索性换一个视角,不再纠结于在单一基准上卷 0.1% 的精度提升,而是设计一个能全面衡量多模态 AI 的框架。通过多次大量的内部讨论,最终确定了一个核心观点,“我们不能按照过去的简单的单个任务表现来评定模型的智能水平,而是应该按照协同泛化能力!”。一开始这个想法并不被所有人看好,因为意味着要投入巨大精力构建数据集、协调不同领域知识。但团队迎难而上,不断打磨 General-Level 算法设计,花了超过一年多的时间收集、标注清洗数据,与此同时耗费大量人力(超过 50 多位实际贡献者)和计算资源对超过 100 多个多模态大模型在 700 多个任务 30 多万条数据上进行大规模的评测,终于使整个项目成型。可以说,这项成果既是技术创新的结晶,也是对 AI 评测理念的一次重要实践。

可以说,General-Level/General-Bench 不仅是一套评测工具,更是在推广一种全新的“评测文化”。AI 社区从原先热衷跑单项指标,开始转向思考模型的全面素质;从比拼参数规模,转向比拼谁的 AI 更平衡、更通达。这种风向的变化正验证了姚顺雨的论断:AI 下半场,比的不是算法炫技,而是谁能定义正确的问题并找到衡量进步的方法。General-Level 的框架为大家提供了一个共同语言和目标,接下来就要看各路英雄如何在这新标尺下磨炼升级了。

展望:评测范式革新推动 AGI 落地

在 AI 通往 AGI 的征途上,评测标准的突破将起到指南针的作用。General-Level 和 General-Bench 的问世,正标志着业界从“算法为王”转向“评测为王”的思维转变。在这个全新的评测范式下,我们期待看到以下变化:

  • 研发重心转移:研究人员将更加重视模型的全面能力而非单点绝活。模型设计将从过去的“拼装式”朝“熔炉式”演进,力求不同模态在架构上深度融合以增强协同效应。因为新的评测会倒逼大家解决偏科和单向协同的问题,下一代模型可能在多模态统一建模、跨模态信息流动方面迎来突破。
  • 评测生态完善:随着 General-Bench 等基准流行,未来会有更多类似动态任务库加入评测体系,比如引入代码生成、机器人操作、触觉反馈等新类型任务。评测将不再是固定的一套试题,而会不断扩充,贴近真实世界需求。这将鼓励 AI 系统具备持续学习和适应新任务的能力,而不只是针对静态测试集优化。
  • AGI 进程加速:有了明确的通才智能目标(王者段位)和衡量路径,业界在朝 AGI 前进时将少走弯路。当模型在评测中逐级攀升,我们便能量化地看到 AI 离仿真人类智能还有多远。正如论文预测的那样:当某天 AI 能够通过“王者段位”的考核,真正的 AGI 或许也就呼之欲出了。虽然这一天仍未到来,但现在有了一个公认的指标去追求,无疑会大大加速 AGI 落地的步伐。

在此,我们呼吁 AI 研究社区广泛采用 General-Level 和 General-Bench 框架。一套统一的评估标准,将使得不同模型的优劣高下有据可依,也方便大家协同改进。更重要的是,它能引导我们聚焦于模型综合素质的提升,而不是陷入无尽的参数竞赛或刷榜游戏。这与姚顺雨所倡导的“像产品经理一样思考”不谋而合:先想清楚我们究竟希望 AI 为人类做什么、有哪些能力,然后再去改进算法实现它。评估标准的革新,正是明确 AI 努力方向的前提。

总而言之,AI 的下半场已经开启,一个以评测驱动进步的新时代扑面而来。General-Level 和 General-Bench 作为“通才智能”的里程碑,为这一时代写下了精彩的序章。让我们期待,在这套评测指引下,更多 AI 模型百尺竿头、更进一步,早日攀上“王者段位”。届时,通往 AGI 的大门也将随之洞开,人类与通用人工智能共创未来的愿景或将成为现实。

相关内容

美空军公布YFQ-42A未...
中国航空新闻网讯:据外媒5月20日报道,美国空军公布YFQ-42A...
2025-05-21 22:31:19
热门板块涨跌不一,聚焦新能...
截至收盘,中证新能源指数上涨1.1%,沪深300医药卫生指数上涨0...
2025-05-21 21:35:18
湖南白银股价微涨0.29%...
湖南白银最新股价报3.48元,较前一交易日上涨0.01元。盘中最高...
2025-05-21 17:41:53
湖南白银收盘上涨2.01%...
5月21日,湖南白银今日收盘3.55元,上涨2.01%,滚动市盈率...
2025-05-21 17:11:38
湖南白银(002716)5...
金融界消息 截至2025年5月21日收盘,湖南白银(002716)...
2025-05-21 16:40:43
九成以上模型止步白银段位,...
引言:从“解题”到“定义问题”,评测引领AI下半场 OpenAI ...
2025-05-21 16:16:17

热门资讯

原创 巴... 2025年5月2日,巴基斯坦俾路支省曼戈切尔市的枪声撕破了南亚次大陆的平静。数百名俾路支武装分子突袭...
ETF资金榜 | 港股科技50... 2024年9月9日,港股科技50ETF(513980.SH)收跌0.71%,成交8303.43万元。...
权益ETF行业观察:东吴证券聚... 2025年4月第三周,A股市场呈现震荡分化的格局。大盘风格表现相对占优,金融、房地产等行业领涨,而科...
【深度】过会一年半,背靠海澜之... PHPWord 安徽古麒绒材股份有限公司(下称“古麒绒材”)成立于2001年,总部位于“中国羽绒之乡...
3月26日基金净值:易方达中证... 证券之星消息,3月26日,易方达中证电信主题ETF最新单位净值为1.2739元,累计净值为1.273...
媒体称中国成功试爆“非核氢弹”... 本文综合中国蓝新闻,大象新闻,半月谈等 从昨天(4月21日)开始,社交媒体上不断传出“中国成功试爆‘...
全国人大代表,山西交通控股集团... 绿色发展是高质量发展的底色,新质生产力本身就是绿色生产力。近年来,山西交通控股集团有限公司(以下简称...
区块链概念13日主力净流出4.... 8月13日,区块链概念上涨0.65%,今日主力资金流出4.6亿元,概念股180只上涨,40只下跌。 ...
博主质疑“小米SU7排单延期”... 4月17日下午,小米集团公关部总经理王化在微博发文回应博主徐里里对小米SU7排单延期的质疑。王化表示...
3月26日基金净值:易方达中证... 证券之星消息,3月26日,易方达中证红利ETF最新单位净值为1.3591元,累计净值为1.6301元...