← 返回首页

03 · 分数解读

ARC-AGI-3 分数怎么解读

很多人一看到 ARC 分数就想横向比较模型,但 ARC-AGI 相关结果其实分成 public、semi-private、private、local、online、scorecard 和比赛等多种场景。先看懂分数,再看谁更强,才不会被误导。

为什么 ARC 分数这么容易被误读

因为 ARC Prize 系列不是只有一种榜单。除了历史上的 public 或 semi-private 结果,ARC-AGI-3 还引入了更明显的在线 scorecards、replays 和效率维度。

如果不先区分评测条件,就很容易把不同版本、不同模式的分数混在一起。

ARC-AGI-3 最重要的分数变化

官方方法学明确提出,ARC-AGI-3 不只是看 solve success rate,还看 Relative Human Action Efficiency。

这意味着“能不能做对”和“是不是高效做对”同样重要。对真实使用来说,这比单看正确率更接近协作体验。

普通用户应该怎么解读

如果你不是研究人员,最简单的读法是:先看这个系统是不是在官方 scorecard 里有结果,再看它的完成率和效率表现。

只有当评测条件一致时,分数比较才有意义;否则更适合把它当成趋势参考,而不是绝对排名。

Continue reading

接下来可以继续读这几篇

Turn insight into action

带着这篇文章里的标准,再去推荐 AI Coworker 模型

当你已经知道自己更看重任务理解、上下文、探索能力还是动作效率,再去选工具,会比追热门模型更有效。