03 · 分数解读

ARC-AGI-3 分数怎么解读

很多人一看到 ARC 分数就想横向比较模型，但 ARC-AGI 相关结果其实分成 public、semi-private、private、local、online、scorecard 和比赛等多种场景。先看懂分数，再看谁更强，才不会被误导。

为什么 ARC 分数这么容易被误读

因为 ARC Prize 系列不是只有一种榜单。除了历史上的 public 或 semi-private 结果，ARC-AGI-3 还引入了更明显的在线 scorecards、replays 和效率维度。

如果不先区分评测条件，就很容易把不同版本、不同模式的分数混在一起。

官方方法学明确提出，ARC-AGI-3 不只是看 solve success rate，还看 Relative Human Action Efficiency。

这意味着“能不能做对”和“是不是高效做对”同样重要。对真实使用来说，这比单看正确率更接近协作体验。

如果你不是研究人员，最简单的读法是：先看这个系统是不是在官方 scorecard 里有结果，再看它的完成率和效率表现。

只有当评测条件一致时，分数比较才有意义；否则更适合把它当成趋势参考，而不是绝对排名。

01 · 官方榜单

先看官方 leaderboard、scorecards 和 replay 入口。

06 · 选型判断

用这 6 个维度，重新判断谁更适合成为你的 AI 伙伴。

Turn insight into action

当你已经知道自己更看重任务理解、上下文、探索能力还是动作效率，再去选工具，会比追热门模型更有效。