01 · 官方榜单

ARC-AGI-3 官方榜单怎么看

如果你第一次关注 ARC-AGI-3，最值得先看的不是碎片化截图，而是 ARC Prize 官方 leaderboard 和 scorecards。它们展示的不是一句“谁第一”，而是 agent 在真实交互环境里的完整运行记录。

为什么先看官方 leaderboard

ARC Prize 官方给 ARC-AGI-3 配套了 scorecards、replays 和 leaderboard。这意味着你不需要只看一行数字，而是可以顺着官方入口看到一个 agent 是怎么在环境里行动、失误和修正的。

这类信息对判断真实能力更重要，因为 ARC-AGI-3 关注的是交互式推理，而不是一次性答题。

在 ARC-AGI-3 上，很多结果对应的是“模型 + prompt + 搜索 + 工具调用 + 记忆”的联合系统。单独看模型名字，容易误把系统优化当成底层模型能力。

所以官方 leaderboard 更适合作为“系统表现入口”，而不是简单的模型排行榜。

如果你只是想知道当前社区在 ARC-AGI-3 上做到什么程度，先看官方 leaderboard 就够了。

如果你更想比较不同路线，就继续看对应 scorecards 和 replay，理解它们是怎么完成任务的。

03 · 分数解读

public、private、agent score 不能直接混着看。

02 · 比赛结果

先看 ARC-AGI-3 官方 Preview Agent Competition。

Turn insight into action

当你已经知道自己更看重任务理解、上下文、探索能力还是动作效率，再去选工具，会比追热门模型更有效。