ARC-AGI-3 GUIDE

理解 AI 未来，推荐 AI Coworker 模型

A guide to the next way of working

ARC-AGI-3

看懂 ARC-AGI-3，选对适合你的 AI Coworker 模型

先了解 ARC-AGI-3 推荐 AI Coworker 模型

交互式推理动作效率AI 选型标准

Research-based guide

ARC-AGI-3 评测 AI 能力的 6 大维度

理解需求

AI 能不能先看懂目标，再开始行动。

阅读文章→

保持上下文

多轮对话里，它能不能稳稳接住前文。

阅读文章→

探索学习

遇到陌生任务时，它能不能靠试错继续推进。

阅读文章→

动作效率

不是能做就行，还要看完成过程够不够省事。

阅读文章→

系统能力

真正的体验差异，往往来自整套协作系统。

阅读文章→

选型判断

用这 6 个维度，重新判断谁更适合成为你的 AI 伙伴。

阅读文章→

For people who work with AI

找到真正帮你省时间、提效率、创造更多价值的 AI

如果你正在工作、学习、创作，这就和你有关

01

上班族

先看 AI 能不能真正理解不完整需求，再看它能不能更高效地把事情做完。

先读：把模糊需求变成清晰任务→

02

创作者

比起一次输出更强，你更需要一个能接住上下文、陪你试错和迭代的协作型 AI。

先读：在多轮协作中不丢上下文→

03

独立开发者

你更该关心系统设计、工具调用和 agent workflow，而不只是底层模型名称。

先读：别只盯着模型名字→

04

AI 新手

先用 ARC-AGI-3 提供的能力框架建立判断，再决定哪些工具值得真正投入时间。

先读：用 ARC-AGI-3 重新选择 AI Coworker 模型→

Leaderboard & Competitions

先看官方榜单，再看比赛结果

ARC-AGI-3 更值得看的，不只是“谁第一”，而是谁能在真实交互任务里稳定探索、学习和完成任务。

官方榜单

ARC-AGI-3 官方榜单

先看官方 leaderboard、scorecards 和 replay 入口。

阅读文章→

比赛结果

Preview 比赛结果

先看 ARC-AGI-3 官方 Preview Agent Competition。

阅读文章→

分数解读

ARC 分数怎么读

public、private、agent score 不能直接混着看。

阅读文章→

获奖方案

2025 获奖方案

看官方冠军、结果分析和公开方案的真实含义。

阅读文章→

Use cases

从理解趋势，到选对AI伙伴

更少噪音，更清晰的选择

推荐 AI Coworker 模型

FAQ

常见问题

ARC-AGI-3 是什么？⌄

它是 ARC Prize 推出的 interactive reasoning benchmark。和传统只看输入输出的测试不同，ARC-AGI-3 更关注 AI 能否在环境中探索新环境、临场获取目标、保持状态并通过多步行动完成任务。

我该从哪里看 ARC-AGI-3 的榜单和最新成绩？⌄

最直接的入口是 ARC Prize 官方 ARC-AGI-3 页面和 leaderboard。官方页面会汇总 ARC-AGI-3 的定位、文档和比赛入口；如果你在线跑 benchmark，结果会出现在 scorecards 里，并可以进入官方 leaderboard 查看。

我应该先本地跑，还是直接用线上 API？⌄

如果你是开发和测试阶段，官方更推荐先本地跑。Local 模式更快、没有 rate limits，也不需要 API key；Online 模式适合生成官方 scorecards、replays 和 leaderboard 结果，但需要 API key，并且当前有每分钟 600 次请求限制。

ARC-AGI-3 的分数到底在看什么？⌄

它不只看完成率，还看效率。官方方法学把两件事放在一起衡量：一是 AI 完成了多少 level，二是它用了多少动作，相对于人类第一次游玩时的效率如何。最终总分是 completion 和 Relative Human Action Efficiency 一起反映出来的结果。

为什么我本地跑的结果，和线上看到的不一样？⌄

因为本地和线上模式提供的能力不同。Local 模式适合快速开发和大量测试，但没有在线 scorecards 和 shareable replays；Online 模式会把运行结果保存为官方 scorecards，并支持回放和 leaderboard 展示。所以你本地能看到环境表现，不一定会有线上那套可分享记录。

如果我想比较不同模型、prompt 或 agent，最快怎么开始？⌄

官方给了 Benchmarking Tooling（beta）作为标准入口。它适合比较模型版本、prompt 策略和 agent 架构，也能生成官方 scorecards 和 replays。对想认真研究 ARC-AGI-3 的人来说，这通常比手写一套零散脚本更稳。

ARC-AGI-3 的 API 现在收费吗？⌄

按照官方文档，目前 ARC-AGI API 在 research preview 阶段是免费使用的，但属于 best-effort 服务，没有正式 SLA，并且会通过 rate limits 控制访问频率。

普通用户为什么也值得关注 ARC-AGI-3？⌄

因为它把一组真正影响 AI 协作体验的能力公开摆到了台面上：理解任务、保持上下文、探索未知和动作效率。你不一定要亲自跑 benchmark，但完全可以用它来重新判断，什么样的 AI 更值得进入你的真实工作流。