A guide to the next way of working

ARC-AGI-3

看懂AI优势,选对适合你的AI Coworker模型

交互式推理动作效率AI 选型标准

Research-based guide

ARC-AGI-3 评测 AI 能力的 6 大维度

For people who work with AI

找到真正帮你省时间、提效率、创造更多价值的 AI

如果你正在工作、学习、创作,这就和你有关

Leaderboard & Competitions

先看官方榜单,再看比赛结果

ARC-AGI-3 更值得看的,不只是“谁第一”,而是谁能在真实交互任务里稳定探索、 学习和完成任务。

Use cases

从理解趋势,到选对AI伙伴

更少噪音,更清晰的选择

FAQ

常见问题

ARC-AGI-3 是什么?
它是 ARC Prize 推出的 interactive reasoning benchmark。和传统只看输入输出的测试不同,ARC-AGI-3 更关注 AI 能否在环境中探索新环境、临场获取目标、保持状态并通过多步行动完成任务。
我该从哪里看 ARC-AGI-3 的榜单和最新成绩?
最直接的入口是 ARC Prize 官方 ARC-AGI-3 页面和 leaderboard。官方页面会汇总 ARC-AGI-3 的定位、文档和比赛入口;如果你在线跑 benchmark,结果会出现在 scorecards 里,并可以进入官方 leaderboard 查看。
我应该先本地跑,还是直接用线上 API?
如果你是开发和测试阶段,官方更推荐先本地跑。Local 模式更快、没有 rate limits,也不需要 API key;Online 模式适合生成官方 scorecards、replays 和 leaderboard 结果,但需要 API key,并且当前有每分钟 600 次请求限制。
ARC-AGI-3 的分数到底在看什么?
它不只看完成率,还看效率。官方方法学把两件事放在一起衡量:一是 AI 完成了多少 level,二是它用了多少动作,相对于人类第一次游玩时的效率如何。最终总分是 completion 和 Relative Human Action Efficiency 一起反映出来的结果。
为什么我本地跑的结果,和线上看到的不一样?
因为本地和线上模式提供的能力不同。Local 模式适合快速开发和大量测试,但没有在线 scorecards 和 shareable replays;Online 模式会把运行结果保存为官方 scorecards,并支持回放和 leaderboard 展示。所以你本地能看到环境表现,不一定会有线上那套可分享记录。
如果我想比较不同模型、prompt 或 agent,最快怎么开始?
官方给了 Benchmarking Tooling(beta)作为标准入口。它适合比较模型版本、prompt 策略和 agent 架构,也能生成官方 scorecards 和 replays。对想认真研究 ARC-AGI-3 的人来说,这通常比手写一套零散脚本更稳。
ARC-AGI-3 的 API 现在收费吗?
按照官方文档,目前 ARC-AGI API 在 research preview 阶段是免费使用的,但属于 best-effort 服务,没有正式 SLA,并且会通过 rate limits 控制访问频率。
普通用户为什么也值得关注 ARC-AGI-3?
因为它把一组真正影响 AI 协作体验的能力公开摆到了台面上:理解任务、保持上下文、探索未知和动作效率。你不一定要亲自跑 benchmark,但完全可以用它来重新判断,什么样的 AI 更值得进入你的真实工作流。