如何进入头部 AI 团队:从方向选择到作品集准备
经验总结
GEMINI 预训练团队负责人在五月份写了一篇《如何进入头部 AI 团队/实验室》,非常值得一读,总结 10 条经验:
前沿实验室的招聘卷得厉害,能进去的大多出自顶尖本科或博士项目,身上普遍有三样东西:方向打得准、数学功底硬、拼劲十足。对大多数普通人来说,硬挤正面没胜算,更务实的打法是绕到 LLM 栈的两头——要么沉下去做底层(kernel 优化、推理加速、量化),要么浮上来做上层(agent 系统、用 LLM 搞算法实验),靠开源项目和实打实的成果说话,比什么都有说服力。
1. 找准方向,切忌空谈
别张嘴就是"我对 AI 感兴趣"。得盯准实验室真正缺人的地方:底层就死磕 FlashAttention、量化推理、kernel 编程;上层就做 agent 循环、LLM 辅助的实验设计。这些方向门槛不高,自学能上手,实验室又天天用得着。
2. 数学底子绕不过去
这里没有捷径,只能靠大量证明题和理论课程硬磨。优化理论、scaling laws、模型演化逻辑,得吃到骨子里去。数学成熟度是分水岭,过了就是研究者,没过就是操作工。
3. 拼劲得够,别怕苦
大学那几年,周末泡图书馆是常态,社交能砍就砍。作者当年和朋友靠浓咖啡硬扛一整天,就这么熬过来的。想和那拨尖子生掰手腕,没有这点强度打底,基本没戏。
4. 用开源项目破局,别指望简历
把代码挂到 GitHub 上,做复现、提改进、跑 benchmark。能力这东西,摆出来给人看,比写在纸上管用得多。
5. 从边角料干起,别一上来就冲大模型
先搞定 kernel 编程(CuTe、LLM.int8() 量化这些)、推理优化、agent 工具链。这些活实验室最缺人,也最容易自己闷头学出来。
6. 论文 + 动手复现,两手都要硬
精读 FlashAttention、SnapKV 这些经典,把 LLM 的脉络理清楚。建议从 Reiner Pope 的访谈和 Gemini Flash 的预训练讲座入手,再慢慢啃 scaling laws。
7. AI 工具用来提速,别用来代替学习
AI 能让你已经会的东西干得更快,但绝不能拿它来学新东西或跳过思考。一依赖就废,数学和拼劲都养不出来了。
8. 每隔半年复盘一次方向
别嫌活脏、别嫌活基础——只要那条路通到金矿,就值得挖。关键是想清楚自己在往哪走。
9. 拿具体练习证明自己
- 用 JAX/Flax 从零写一个 1000 万参数左右的 Transformer,在 Colab TPU 上跑通加法任务;
- 手推 Chinchilla scaling laws,对比稠密模型和 MoE;
- 写一个 Pallas kernel 做算子融合,实测前向加速并说清原因。
10. 最终就一条路:本事 + 作品 + 死磕,缺一不可
名校背景当然管用,但对出身一般的选手,最靠谱的就是在 kernel 或 agent 领域做出能拿出来秀的东西,然后做好打 5–10 年持久战的准备。
原文:如何准备头部 Agent / Harness 团队:从作品集到实验能力
原文来源:AgentWay
想进入头部 Agent / Harness 团队,作品集要证明你能读懂一次 Agent 运行:它为什么这样做,哪种设计能让结果更稳定。高阶 Agent 工作的差距,越来越多在这里拉开。
行业信号
Vlad Feinberg 在 frontier lab 求职建议里,把机会分成两层:LLM stack 下层的 kernel work,以及 LLM 抽象之上的 agentic loops。后者的关键,是围绕 LLM agent 做严谨、可控的工程实验。
DeepSeek Harness 的招聘给了另一侧证据。Tianyi Cui 给出的公式是 Model + Harness = Agent。模型给出能力上限,Harness 负责把能力接到上下文、工具、任务、评测、用户反馈和训练信号里。
两条线合在一起,结论很实际:头部 Agent / Harness 团队需要的作品,要能把一次 Agent 运行拆成可观察、可比较、可复现的实验。
Demo 说服力有限
普通 Agent demo 通常有三个短板:
- 任务太少,只证明某次演示成功。
- 没有 baseline,无法知道改动是否真的带来提升。
- 没有 trace,失败后只能猜模型、prompt、工具、上下文哪一层出了问题。
一个小而严谨的实验,更有说服力。比如同一组任务,分别用基础 prompt、工具白名单、typed error、reviewer subagent、不同 compaction 策略跑一遍。最后给出成功率、成本、延迟、失败类型和几条关键 trace。项目可以朴素,关键是能说明你理解 Harness 变量。
作品集应该像实验报告
一个适合 Agent / Harness 岗位的项目,至少要能回答六个问题:
| 问题 | 作品集里的材料 |
|---|---|
| Agent 要做什么 | task set / scenario definition |
| 起点表现怎样 | baseline result |
| 你改了什么 | intervention |
| 怎么判断好坏 | eval metrics / graders |
| 失败发生在哪里 | trace / diagnostics |
| 结论能否复现 | scripts / fixtures / README |
这和 Anthropic 对 Agent eval 的看法一致:Agent 评测通常要看 transcript 和 outcome,并组合 code-based、model-based、human graders。只看最终回答,会漏掉工具选择、重试、状态污染、绕过规则这些过程问题。
选题要窄
好的作品集不需要"大而全"。最适合的方向,是在一个真实 Agent runtime 上选一个变量做深。
Context 实验
比较 full transcript、rolling summary、retrieved memory、branch summary 对长任务成功率的影响。
Tool 实验
比较粗粒度工具和细粒度工具、free-form error 和 typed error、长 observation 和压缩 observation。Anthropic 的 tool 文章说得很清楚:工具返回结构本身会影响 eval 表现。
Trace / Eval 实验
给一组任务建立 trace schema:message、tool_call、tool_result、state_change、diagnostic、final_outcome。然后用 code grader、LLM judge、人工检查组合评分。
Multi-Agent 实验
比较 single agent、planner-executor、planner-executor-reviewer、parallel subagents。重点是解释 multi-agent 何时提升成功率,何时增加成本和协调失败。
Production / Safety 实验
研究权限、hook、human checkpoint、rollback、cost cap 怎样影响输出质量、成本和越权风险。
一个具体项目模板
项目可以很小:
agentic-debug-harness
问题: 代码 Agent 修复 failing tests 时,什么时候会过度修改无关文件?
任务集: 20 个小型 bugfix tasks。每个任务包含初始 repo、失败测试、预期行为、允许修改范围。
Baseline:
- naive prompt
- prompt + file whitelist
- prompt + permission hook
- prompt + reviewer subagent
- prompt + trace replay
指标:
- test pass rate
- unrelated file edits
- token / cost
- wall-clock latency
- human intervention count
- failure taxonomy
交付:
tasks.jsonlrun-eval.tstraces/*.jsonlresults.csv- 5 个失败 case 的短分析
- README 说明怎么复现
这个项目有价值,因为它把 Harness 设计和结果差异连起来了。
作品集里最稀缺的是归因能力
头部团队会关心你能不能区分这些失败来源:
- 模型没有理解任务。
- 工具 schema 让模型误用。
- observation 太长或太散。
- context 里丢了关键状态。
- memory 写入了错误事实。
- subagent handoff 损失了约束。
- permission policy 过松或过紧。
- eval 只测到了表面成功。
这类判断力很难靠简历写出来。最好的证明方式,是把失败 trace 摆出来,再给出一个小改动和对比结果。
90 天准备路线
第 1-2 周:复现
复现一个现有 Agent 任务:coding task、tool-use task、research task 都可以。先把 task、runner、trace、结果表跑通。
第 3-5 周:只改一个变量
选择 context、tool schema、hook、memory、subagent 中的一个变量。把 prompt、模型和工具一起改,会让实验失去解释力。
第 6-8 周:补 trace 和 eval
把每次运行记录成 episode。至少包含 tool call、tool result、stop reason、final outcome。建立成功率、成本、失败类型三类指标。
第 9-12 周:写报告
报告按实验报告写:问题、baseline、intervention、task set、metrics、trace examples、conclusion。
结论
会用 Agent 只是起点。想进入 Agent / Harness 团队,还要能把一次运行拆开看:变量怎么控,过程怎么记,结果怎么比,失败怎么归因。
一个严谨的小实验,比十个漂亮 demo 更像入场券。