王
王通 · Wang Tong
大模型后训练与 Agent 算法工程师,关注模型行为、数据闭环与系统边界。
我做大模型后训练与 Agent,也关心模型之外那一圈东西:数据从哪里来,奖励是否诚实,评测能不能 骗过自己,系统坏掉时第一条线索在哪里。
我喜欢把复杂系统拆到能被解释的程度。公式要能落到训练行为,代码要能留下可复现的产物,日志要 能回答一个具体问题。技术里最有意思的地方,往往不是某个新名词,而是几个抽象层互相咬合的边界。
关于这个博客。 名字是个小玩笑 —— 一个 专家混合(MoE), 被路由到我正在拆的问题上。这里会写模型训练、推理服务、远程机器、安卓系统,也会写一些工具和 旁枝。写得慢一点,尽量写清楚:少一点结论先行,多一点「为什么它只能这样工作」。
先把问题追到底,再决定要不要优雅地解决它。