---
title: "Mixture of Insights 中文索引"
description: "大模型后训练、强化学习、Agent 与底层系统的深度技术笔记，作者王通。"
language: "zh-CN"
---

# Mixture of Insights 中文索引

大模型后训练、强化学习、Agent 与底层系统的深度技术笔记，作者王通。

Language: [English](/index.md)

## Agent resources

- [API catalog](/.well-known/api-catalog)
- [OpenAPI description](/openapi.json)
- [Agent skills index](/.well-known/agent-skills/index.json)
- [MCP server card](/.well-known/mcp/server-card.json)
- [llms.txt](/llms.txt)

## Articles

- [bundle 即契约](https://mixtureofinsights.com/zh/blog/orbit-the-bundle-is-the-contract/) ([Markdown](https://mixtureofinsights.com/zh/blog/orbit-the-bundle-is-the-contract.md)): 远程机器跑完就没了，留下来的 bundle 必须能替它作证。目录结构、日志分层、依赖来源和黑盒边界，都应该写进这份契约。
- [ORBIT 的内核为什么不懂任务](https://mixtureofinsights.com/zh/blog/orbit-a-task-agnostic-core/) ([Markdown](https://mixtureofinsights.com/zh/blog/orbit-a-task-agnostic-core.md)): 执行器越懂业务，越容易被业务拖进分支地狱。ORBIT 的内核只认 bundle、放置和产物收集，把训练、评测、采集都留给插件。
- [一台 root 手机能藏住什么](https://mixtureofinsights.com/zh/blog/05-what-you-can-and-cant-hide/) ([Markdown](https://mixtureofinsights.com/zh/blog/05-what-you-can-and-cant-hide.md)): 包名、特性、权限、日志、服务、硬件证明，每条通道都有自己的边界。能藏的要藏干净，藏不了的要早点承认。
- [你到底在奖励什么?](https://mixtureofinsights.com/zh/blog/what-are-you-rewarding/) ([Markdown](https://mixtureofinsights.com/zh/blog/what-are-you-rewarding.md)): RL 不会替你理解目标，它只会认真优化你写下来的那个数。奖励和真实意图之间的缝隙，就是 reward hacking 生长的地方。
- [先冷启动，再让 RL 往上爬](https://mixtureofinsights.com/zh/blog/cold-start-then-climb/) ([Markdown](https://mixtureofinsights.com/zh/blog/cold-start-then-climb.md)): 难任务上直接从 base 模型做纯 RL，常常只会得到高方差的噪声。先用一小批 SFT 样本把策略拉到可探索的区域，再用 GRPO 放大好轨迹。
- [别用 adb shell 代替 App 的眼睛](https://mixtureofinsights.com/zh/blog/04-auditing-from-the-apps-eyes/) ([Markdown](https://mixtureofinsights.com/zh/blog/04-auditing-from-the-apps-eyes.md)): shell 看到的世界，普通 App 未必看得到。要审计检测面，得从 App 自己的 UID、命名空间和 SELinux 域里看。
- [十五个 App 正在读整台设备的日志](https://mixtureofinsights.com/zh/blog/03-the-logcat-leak/) ([Markdown](https://mixtureofinsights.com/zh/blog/03-the-logcat-leak.md)): 包名和系统特性都藏好了，logcat 却还在漏。只要第三方 App 拿到 READ_LOGS，Magisk、Lineage 和你自己的调试输出都会变成线索。
- [后训练是个数据问题](https://mixtureofinsights.com/zh/blog/post-training-is-a-data-problem/) ([Markdown](https://mixtureofinsights.com/zh/blog/post-training-is-a-data-problem.md)): 很多后训练项目最后拼的不是 PPO、GRPO 还是 DPO，而是你能不能持续造出好数据：合成轨迹、自我博弈、拒绝采样，再加一个足够可靠的裁判。
- [拆解 Qwen3-TTS：OpenVINO 移植过程中的图分离与调度实践](https://mixtureofinsights.com/zh/blog/how-qwen3-tts-makes-a-frame/) ([Markdown](https://mixtureofinsights.com/zh/blog/how-qwen3-tts-makes-a-frame.md)): TTS 并非齐次的单流前向传递。在向 OpenVINO 移植时，如何依据计算形状（Compute Shape）将模型切割为 Talker、Subcode 和 Decoder，并实现非对称流式块调度。
- [无 vLLM 环境下的 Paged-KV 与连续批处理调度](https://mixtureofinsights.com/zh/blog/paged-kv-batching-without-vllm/) ([Markdown](https://mixtureofinsights.com/zh/blog/paged-kv-batching-without-vllm.md)): 模型切片仅仅是静态执行单元。当长上下文、并发请求和核显内存预算同时压迫时，在 Ultra x7 358h 上用纯 C++ 构建的 Paged-KV、U8 缓存与连续批处理调度器才是真正的胜负手。
- [离开 N 卡后的真实世界：Ultra x7 358h 平台上的 TTS 推理框架重构](https://mixtureofinsights.com/zh/blog/when-the-gpu-isnt-an-nvidia/) ([Markdown](https://mixtureofinsights.com/zh/blog/when-the-gpu-isnt-an-nvidia.md)): 脱离了 CUDA 的舒适区，vLLM 隐藏的复杂性全部暴露。本文以 Ultra x7 358h 为例，深度剖析在异构 AI PC 上从零重构大模型推理栈的框架级、算子级与代码级优化。
- [租 GPU 的控制面](https://mixtureofinsights.com/zh/blog/a-control-plane-for-renting-gpus/) ([Markdown](https://mixtureofinsights.com/zh/blog/a-control-plane-for-renting-gpus.md)): 租来的 GPU 很快会消失，但一次训练不能只活在 SSH 会话里。ORBIT 的核心想法，是把运行变成可复现的产物。
- [算力不够上 RLHF，就把 DPO 用对](https://mixtureofinsights.com/zh/blog/dpo-when-you-cant-afford-rlhf/) ([Markdown](https://mixtureofinsights.com/zh/blog/dpo-when-you-cant-afford-rlhf.md)): 记录一次用 DPO 搞定多角色出戏（OOC）的踩坑局。没有在线 Rollout 确实爽，但被 Loss 曲线骗过的坑也是真的痛。
- [自我博弈：让模型从游戏里捞数据](https://mixtureofinsights.com/zh/blog/self-play-and-the-games-models-teach-themselves/) ([Markdown](https://mixtureofinsights.com/zh/blog/self-play-and-the-games-models-teach-themselves.md)): 有些任务没有现成示范，但游戏至少告诉你谁赢了。让搜索器把局打完，再把赢下来的轨迹留下，数据就从环境里长出来了。
- [Google Wallet 不是 Play Integrity 那一关](https://mixtureofinsights.com/zh/blog/01-the-google-wallet-wall/) ([Markdown](https://mixtureofinsights.com/zh/blog/01-the-google-wallet-wall.md)): Play Integrity 过了 STRONG，Wallet 还是拒绝加卡。问题不在本地伪装，而在支付后端对硬件证明的校验。
- [StockMask：不碰 App，也能造一层原厂感](https://mixtureofinsights.com/zh/blog/02-stockmask/) ([Markdown](https://mixtureofinsights.com/zh/blog/02-stockmask.md)): HideMyApplist 藏得住包名，藏不住系统特性。更稳的办法是在 system_server 里按调用方过滤回答，而不是把钩子塞进每个 App。
- [Neovim：用 OSC 52 穿越终端剪贴板屏障](https://mixtureofinsights.com/zh/blog/nvim-yank-osc52/) ([Markdown](https://mixtureofinsights.com/zh/blog/nvim-yank-osc52.md)): 绕开 SSH/WSL 的限制，使用 Neovim 0.10 的原生 OSC 52 转义序列将寄存器内容直达系统剪贴板。没有外挂，只有极简的字节流通信。