# 语言的边界不该是思维的边界


这些天笔者不是在忙着「从零开始学大模型」，以及转型 AI Infra 嘛，就想着要写一个稍稍硬核的 mini project，放在简历上。一是给自己实践的机会，检验自己的学习成果，二是让 HR 和面试官都能一眼知道“他懂”，以及面试有抓手来提问。

但是在选择项目方向的时候，出现了很有意思的矛盾。我先是询问了 Claude、Gemini、GPT，三家顶尖 AI 一致推荐我做推理优化方向的，做一点小部件的突破如 Speculative Decoding，或是大而全的 mini-vLLM。理由是推理是之后普遍存在的需求，需求大就业广。

但之后我又带着这个问题去问了我的认识的 AI 从业者，盐姐姐、杨博士、郑老板还有其他几位朋友，或是业内 AI 前沿的工程师，或是 AI 方向的深造学者，他们都脱口而出的跟我说，做 RL 不要做推理。

两边的意见截然不同，这就很耐人寻味了。随后我就一直在想，到底是博览群书，知晓天下事的顶尖大模型的战略方向错了，还是真正在前沿一线的从业者们对当前浪潮的方向感知错了？

## 知识从来就不只有一种

我们下意识把“知识”想象成一种可以被写下来的东西，是写在教科书、论文、知乎回答、博客文章的东西。学到一个东西，约等于能用文字把它复述出来。但实际上这种简单的画等号是不对的。

Michael Polanyi 写过一本很薄的小书，叫《The Tacit Dimension》，开篇第一句便是：

> **We can know more than we can tell.**

我们知道的永远比我们能说出来的多。

Polanyi 把知识分成了两种。**Explicit Knowledge** 显性知识是可以被编码、被写下、被复述、被检索的部分。比如微分积分的定义、快速排序的代码，FlashAttention 的论文。他们的共同点是知识和承载他的文本之间，几乎没有损耗。而 **Tacit Knowledge** 隐性知识则是不能被“写下”的部分，存在于身体、直觉、情境、关系里。

最经典的例子是骑自行车。你不可能通过一本书来学会骑自行车。真正让人学会自行车的，永远是骑了摔、摔了骑、骑了再摔、摔了再骑的反反复复试错，身体慢慢感知到和把握住那微妙平衡感的过程。或许可以有一本《自行车物理原理》讲明白陀螺效应和逆转向原理，但把书完整背下来的一个书呆子骑上去仍然会摔的很惨。

类似例子还有很多。老医生看一眼胸片就会说“这里不对劲”，但问他为什么不对劲，他可能讲不出来，仅仅是看过几千几万的片子给他的直觉。再就是一些大厨做饭从不“定量计算”，但最终总能很好地平衡菜量与加盐加调料的量，做出一盘好吃的菜。或者一个资深的 UX 设计师让你做某某设计，可能他也说不出来具体为什么这么做合适，仅仅是“用户可能更舒适”这样一点直觉。

这些都不是玄学。它们都是真实存在的知识，只是这些知识存在的方式不是“被说出来”，而是“在做中运用”。从某种意义上，这是 **know what** 和 **know how** 的区分。你知道微积分的 $\epsilon - \delta$ 语言，是 know what，而怎么骑自行车，是 know how。前者可以装进一本书里，而后者只能长在一个身体里。

经济学家 Hayek 还提供了一个很好的切入角度。他在《The Use of Knowledge》里认为，推动市场运转的知识，大多数是“特定时间和地点的知识”，是在某种 context 下的知识。比如某个矿主知道这个月自家矿产有异常、某个货运司机知道哪条路这周在修、某个采购知道这批供应商最近交付有点拖延。这些信息不回出现在任何统计局的报表里，但市场价格的波动就是他们的集体表达。

这些切入方向，最终都指向了同一件事：**人类知识的大部分，从来都不以“文本”的形式存在**。

在大多数时代，这个观察仅仅是一个哲学注脚，没有太多实操意义。因为不关知识以什么方式存在，我们都是在人身上习得的，显性和隐性都得通过“拜师学艺”来习得。老师傅和学徒工、医生和住院医师、senior 和 intern，这套机智几千年没变过。

但我们这一代就不一样了，我们开始习惯地“和 AI 聊聊”。而 AI，恰恰就是那个只能读到显性知识的学生。

## 为什么有一些知识永远不会进入训练集

当然有人肯定会反驳：这只是暂时的数据问题吧，多爬一点，爬的深一点，模型再 scale up 一点，再不济加一个联网搜索，不就解决了？

但是笔者认为 LLM 无法读到隐性知识，不是暂时的数据缺口，是结构性的信息损失。即使有无限的算力、无限长的数据清洗 pipeline，把互联网的每个字节都喂进去，依然会漏掉人类知识的大部分。知识从产生到最终影响 LLM 的输出，要经过五层漏斗，而每一层都在大量流失知识。

**一、写不出来**

如 Polanyi 所言，有些知识就是写不出来。老医生说不出来为什么胸片不对劲，大厨不知道为什么正好要加这么多盐，你也不能用一篇文章教会别人骑自行车。不是他们藏着掖着，是真无法用语言表达出来，这更多的是一种固化在脑子里的复杂 pattern matching，而不是能直接 serialize 成自然语言的 state。

用 ML 的角度类比，这可能更像是神经网络里某一层 embedding 的功能。它承载着大量的信息，但是我我们在可解释性上一筹莫展，无法直接“读”它，只能观察他怎么影响下游输出。比如我们可以问老医生“这个病人有没有问题”，但是没法直接 `model.save()` 他脑子里的那个“有病没病分类器”的权重。

而 LLM 能消化的训练数据，必须得被“记录下来”，或是文本或是图片或是视频。这一层的损失从信息编码那一步就发生了，后面怎么爬、怎么清洗、怎么训练都无济于事。

**二、不会写出来**

互联网上什么内容最多？能写出来对作者有好处的那些——教程、书评、项目演示、个人 branding、科普、SEO 内容。这些写出来能带来流量、口碑、工作机会、广告收入。

那什么内容最少？写出来对作者有坏处的那些：

- 头部量化基金不会发博客讲他们的 alpha
- 公司内部真正在押注哪个方向，不会大声说出来
- 业内对某篇热门论文的真实评价：“这一看就是编的”

这条原则可以冷冷地概括为一句：**价值越高的显性知识，越不会被公开**。LLM 把整个互联网吞下去，本质上是在学习“有激励被公开的那部分知识”的分布，这和“真正有价值的那部分知识”的分布系统性地错开。

**三、写出来也没用**

很多知识是严重依赖 context 的，脱离了情境也就不再是知识。

开篇的“该去做 RL”，仅仅是针对 26 年这个时间点，post-training 需求井喷的当下，针对有 C++/CUDA 底子、想转 AI Infra 的我的有效建议。任何一个 context 变了，结论就反过来了。如果爬虫也爬到这篇博客，清洗进入数据集时，所有 context 都被剥离了，只剩一句光秃秃的“该做 RL”。

更糟糕的是，世界风向不断在变，训练集里同时存在“该学 TensorFlow / 已经是 Pytorch 的时代了”，“要用向量数据库 RAG / 做 Agentic 的知识管理”，“做 SFT / 做 RLHF”，每一条建议在它的那个时间点，它所在的 context 里都是对的，但是在数据集里就堆在一起，成为一锅不分情境的意见汤了。

LLM 做的事，本质上是对这锅汤做加权平均，但是 garbage in, garbage out。这也是为什么 AI 建议常常给人一种“正确但无用”的感觉，语料和我们都缺少了对应 context。

**四、从写下来到 AI 学会要很久**

接着前面“时间切片”的观点，时间、时效问题本身是独立于其他 context 的一个大问题。即使一条显性知识有人愿意写、写得出来、情境保留得足够好，它进入 LLM 训练集直到模型上线的延迟，长到足以让它过期。

粗略估一下，一个判断从行业内部流动到被人写成博客，通常要半年到两年；博客进入下一代 LLM 的预训练语料，又要半年到一年；模型上线被你调用，再要几个月。加起来是一到三年的滞后。而那些真正影响战略的判断，比如“今年 RL infra 招聘在涨”、“那家公司在悄悄缩招”，是现在、线下的最新信息，推导出预测未来 6 到 12 个月的信号。

计划根本赶不上变化。LLM 给你的最新建议，本质上是 2 到 3 年前的 industry consensus 的重述。在一个正常行业里这可能还凑合，在一个 6 个月一变天的行业里，这约等于噪声。

虽然 RAG 和 web search 能缓解这一层，但只能缓解——前提是这些“关于未来”的判断已经以显性文本形式存在于可检索的公共互联网上。而按照第一、第二层的结论，它们大概率不在。最前沿的判断还在私域群聊、coffee talk、1:1 meeting 里流动。

**五、进了训练集也被压下去**

这一层，是目前整个机器学习领域的痛点，是基于概率的模型难以跨越的难题。

假设某条 tacit knowledge 侥幸通过了前四关，有人写了、情境保留了、时滞可接受、进了训练集。它依然要面对训练机制自身的一层过滤：模型学的是数据分布，不是数据真值。

互联网上讲“推理引擎”的博客可能有几万篇，而“RL Infra”的可能只有寥寥百篇，模型自然就会对其中更高频出现的“做推理”更有信心。

还得算上 RLHF，人类标注者更喜欢“听起来靠谱、有据可查、细节完整”的回答。而引用了大量公开资料的那些更可能被认为“听起来靠谱”。

两者叠加：公开资料多的方向，在预训练的概率就高，在 RLHF 后权重进一步放大；而公开资料少的，一开始就低，还会进一步被压低。

所以即使一条隐性知识侥幸通过了前四关，进入了训练集，也可能只是以一种微弱信号的形式存在，被公开资料丰富的方向的强信号压过去。我问 AI “推理还是 RL”，它可能也知道 “RL 更有前途”，但仅仅“知道一点，且被淹没了”。

**五层漏斗连起来看**

五层叠加，每一层都是一个数量级的损失。最终能被 LLM 学到的，只是“人类所有知识”里少之又少的一部分。而这部分恰好是互联网上最 popular、最 SEO-friendly、最 consensus 的那一部分。它不是"人类知识的精华"，而是"人类知识里最适合被写下来的那一部分"，这两件事听起来像，实际上完全不是同一件事。

## 可观测世界不等于真实世界

在 RL 里有一对概念：state 和 observation。state 是整个世界的“完整状态描述”，而 observation 则是 agent 能探测到的世界部分信息，是真实 state 的一个投影。

而 observation 的信息丢失让 RL 有一个很不舒服的性质：在 observation 上最优的测量，不一定在 state 上最优，也就是全局最优。Agent 没做错任何事，它只是在它能看到的那一半世界里做到了最好。

而 LLM 恰巧就是一个巨型 agent，它看到的是“被公开卸下来的互联网”，而我们期望他的 state 是“整个人类知识”。所以 AI 给的建议不是“错的”，是只是一个局部最优。

而一旦识别到了这个 pattern，其实会发现他在各处广泛存在，不仅限于大模型：

- **ML 领域**：推理优化的论文发出来，过段时间才有人开始啃论文、发博客，而我们又去吃博客的二手信息，觉得推理大有可为。但实际上 RL 的招聘需求一直在偷偷地长，甚至只要组员、猎头的内推，不会发在招聘网站上。
- **量化交易**：所有能在互联网上读到的因子和策略，都是“写出来对作者没坏处”，或是早就失效的因子，或是从一开始就没用的因子。真正有 alpha 的测量，肯定都在各家机构里藏着掖着。
- **医疗**：教科书教你“见到 X 症状考虑 Y 疾病”，但老主任看一眼片子就说“这个人我见过几百个，八成是 Z”。后者是十万小时临床磨出来的先验感知，没有任何一本教科书承载。
- **创业**：商业书写的是已经成功的公司回过头来解释自己为什么成功，而和正在蒸蒸日上的公司的 founder 去 coffee chat 半小时，能获得的信息比整个书架还多。

这四个领域看似差得很多，但底层逻辑是一样的：每个领域的公开资料都经过了激励、情境、时滞、流行度的共同筛选，最终留下的是一个被严重 self-selected 的投影。AI 在这个投影上做到了 state-of-the-art，但投影本身不是真实。

我们把 AI 当成了真理机，以为它给的是客观世界的答案，但那只是 observable world 的答案。这两者看起来差不多，实际上差了一整个行业的真实走向。

## 隐性知识只能通过人际流动

如果隐性知识这么重要，人类早应该发明一种方式将它快速、批量传递，或是写成书，或是路程视频、做成 MOOC。但是看看身周的世界，你会发现：几千年来，传递隐性知识最有效的机制，始终是“一个人跟在另一个旁边学”。

这套机制有一个古老的名字：师徒制。

铁匠带学徒不是让他读《打铁原理》，是让他在炉子边站三年。住院医不是考完执照就能上，是要跟着主任查房查到他能独立判断。CS 博士真正学到东西的地方不是课堂，是和导师每周开组会、被改 paper 改到怀疑人生的那几年。任何一个真正硬核的行业，最关键的传承环节都不是文档，是人在另一个人旁边待足够长的时间。

之所以如此，是因为隐性知识依赖的几样东西，刚好都是文档承载不了的。


一是情境。同一句“这个实验结果怪怪的”，在实验室里当场说出来，和写进博客里，信息量完全不同。当场说出来的那句话，伴随着导师皱眉的那一瞬间，他调出的某张曲线，他顺手改的那个参数。这些上下文决定了“怪怪的”到底指什么。把这句话写进文档，上下文就全丢了，只剩一句孤零零的话。

二是反馈回路。学徒最需要的不是“做对了”时的确认，是“做错了”时的纠正。而纠正需要有人在旁边看着你做。你写了一段代码跑通了，但老同事路过瞥一眼说“这个地方之后会出问题”，这种信号只在共同在场的时刻发生，没法被异步化，也没法被写进任何知识库。

三是无意识的模仿。很多时候学徒自己都不知道自己在学什么，他只是在跟着师傅干活的过程中，慢慢把师傅处理问题时的节奏、优先级、取舍方式吸收了进去。等他某天独立面对一个新问题，他会用一种他说不清来源的方式处理它。那个来源就是前面几百个小时的共同在场。

这三样东西才是师徒制的真正产品。文档、录像、课程只能承载它们的剪影，剪影再清晰也不是本体。

YC 和 a16z 这样的孵化器之所以执着于 onsite，哪怕被投公司分布在全球，根本原因不是钱，是让创业者在一群已经做成过的人旁边待够时间。顶级实验室坚持 residency，也不是因为远程办公技术不够成熟，而是因为 research taste 没法通过 Slack 传递。一个人在一家公司第一年学到的东西，往往远超他自己看书一年，也是同样的道理。公司是一个真实的共同在场场所，而书不是。

回到个人。你的 network 不是“人脉”这种庸俗意义上的东西，它是你接入别人隐性知识的通道。它决定了你自己能看到多大的一块真实世界，不是 AI 看不到的那部分，而是你自己能看到多大一部分。一个人在 AI 时代能走多远，很大程度上取决于他身边有多少愿意和他共同在场的人。

## AI 时代的隐性知识溢价

这里要抛出一个论点：**AI 越强，隐性知识的价值越高，而不是越低。**

如果把它当成一个相对价值问题，这个结论几乎是必然的。看几个历史上的类似故事：工业革命后，机器纺织让布料价格大跳水，手工织物反而变成奢侈品；照相让保留人脸变成按一下快门的事，但街头的肖像画画家仍然能把作品当做“艺术品”卖；录音技术与互联网让音乐复制传播成本趋近于零，但演唱会和 live 的价格居高不下。

这些都不是偶然。背后是同一个经济学原理，当某种东西被大规模商品化，它的稀缺替代品会经历一次相对价值的重估。机器布便宜了，手工布就贵了；显性知识被商品化了，隐性知识就贵了。

AI 正在做的事，就是把显性知识商品化到前所未有的程度。过去要搞懂一个复杂概念，你得读论文、读书、找人讲；现在你可以让 Claude 师傅用你喜欢的方式给你讲三遍。过去要写一份还行的分析报告，得调研一周，现在让 AI 干半小时就行。过去“会写代码”本身是一种稀缺技能；现在稀缺的是“知道该让 AI 写什么”。

显性知识的价格塌下去，另一半知识的相对价格就自动涨上来。那些写不下来、索引不到、检索不到的东西，比如行业里真正在发生什么、哪个人该信哪个人不该、哪个机会是真的哪个是噪声、某个技术判断在圈内到底怎么被看待。它们的绝对价值没变，但在一个显性知识白菜价的世界里，相对价值被动升高了。

顺着这个逻辑往前推一步，在 AI 时代，**你身上的隐性知识存量，是能让你在这个时代存活下去的重要资源**。你对某个领域的判断力、你看一段代码时涌上来的那种直觉、你在一堆模糊信号里挑出关键那条的能力、你知道某句话在某个场合该不该说。这些东西 AI 学不来，别人也偷不走，它们只长在你身上。

过去这些东西也值钱，但它们在你总价值里只占一部分——因为显性知识那部分（你会什么、你懂什么、你能写什么）也是差异化的来源。一个显性知识丰富的人和一个贫乏的人，差距很明显。现在这个差距在被 AI 抹平。显性知识的价格塌向零，意味着靠显性知识拉开的那段差距，正在从你的总价值里被扣除。剩下来的、AI 抹不掉的那部分，就是你的隐性知识存量。它的绝对值没变，但它在你价值构成里的占比，在被动变大。

这也意味着，如果你在 AI 时代还只依赖 AI 能给你的东西，你的相对竞争力其实在被慢慢稀释，逐渐在科技平权中丧失自己的区分度。

隐性知识没有快捷方式。它只有两种来源：自己亲身做事、在失败和反馈里长出来的那部分，和身边的人愿意告诉你、在共同在场里传过来的那部分。前者需要你真的下场，后者需要你认识对的人并且让他们愿意和你深聊。两种方式都慢，都没法加速，都不能外包给一个工具。

在这个时代，对于我们渺小的个人来说，我们拼不了算力，拼不了模型，我们只能拼上我们仅有的时间和精力，把时间种在哪里，隐性知识就会在哪里长出来。

> 只有时间与实践，能换来 AI 给不了你的东西。

## 所以，怎么办

前面所有的推导，落到实操上其实很简单。

回到文章开头那个反差：三家顶级 AI 一致推荐做推理引擎，三位业内工程师一致推荐做 RL。现在再看这个反差，它不是 AI “搞错了”，只是在它能看见的那半个世界里给出了最优回答，推理引擎在公开资料里确实压倒性地显眼。问题是“我该做哪个方向”这个问题的答案，恰好存在于 AI 看不见的那半个世界里，行业内部在押注什么、哪类岗位在悄悄上涨、哪些判断在工程师之间传了半年但还没被任何人写出来。

这个 pattern 出现过很多次。mini project 选型，AI 给的永远是“容易出 star 的方向”，真正落地的选题来自 Reddit 上的痛点侦察和业内学长的验证。商业切入点，AI 能推演出一套框架，但 Johnson 哥那种“直接观察需求切入供给侧”的方法论来自实战，不是从任何一本书里读出来的。每次到了真正要判断方向的时刻，AI 都是执行和整理的工具，不是方向的制定者。

所以遇到一个问题，先问自己一个判断题：这事的答案主要在显性知识里，还是在隐性知识里？

如果是显性为主：概念、框架、API、操作步骤、一个成熟领域的共识、把一个想清楚的事情落地。那就大胆交给 AI。这是它最擅长的部分，而且只会越来越擅长。现在不用 AI 完成显性知识类的工作，等于在用算盘和别人用计算器竞争。

如果是隐性为主：方向选择、时机判断、行业真实动向、某个人该不该信、某个机会是噪声还是信号。则应该去找人聊聊、去试试。不要试图通过更长的 prompt、更好的 RAG、更新的模型来让 AI 回答这类问题。问题不在模型能力上，在 observation function 上，这是再强的模型也解决不了的。

把这两件事想清楚之后，AI 时代最值得你投入时间的动作就很明确了。

一边充分地用 AI 做掉所有显性知识相关的工作，把时间从里面抢回来。另一边，把抢回来的时间花在那些只能靠你自己长出来的东西上：亲身下场做项目、在真实反馈里吃教训；和行业里的人建立真实的关系、定期和靠谱的人喝杯咖啡聊聊“最近你们内部在讨论什么”；参加小型的线下活动；去观察而不只是阅读这个世界。这些事看起来慢，看起来没有立即的产出，但它们才是在让你真正成长。

维特根斯坦说，语言的边界就是世界的边界。AI 刚好是被语言边界完整定义的那种存在，token in, token out，它知道的、看见的、想到的，只有能被写下来的那一半。

但人不是。你能观察的、能体会的、能直觉到的，永远比你能说出来的多。AI 时代里真正重要的那些事——你该往哪走、你该押哪个赛道、你该和谁在一起，答案一直都在语言的边界之外。

> 题外话：
>
> 那感觉 RL 大有可为啊，给“隐性知识采集”搭好脚手架，丢个模型进去炼一炼会不会有魔法发生呢？
>