语言的边界不该是思维的边界
这些天笔者不是在忙着「从零开始学大模型」,以及转型 AI Infra 嘛,就想着要写一个稍稍硬核的 mini project,放在简历上。一是给自己实践的机会,检验自己的学习成果,二是让 HR 和面试官都能一眼知道“他懂”,以及面试有抓手来提问。
但是在选择项目方向的时候,出现了很有意思的矛盾。我先是询问了 Claude、Gemini、GPT,三家顶尖 AI 一致推荐我做推理优化方向的,做一点小部件的突破如 Speculative Decoding,或是大而全的 mini-vLLM。理由是推理是之后普遍存在的需求,需求大就业广。
但之后我又带着这个问题去问了我的认识的 AI 从业者,盐姐姐、杨博士、郑老板还有其他几位朋友,或是业内 AI 前沿的工程师,或是 AI 方向的深造学者,他们都脱口而出的跟我说,做 RL 不要做推理。
两边的意见截然不同,这就很耐人寻味了。随后我就一直在想,到底是博览群书,知晓天下事的顶尖大模型的战略方向错了,还是真正在前沿一线的从业者们对当前浪潮的方向感知错了?
知识从来就不只有一种
我们下意识把“知识”想象成一种可以被写下来的东西,是写在教科书、论文、知乎回答、博客文章的东西。学到一个东西,约等于能用文字把它复述出来。但实际上这种简单的画等号是不对的。
Michael Polanyi 写过一本很薄的小书,叫《The Tacit Dimension》,开篇第一句便是:
We can know more than we can tell.
我们知道的永远比我们能说出来的多。
Polanyi 把知识分成了两种。Explicit Knowledge 显性知识是可以被编码、被写下、被复述、被检索的部分。比如微分积分的定义、快速排序的代码,FlashAttention 的论文。他们的共同点是知识和承载他的文本之间,几乎没有损耗。而 Tacit Knowledge 隐性知识则是不能被“写下”的部分,存在于身体、直觉、情境、关系里。
最经典的例子是骑自行车。你不可能通过一本书来学会骑自行车。真正让人学会自行车的,永远是骑了摔、摔了骑、骑了再摔、摔了再骑的反反复复试错,身体慢慢感知到和把握住那微妙平衡感的过程。或许可以有一本《自行车物理原理》讲明白陀螺效应和逆转向原理,但把书完整背下来的一个书呆子骑上去仍然会摔的很惨。
类似例子还有很多。老医生看一眼胸片就会说“这里不对劲”,但问他为什么不对劲,他可能讲不出来,仅仅是看过几千几万的片子给他的直觉。再就是一些大厨做饭从不“定量计算”,但最终总能很好地平衡菜量与加盐加调料的量,做出一盘好吃的菜。或者一个资深的 UX 设计师让你做某某设计,可能他也说不出来具体为什么这么做合适,仅仅是“用户可能更舒适”这样一点直觉。
这些都不是玄学。它们都是真实存在的知识,只是这些知识存在的方式不是“被说出来”,而是“在做中运用”。从某种意义上,这是 know what 和 know how 的区分。你知道微积分的 $\epsilon - \delta$ 语言,是 know what,而怎么骑自行车,是 know how。前者可以装进一本书里,而后者只能长在一个身体里。
经济学家 Hayek 还提供了一个很好的切入角度。他在《The Use of Knowledge》里认为,推动市场运转的知识,大多数是“特定时间和地点的知识”,是在某种 context 下的知识。比如某个矿主知道这个月自家矿产有异常、某个货运司机知道哪条路这周在修、某个采购知道这批供应商最近交付有点拖延。这些信息不回出现在任何统计局的报表里,但市场价格的波动就是他们的集体表达。
这些切入方向,最终都指向了同一件事:人类知识的大部分,从来都不以“文本”的形式存在。
在大多数时代,这个观察仅仅是一个哲学注脚,没有太多实操意义。因为不关知识以什么方式存在,我们都是在人身上习得的,显性和隐性都得通过“拜师学艺”来习得。老师傅和学徒工、医生和住院医师、senior 和 intern,这套机智几千年没变过。
但我们这一代就不一样了,我们开始习惯地“和 AI 聊聊”。而 AI,恰恰就是那个只能读到显性知识的学生。
为什么有一些知识永远不会进入训练集
当然有人肯定会反驳:这只是暂时的数据问题吧,多爬一点,爬的深一点,模型再 scale up 一点,再不济加一个联网搜索,不就解决了?
但是笔者认为 LLM 无法读到隐性知识,不是暂时的数据缺口,是结构性的信息损失。即使有无限的算力、无限长的数据清洗 pipeline,把互联网的每个字节都喂进去,依然会漏掉人类知识的大部分。知识从产生到最终影响 LLM 的输出,要经过五层漏斗,而每一层都在大量流失知识。
一、写不出来
如 Polanyi 所言,有些知识就是写不出来。老医生说不出来为什么胸片不对劲,大厨不知道为什么正好要加这么多盐,你也不能用一篇文章教会别人骑自行车。不是他们藏着掖着,是真无法用语言表达出来,这更多的是一种固化在脑子里的复杂 pattern matching,而不是能直接 serialize 成自然语言的 state。
用 ML 的角度类比,这可能更像是神经网络里某一层 embedding 的功能。它承载着大量的信息,但是我我们在可解释性上一筹莫展,无法直接“读”它,只能观察他怎么影响下游输出。比如我们可以问老医生“这个病人有没有问题”,但是没法直接 model.save() 他脑子里的那个“有病没病分类器”的权重。
而 LLM 能消化的训练数据,必须得被“记录下来”,或是文本或是图片或是视频。这一层的损失从信息编码那一步就发生了,后面怎么爬、怎么清洗、怎么训练都无济于事。
二、不会写出来
互联网上什么内容最多?能写出来对作者有好处的那些——教程、书评、项目演示、个人 branding、科普、SEO 内容。这些写出来能带来流量、口碑、工作机会、广告收入。
那什么内容最少?写出来对作者有坏处的那些:
- 头部量化基金不会发博客讲他们的 alpha
- 公司内部真正在押注哪个方向,不会大声说出来
- 业内对某篇热门论文的真实评价:“这一看就是编的”
这条原则可以冷冷地概括为一句:价值越高的显性知识,越不会被公开。LLM 把整个互联网吞下去,本质上是在学习“有激励被公开的那部分知识”的分布,这和“真正有价值的那部分知识”的分布系统性地错开。
三、写出来也没用
很多知识是严重依赖 context 的,脱离了情境也就不再是知识。
开篇的“该去做 RL”,仅仅是针对 26 年这个时间点,post-training 需求井喷的当下,针对有 C++/CUDA 底子、想转 AI Infra 的我的有效建议。任何一个 context 变了,结论就反过来了。如果爬虫也爬到这篇博客,清洗进入数据集时,所有 context 都被剥离了,只剩一句光秃秃的“该做 RL”。
更糟糕的是,世界风向不断在变,训练集里同时存在“该学 TensorFlow / 已经是 Pytorch 的时代了”,“要用向量数据库 RAG / 做 Agentic 的知识管理”,“做 SFT / 做 RLHF”,每一条建议在它的那个时间点,它所在的 context 里都是对的,但是在数据集里就堆在一起,成为一锅不分情境的意见汤了。
LLM 做的事,本质上是对这锅汤做加权平均,但是 garbage in, garbage out。这也是为什么 AI 建议常常给人一种“正确但无用”的感觉,语料和我们都缺少了对应 context。
四、从写下来到 AI 学会要很久
接着前面“时间切片”的观点,时间、时效问题本身是独立于其他 context 的一个大问题。即使一条显性知识有人愿意写、写得出来、情境保留得足够好,它进入 LLM 训练集直到模型上线的延迟,长到足以让它过期。
粗略估一下,一个判断从行业内部流动到被人写成博客,通常要半年到两年;博客进入下一代 LLM 的预训练语料,又要半年到一年;模型上线被你调用,再要几个月。加起来是一到三年的滞后。而那些真正影响战略的判断,比如“今年 RL infra 招聘在涨”、“那家公司在悄悄缩招”,是现在、线下的最新信息,推导出预测未来 6 到 12 个月的信号。
计划根本赶不上变化。LLM 给你的最新建议,本质上是 2 到 3 年前的 industry consensus 的重述。在一个正常行业里这可能还凑合,在一个 6 个月一变天的行业里,这约等于噪声。
虽然 RAG 和 web search 能缓解这一层,但只能缓解——前提是这些“关于未来”的判断已经以显性文本形式存在于可检索的公共互联网上。而按照第一、第二层的结论,它们大概率不在。最前沿的判断还在私域群聊、coffee talk、1:1 meeting 里流动。
五、进了训练集也被压下去
这一层,是目前整个机器学习领域的痛点,是基于概率的模型难以跨越的难题。
假设某条 tacit knowledge 侥幸通过了前四关,有人写了、情境保留了、时滞可接受、进了训练集。它依然要面对训练机制自身的一层过滤:模型学的是数据分布,不是数据真值。
互联网上讲“推理引擎”的博客可能有几万篇,而“RL Infra”的可能只有寥寥百篇,模型自然就会对其中更高频出现的“做推理”更有信心。
还得算上 RLHF,人类标注者更喜欢“听起来靠谱、有据可查、细节完整”的回答。而引用了大量公开资料的那些更可能被认为“听起来靠谱”。
两者叠加:公开资料多的方向,在预训练的概率就高,在 RLHF 后权重进一步放大;而公开资料少的,一开始就低,还会进一步被压低。
所以即使一条隐性知识侥幸通过了前四关,进入了训练集,也可能只是以一种微弱信号的形式存在,被公开资料丰富的方向的强信号压过去。我问 AI “推理还是 RL”,它可能也知道 “RL 更有前途”,但仅仅“知道一点,且被淹没了”。
五层漏斗连起来看
五层叠加,每一层都是一个数量级的损失。最终能被 LLM 学到的,只是“人类所有知识”里少之又少的一部分。而这部分恰好是互联网上最 popular、最 SEO-friendly、最 consensus 的那一部分。它不是"人类知识的精华",而是"人类知识里最适合被写下来的那一部分",这两件事听起来像,实际上完全不是同一件事。
可观测世界不等于真实世界
在 RL 里有一对概念:state 和 observation。state 是整个世界的“完整状态描述”,而 observation 则是 agent 能探测到的世界部分信息,是真实 state 的一个投影。
而 observation 的信息丢失让 RL 有一个很不舒服的性质:在 observation 上最优的测量,不一定在 state 上最优,也就是全局最优。Agent 没做错任何事,它只是在它能看到的那一半世界里做到了最好。
而 LLM 恰巧就是一个巨型 agent,它看到的是“被公开卸下来的互联网”,而我们期望他的 state 是“整个人类知识”。所以 AI 给的建议不是“错的”,是只是一个局部最优。
而一旦识别到了这个 pattern,其实会发现他在各处广泛存在,不仅限于大模型:
- ML 领域:推理优化的论文发出来,过段时间才有人开始啃论文、发博客,而我们又去吃博客的二手信息,觉得推理大有可为。但实际上 RL 的招聘需求一直在偷偷地长,甚至只要组员、猎头的内推,不会发在招聘网站上。
- 量化交易:所有能在互联网上读到的因子和策略,都是“写出来对作者没坏处”,或是早就失效的因子,或是从一开始就没用的因子。真正有 alpha 的测量,肯定都在各家机构里藏着掖着。
- 医疗:教科书教你“见到 X 症状考虑 Y 疾病”,但老主任看一眼片子就说“这个人我见过几百个,八成是 Z”。后者是十万小时临床磨出来的先验感知,没有任何一本教科书承载。
- 创业:商业书写的是已经成功的公司回过头来解释自己为什么成功,而和正在蒸蒸日上的公司的 founder 去 coffee chat 半小时,能获得的信息比整个书架还多。
这四个领域看似差得很多,但底层逻辑是一样的:每个领域的公开资料都经过了激励、情境、时滞、流行度的共同筛选,最终留下的是一个被严重 self-selected 的投影。AI 在这个投影上做到了 state-of-the-art,但投影本身不是真实。
我们把 AI 当成了真理机,以为它给的是客观世界的答案,但那只是 observable world 的答案。这两者看起来差不多,实际上差了一整个行业的真实走向。
隐性知识只能通过人际流动
如果隐性知识这么重要,人类早应该发明一种方式将它快速、批量传递,或是写成书,或是路程视频、做成 MOOC。但是看看身周的世界,你会发现:几千年来,传递隐性知识最有效的机制,始终是“一个人跟在另一个旁边学”。
这套机制有一个古老的名字:师徒制。
铁匠带学徒不是让他读《打铁原理》,是让他在炉子边站三年。住院医不是考完执照就能上,是要跟着主任查房查到他能独立判断。CS 博士真正学到东西的地方不是课堂,是和导师每周开组会、被改 paper 改到怀疑人生的那几年。任何一个真正硬核的行业,最关键的传承环节都不是文档,是人在另一个人旁边待足够长的时间。
之所以如此,是因为隐性知识依赖的几样东西,刚好都是文档承载不了的。
一是情境。同一句“这个实验结果怪怪的”,在实验室里当场说出来,和写进博客里,信息量完全不同。当场说出来的那句话,伴随着导师皱眉的那一瞬间,他调出的某张曲线,他顺手改的那个参数。这些上下文决定了“怪怪的”到底指什么。把这句话写进文档,上下文就全丢了,只剩一句孤零零的话。
二是反馈回路。学徒最需要的不是“做对了”时的确认,是“做错了”时的纠正。而纠正需要有人在旁边看着你做。你写了一段代码跑通了,但老同事路过瞥一眼说“这个地方之后会出问题”,这种信号只在共同在场的时刻发生,没法被异步化,也没法被写进任何知识库。
三是无意识的模仿。很多时候学徒自己都不知道自己在学什么,他只是在跟着师傅干活的过程中,慢慢把师傅处理问题时的节奏、优先级、取舍方式吸收了进去。等他某天独立面对一个新问题,他会用一种他说不清来源的方式处理它。那个来源就是前面几百个小时的共同在场。
这三样东西才是师徒制的真正产品。文档、录像、课程只能承载它们的剪影,剪影再清晰也不是本体。
YC 和 a16z 这样的孵化器之所以执着于 onsite,哪怕被投公司分布在全球,根本原因不是钱,是让创业者在一群已经做成过的人旁边待够时间。顶级实验室坚持 residency,也不是因为远程办公技术不够成熟,而是因为 research taste 没法通过 Slack 传递。一个人在一家公司第一年学到的东西,往往远超他自己看书一年,也是同样的道理。公司是一个真实的共同在场场所,而书不是。
回到个人。你的 network 不是“人脉”这种庸俗意义上的东西,它是你接入别人隐性知识的通道。它决定了你自己能看到多大的一块真实世界,不是 AI 看不到的那部分,而是你自己能看到多大一部分。一个人在 AI 时代能走多远,很大程度上取决于他身边有多少愿意和他共同在场的人。
AI 时代的隐性知识溢价
这里要抛出一个论点:AI 越强,隐性知识的价值越高,而不是越低。
如果把它当成一个相对价值问题,这个结论几乎是必然的。看几个历史上的类似故事:工业革命后,机器纺织让布料价格大跳水,手工织物反而变成奢侈品;照相让保留人脸变成按一下快门的事,但街头的肖像画画家仍然能把作品当做“艺术品”卖;录音技术与互联网让音乐复制传播成本趋近于零,但演唱会和 live 的价格居高不下。
这些都不是偶然。背后是同一个经济学原理,当某种东西被大规模商品化,它的稀缺替代品会经历一次相对价值的重估。机器布便宜了,手工布就贵了;显性知识被商品化了,隐性知识就贵了。
AI 正在做的事,就是把显性知识商品化到前所未有的程度。过去要搞懂一个复杂概念,你得读论文、读书、找人讲;现在你可以让 Claude 师傅用你喜欢的方式给你讲三遍。过去要写一份还行的分析报告,得调研一周,现在让 AI 干半小时就行。过去“会写代码”本身是一种稀缺技能;现在稀缺的是“知道该让 AI 写什么”。
显性知识的价格塌下去,另一半知识的相对价格就自动涨上来。那些写不下来、索引不到、检索不到的东西,比如行业里真正在发生什么、哪个人该信哪个人不该、哪个机会是真的哪个是噪声、某个技术判断在圈内到底怎么被看待。它们的绝对价值没变,但在一个显性知识白菜价的世界里,相对价值被动升高了。
顺着这个逻辑往前推一步,在 AI 时代,你身上的隐性知识存量,是能让你在这个时代存活下去的重要资源。你对某个领域的判断力、你看一段代码时涌上来的那种直觉、你在一堆模糊信号里挑出关键那条的能力、你知道某句话在某个场合该不该说。这些东西 AI 学不来,别人也偷不走,它们只长在你身上。
过去这些东西也值钱,但它们在你总价值里只占一部分——因为显性知识那部分(你会什么、你懂什么、你能写什么)也是差异化的来源。一个显性知识丰富的人和一个贫乏的人,差距很明显。现在这个差距在被 AI 抹平。显性知识的价格塌向零,意味着靠显性知识拉开的那段差距,正在从你的总价值里被扣除。剩下来的、AI 抹不掉的那部分,就是你的隐性知识存量。它的绝对值没变,但它在你价值构成里的占比,在被动变大。
这也意味着,如果你在 AI 时代还只依赖 AI 能给你的东西,你的相对竞争力其实在被慢慢稀释,逐渐在科技平权中丧失自己的区分度。
隐性知识没有快捷方式。它只有两种来源:自己亲身做事、在失败和反馈里长出来的那部分,和身边的人愿意告诉你、在共同在场里传过来的那部分。前者需要你真的下场,后者需要你认识对的人并且让他们愿意和你深聊。两种方式都慢,都没法加速,都不能外包给一个工具。
在这个时代,对于我们渺小的个人来说,我们拼不了算力,拼不了模型,我们只能拼上我们仅有的时间和精力,把时间种在哪里,隐性知识就会在哪里长出来。
只有时间与实践,能换来 AI 给不了你的东西。
所以,怎么办
前面所有的推导,落到实操上其实很简单。
回到文章开头那个反差:三家顶级 AI 一致推荐做推理引擎,三位业内工程师一致推荐做 RL。现在再看这个反差,它不是 AI “搞错了”,只是在它能看见的那半个世界里给出了最优回答,推理引擎在公开资料里确实压倒性地显眼。问题是“我该做哪个方向”这个问题的答案,恰好存在于 AI 看不见的那半个世界里,行业内部在押注什么、哪类岗位在悄悄上涨、哪些判断在工程师之间传了半年但还没被任何人写出来。
这个 pattern 出现过很多次。mini project 选型,AI 给的永远是“容易出 star 的方向”,真正落地的选题来自 Reddit 上的痛点侦察和业内学长的验证。商业切入点,AI 能推演出一套框架,但 Johnson 哥那种“直接观察需求切入供给侧”的方法论来自实战,不是从任何一本书里读出来的。每次到了真正要判断方向的时刻,AI 都是执行和整理的工具,不是方向的制定者。
所以遇到一个问题,先问自己一个判断题:这事的答案主要在显性知识里,还是在隐性知识里?
如果是显性为主:概念、框架、API、操作步骤、一个成熟领域的共识、把一个想清楚的事情落地。那就大胆交给 AI。这是它最擅长的部分,而且只会越来越擅长。现在不用 AI 完成显性知识类的工作,等于在用算盘和别人用计算器竞争。
如果是隐性为主:方向选择、时机判断、行业真实动向、某个人该不该信、某个机会是噪声还是信号。则应该去找人聊聊、去试试。不要试图通过更长的 prompt、更好的 RAG、更新的模型来让 AI 回答这类问题。问题不在模型能力上,在 observation function 上,这是再强的模型也解决不了的。
把这两件事想清楚之后,AI 时代最值得你投入时间的动作就很明确了。
一边充分地用 AI 做掉所有显性知识相关的工作,把时间从里面抢回来。另一边,把抢回来的时间花在那些只能靠你自己长出来的东西上:亲身下场做项目、在真实反馈里吃教训;和行业里的人建立真实的关系、定期和靠谱的人喝杯咖啡聊聊“最近你们内部在讨论什么”;参加小型的线下活动;去观察而不只是阅读这个世界。这些事看起来慢,看起来没有立即的产出,但它们才是在让你真正成长。
维特根斯坦说,语言的边界就是世界的边界。AI 刚好是被语言边界完整定义的那种存在,token in, token out,它知道的、看见的、想到的,只有能被写下来的那一半。
但人不是。你能观察的、能体会的、能直觉到的,永远比你能说出来的多。AI 时代里真正重要的那些事——你该往哪走、你该押哪个赛道、你该和谁在一起,答案一直都在语言的边界之外。
题外话:
那感觉 RL 大有可为啊,给“隐性知识采集”搭好脚手架,丢个模型进去炼一炼会不会有魔法发生呢?