LLM技术史上的灵感

人亦已歌 · 发表于 2025-7-1 11:09:39

一、深度学习中的结构与表征
1. 词向量：词即上下文，上下文相同的词即相同的词（这体现了结构主义的思想吗？）
2. Next token prediction：逐词联想即智能。和输入法的逐词联想一样，只是很智能。
3. RNN：将历史上文抽象为一个表征，与当前输入共同决定输出。
4. Attention QKV：延后决策。对相关词的判断。RNN相当于是被要求去未卜先知的选择将哪些信息压入隐表征中。而Transformer在遇到新词时才需要找到旧的相关词。举个例子，RNN相当于有一个固定页数的笔记本，遇到新信息则需要划掉一些旧的记录，但他其实也没法确定什么信息可以划掉，哪些信息需要记录，只能凭感觉。Transformer则相当于有无限大的笔记本，在遇到新信息时只需查看哪些旧信息与当前有关，代价则是o(n2)的复杂度。
5. Transformer的多层结构和词意注入。每个词的词意（v）受到相关词的影响（qk之后v的混合），比如摩尔这个词，如果其attention到附近有化学名词，和attention到“摩尔庄园”这个词，其词向量表征会进行修正，并携带上下文信息。多层结构后，最后一个空位携带了全部信息，以至于最后的<EOS>可以预测下一个词。
二、Chatbot改进
1. RAG与向量数据库，相当于文本际上扮演Transformer
2. <think> <response> 来实现cot，配合verifier和rl
3. json模式
4. 定期整理摘要，“扮演RNN”以缓解上下文窗口限制
5. 预训练-指令微调-强化学习三阶段
6. function calling
三、agent
1. 多智能体，分割信息，以减小上下文与系统提示词开销。
2. planning-memory-action这一三分类模型
3. 各种memory，planning和action的具体实现

通幽采薇 · 发表于 2025-7-1 11:48:49

[聊技术] LLM技术史上的灵感