查看: 95|回复: 1

[聊技术] LLM技术史上的灵感

[复制链接]

5

主题

19

回帖

44

积分

新手上路

Rank: 1

积分
44
发表于 昨天 11:09 | 显示全部楼层 |阅读模式
一、深度学习中的结构与表征
1. 词向量:词即上下文,上下文相同的词即相同的词(这体现了结构主义的思想吗?)
2. Next token prediction:逐词联想即智能。和输入法的逐词联想一样,只是很智能。
3. RNN:将历史上文抽象为一个表征,与当前输入共同决定输出。
4. Attention QKV:延后决策。对相关词的判断。RNN相当于是被要求去未卜先知的选择将哪些信息压入隐表征中。而Transformer在遇到新词时才需要找到旧的相关词。举个例子,RNN相当于有一个固定页数的笔记本,遇到新信息则需要划掉一些旧的记录,但他其实也没法确定什么信息可以划掉,哪些信息需要记录,只能凭感觉。Transformer则相当于有无限大的笔记本,在遇到新信息时只需查看哪些旧信息与当前有关,代价则是o(n2)的复杂度。
5. Transformer的多层结构和词意注入。每个词的词意(v)受到相关词的影响(qk之后v的混合),比如摩尔这个词,如果其attention到附近有化学名词,和attention到“摩尔庄园”这个词,其词向量表征会进行修正,并携带上下文信息。多层结构后,最后一个空位携带了全部信息,以至于最后的<EOS>可以预测下一个词。
二、Chatbot改进
1. RAG与向量数据库,相当于文本际上扮演Transformer
2. <think> <response> 来实现cot,配合verifier和rl
3. json模式
4. 定期整理摘要,“扮演RNN”以缓解上下文窗口限制
5. 预训练-指令微调-强化学习三阶段
6. function calling
三、agent
1. 多智能体,分割信息,以减小上下文与系统提示词开销。
2. planning-memory-action这一三分类模型
3. 各种memory,planning和action的具体实现
回复

使用道具 举报

5

主题

19

回帖

48

积分

新手上路

Rank: 1

积分
48
发表于 昨天 11:48 | 显示全部楼层
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

特惠

限量优惠活动

正在火热进行

站长

添加站长微信

领取新人礼包

下载

便携运营智库

立即下载APP

工具

运营导航

工具推荐

帮助

帮助中心

常见问题

分销

50%直推收益

30%间推分成

AI

智能对话

办公助手

顶部