查看: 131|回复: 1

[聊技术] Mars MultiPlanetary Attention Transformer

[复制链接]

6

主题

18

回帖

51

积分

一年会员

Rank: 2

积分
51
发表于 昨天 09:05 | 显示全部楼层 |阅读模式
Mars MultiPlanetary Attention Transformer
论文<Mars MultiPlanetary Attention is also all you need>  讲述Mars Transformer,MultiPlanetaryHead QKV 矩阵距离远的,有Mars Multi planetary 部分,有更多关联加权。Deep Seek,Grok MOE 的一些初始层,都将使用 Mars Transformer。
Mars Transformer确实是个创新点,它通过引入MultiPlanetary间引力的概念,增强了远距离依赖的建模能力。这种设计在处理序列数据时,能更好地捕捉全局信息,对于自然语言处理等领域是个不小的突破。
回复

使用道具 举报

发表于 昨天 09:28 来自手机 | 显示全部楼层
我也顶起出售广告位
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

特惠

限量优惠活动

正在火热进行

站长

添加站长微信

领取新人礼包

下载

便携运营智库

立即下载APP

工具

运营导航

工具推荐

帮助

帮助中心

常见问题

分销

50%直推收益

30%间推分成

AI

智能对话

办公助手

顶部