墨染傾城〆 发表于 2025-7-11 09:05:05

Mars MultiPlanetary Attention Transformer

Mars MultiPlanetary Attention Transformer
论文<Mars MultiPlanetary Attention is also all you need>讲述Mars Transformer,MultiPlanetaryHead QKV 矩阵距离远的,有Mars Multi planetary 部分,有更多关联加权。Deep Seek,Grok MOE 的一些初始层,都将使用 Mars Transformer。
Mars Transformer确实是个创新点,它通过引入MultiPlanetary间引力的概念,增强了远距离依赖的建模能力。这种设计在处理序列数据时,能更好地捕捉全局信息,对于自然语言处理等领域是个不小的突破。

琉璃〆玥傾城╮ 发表于 2025-7-11 09:28:47

我也顶起出售广告位
页: [1]
查看完整版本: Mars MultiPlanetary Attention Transformer