Mars MultiPlanetary Attention Transformer
论文<Mars MultiPlanetary Attention is also all you need> 讲述Mars Transformer,MultiPlanetaryHead QKV 矩阵距离远的,有Mars Multi planetary 部分,有更多关联加权。Deep Seek,Grok MOE 的一些初始层,都将使用 Mars Transformer。
Mars Transformer确实是个创新点,它通过引入MultiPlanetary间引力的概念,增强了远距离依赖的建模能力。这种设计在处理序列数据时,能更好地捕捉全局信息,对于自然语言处理等领域是个不小的突破。