姚期智团队开源TPA新型注意力机制:节省90%内存且性能无损,统一MHAMQAGQA框架
发布时间:2025-01-16 21:40:12来源:
姚期智院士团队打造了新型注意力机制TPA,通过动态张量分解,节省90%或更多的内存而不牺牲性能。论文证明MHA、MQA、GQA都是TPA的特例,并用一个框架统一了现代注意力设计。新模型T6的代码已在GitHub开源。
此外,TPA还与RoPE位置编码无缝集成,实现低成本旋转分解KV。在实验中,TPA在多个基准测试中表现优异。该论文由清华&上海期智研究员团队、UCLA顾全全团队合作完成,开源代码和论文地址已提供。
免责声明:本答案或内容为用户上传,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 如遇侵权请及时联系本站删除。