Written by 研究員18/06/2024
加州大学研发出新的 Transformer 架构 显著减少大模型对GPU的依赖
Ai資訊 Article
矩阵乘法(MatMul)是使用Transformer架构的大语言模型(LLM)中最耗费计算资源的操作,需要大量的GPU集群。随着LLM规模的扩大,MatMul的成本显著增加,从而导致训练和推理时的内存使用和延迟增加。
加利福尼亚大学圣克鲁兹分校(University of California, Santa Cruz)、苏州大学(Soochow University)和加利福尼亚大学戴维斯分校(University of California, Davis)的研究人员开发了一种新颖的架构,该架构完全消除了语言模型中的矩阵乘法,在保持高性能的同时显著减少了内存使用。
Support authors and subscribe to content
This is premium stuff. Subscribe to read the entire article.
Login if you have purchased
閲讀原文
Author: 小互
You may also like

Written by 研究員
研究一下自己。