
Written by 研究員10/07/2024
TTT:一种新型的语言模型架构 能处理更长文本 性能优于Transformer模型
Ai資訊 Article

测试时间训练(Test-Time Training, TTT)是由斯坦福大学、加州大学和Meta AI共同研究的一种新型的语言模型(LLM)架构,这种模型可以处理更长的文本内容,性能优于现有的Mamba和Transformer模型。
传统的RNN(循环神经网络)在处理长文本时表现不佳,而自注意力机制(如Transformer)尽管表现优秀,但计算复杂度较高。TTT通过在测试时动态调整模型的内部状态来解决这些问题。
Support authors and subscribe to content
This is premium stuff. Subscribe to read the entire article.
Login if you have purchased
閲讀原文
Author: 小互
You may also like
Written by 研究員
研究一下自己。