用长期记忆增强语言模型

提出了一种名为LongMem的语言模型增强长期记忆的框架,可以使大型语言模型记忆长期历史,并利用长期记忆进行语言建模。LongMem采用了一种新颖的解耦网络结构,将原始骨干语言模型冻结为记忆编码器,并使用自适应残差侧网络作为记忆检索器和读取器。实验结果表明,该方法在长期上下文建模基准测试中优于强长期上下文模型,并在记忆增强的上下文学习上取得了显着的改进。该方法对于帮助语言模型记忆和利用长期内容是有效的。

333b5a63595648f887defe1ff154a7ac_2076989541495611392

未经允许不得转载:表盘吧 » 用长期记忆增强语言模型