研究人員推出xLSTM神經(jīng)網(wǎng)絡(luò)AI架構(gòu) 并行化處理Token
- 來源:IT之家
- 作者:3DM整理
- 編輯:方形的圓
IT之家今日(5月13日)消息,研究人員Sepp Hochreiter和Jürgen Schmidhuber在1997年共同提出了長短期記憶(Long short-term memory,LSTM)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),可用來解決循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)長期記憶能力不足的問題。
而最近Sepp Hochreiter在arXiv上發(fā)布論文,提出了一種名為 xLSTM(Extended LSTM)的新架構(gòu),號稱可以解決LSTM長期以來“只能按照時序處理信息”的“最大痛點”,從而“迎戰(zhàn)”目前廣受歡迎的Transformer架構(gòu)。
據(jù)悉,Sepp Hochreiter在新的xLSTM架構(gòu)中采用了指數(shù)型門控循環(huán)網(wǎng)絡(luò),同時為神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)引入了“sLSTM”和“mLSTM”兩項記憶規(guī)則,從而允許相關(guān)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)能夠有效地利用RAM,實現(xiàn)類Transformer“可同時對所有Token進行處理”的并行化操作。
團隊使用了150億個Token訓(xùn)練基于xLSTM及Transformer架構(gòu)的兩款模型進行測試,在評估后發(fā)現(xiàn)xLSTM表現(xiàn)最好,尤其在“語言能力”方面最為突出,據(jù)此研究人員認為xLSTM未來有望能夠與Transformer進行“一戰(zhàn)”。

玩家點評 (0人參與,0條評論)
熱門評論
全部評論