深圳新聞網(wǎng)2026年3月19日訊(深圳特區(qū)報記者 陳震霖)3月16日晚,埃隆·馬斯克在社交平臺發(fā)文稱,Kimi這項(xiàng)工作“令人印象深刻”,將中國人工智能公司“月之暗面”Kimi團(tuán)隊(duì)一項(xiàng)新近公開的技術(shù)成果帶入更多公眾視野。
隨后,這篇同日發(fā)布的Kimi技術(shù)論文中,排在作者名單第一位的“Guangyu Chen”,因其“17歲高中生”的身份引發(fā)關(guān)注。記者獨(dú)家聯(lián)系核實(shí)得知,這位作者即陳廣宇,來自深圳,目前仍是一名在讀高中生。陳廣宇在接受記者采訪時表示,希望外界少寫個人,更多關(guān)注團(tuán)隊(duì)共同攻關(guān)的大模型底層技術(shù)。
公開論文附錄顯示,Guangyu Chen、Yu Zhang、Jianlin Su前三位作者均被標(biāo)注為“同等貢獻(xiàn)”,其余34位作者姓名后均未見這一標(biāo)注。與陳廣宇并列共同一作的是張宇和蘇劍林,前者是Kimi高效模型架構(gòu)的重要研究者,后者提出的旋轉(zhuǎn)位置編碼(RoPE)已成為主流大模型廣泛采用的位置編碼方法之一。
這項(xiàng)成果受到關(guān)注,不只因?yàn)樽髡呙麊沃谐霈F(xiàn)了一名高中生,更因?yàn)樗|及了大模型一項(xiàng)長期沿用的底層機(jī)制。今天主流大模型大多建立在Transformer架構(gòu)上??梢哉f,沒有2017年提出的Transformer,就很難有后來這一輪生成式人工智能的快速發(fā)展。但模型層與層之間的信息傳遞,長期仍沿用較固定的老辦法。
過去常用的方法叫“殘差連接”,即模型每算完一層,就把前面的信息繼續(xù)疊加到下一層。這樣做簡單有效,但層數(shù)增加后,前面一些重要信息可能在反復(fù)疊加中被稀釋。Kimi團(tuán)隊(duì)此次提出的“注意力殘差”(Attention Residuals),試圖改進(jìn)這一問題,不再讓每一層無差別接收前面所有層的信息,而是根據(jù)當(dāng)前需要,有選擇地調(diào)取更值得參考的內(nèi)容。
根據(jù)論文和項(xiàng)目公開信息,這一方法已在Kimi Linear 48B模型上完成驗(yàn)證,在相近效果下訓(xùn)練計算量可減少約20%,相當(dāng)于約1.25倍效率優(yōu)勢,推理延遲增加不到2%,可直接替換標(biāo)準(zhǔn)殘差連接。這項(xiàng)研究表明,主流大模型長期沿用的層間信息傳遞方式,并非沒有優(yōu)化余地。
陳廣宇真正深入接觸人工智能研究,是近一年的事。起步階段,他通過研讀論文、追蹤GitHub開源項(xiàng)目等方式補(bǔ)上基礎(chǔ)認(rèn)知。去年暑假期間,他曾赴舊金山實(shí)習(xí)7周,回國后于11月到Kimi團(tuán)隊(duì)實(shí)習(xí)。論文發(fā)布后,他在朋友圈發(fā)文回顧,提到同等貢獻(xiàn)作者及從事模型擴(kuò)展與基礎(chǔ)設(shè)施工作的同事,稱這項(xiàng)成果離不開每個人的投入。