報(bào)告題目:大模型的極限理論:解讀智能涌現(xiàn)現(xiàn)象
報(bào)告人:徐宗本 中國(guó)科學(xué)院院士 西安交通大學(xué)教授
報(bào)告時(shí)間:2025年9月15日(星期一)下午14:45-15:30
報(bào)告地點(diǎn):湘潭大學(xué)數(shù)學(xué)與計(jì)算科學(xué)學(xué)院負(fù)一樓學(xué)術(shù)報(bào)告廳
報(bào)告摘要:以大模型為特征的生成式人工智能近年來(lái)迅猛發(fā)展,正深刻影響并變革著科學(xué)技術(shù)的研究范式與工業(yè)革命進(jìn)程。按照流行的認(rèn)識(shí),大模型的能力之所以強(qiáng)大源自它可能存在的智能涌現(xiàn)(Intelligent Emergence)。然而,什么是智能涌現(xiàn)?是什么要素摧生了智能涌現(xiàn)?大模型在什么情況下才會(huì)出現(xiàn)智能涌現(xiàn)?對(duì)這些問(wèn)題充滿(mǎn)著疑惑和爭(zhēng)論。本報(bào)告提出一個(gè)數(shù)學(xué)框架和數(shù)學(xué)理論來(lái)對(duì)此加以解析。我們的核心思想是: 利用三元隨機(jī)函數(shù)?(N, P, ??)來(lái)度量大模型泛化性,利用 ?(N, P, ??)的極限行為/極限速度 (N→∞, P→∞, ??→0)來(lái)度量大模型的尺度變化律(Scaling Law),并以此為基礎(chǔ)來(lái)解譯智能涌現(xiàn),這里N 是用以訓(xùn)練大模型的數(shù)據(jù)規(guī)模,P是模型尺寸(包含參數(shù)個(gè)數(shù)),??是訓(xùn)練損失達(dá)到極小的程度。我們定義“極限架構(gòu)”這一無(wú)窮維系統(tǒng)概念,說(shuō)明大模型智能涌現(xiàn)的新特征/新行為即是該極限架構(gòu)的特征和行為(其泛化能力由?(∞, ∞,0)度量)。我們提出?(N, P, ??)- ?(∞, ∞,0)的標(biāo)準(zhǔn)誤差分解,并應(yīng)用隨機(jī)逼近工具、非線(xiàn)性Lipschitz算子工具,無(wú)限維Bayes估計(jì)工具來(lái)對(duì)這些誤差進(jìn)行估計(jì)。最終,我們獲得了大模型泛化誤差的如下極限速度估計(jì):
∣?(N, P, ??)- ?(∞, ∞,0)
其中,
(隨
趨于無(wú)窮趨于
),
分別是大模型基塊的Lip數(shù)和Dahlquits數(shù),
是真解的光滑性程度,
是與網(wǎng)絡(luò)架構(gòu)組裝方式相關(guān)的常數(shù),
是數(shù)據(jù)的維數(shù)。
根據(jù)這一估計(jì),我們發(fā)現(xiàn): 1)大模型泛化性能與模型規(guī)模的尺度率在亞指數(shù)率與指數(shù)律之間;2)大模型泛化性能與訓(xùn)練數(shù)據(jù)規(guī)模的尺度率為亞指數(shù)率;3)當(dāng)大模型的權(quán)值最優(yōu)設(shè)定,而且其基塊滿(mǎn)足
或
時(shí),模型規(guī)模、訓(xùn)練數(shù)據(jù)規(guī)模趨于無(wú)窮將導(dǎo)致大模型出現(xiàn)智能涌現(xiàn)。
對(duì)于線(xiàn)性大模型情形,我們進(jìn)而應(yīng)用大維隨機(jī)矩陣?yán)碚撛敿?xì)刻畫(huà)了大模型的極限行為,導(dǎo)出了模型尺寸與訓(xùn)練數(shù)據(jù)規(guī)模的最優(yōu)配置律,展現(xiàn)了大模型完全不同于小模型的統(tǒng)計(jì)學(xué)習(xí)規(guī)律。
報(bào)告人簡(jiǎn)介:
徐宗本,中國(guó)科學(xué)院院士,鵬城國(guó)家實(shí)驗(yàn)室廣州基地/琶洲實(shí)驗(yàn)室(黃埔)主任、陜西國(guó)家應(yīng)用數(shù)學(xué)中心主任、大數(shù)據(jù)算法與分析技術(shù)國(guó)家工程實(shí)驗(yàn)室主任,西安交通大學(xué)教授。主要從事智能信息處理、機(jī)器學(xué)習(xí)、數(shù)據(jù)建模基礎(chǔ)理論研究。提出稀疏信息處理的L(1/2)正則化理論,為稀疏微波成像提供了重要基礎(chǔ);發(fā)現(xiàn)并證明機(jī)器學(xué)習(xí)的“徐-羅奇”定理,解決了神經(jīng)網(wǎng)絡(luò)與模擬演化計(jì)算中的一些困難問(wèn)題,為非歐氏框架下機(jī)器學(xué)習(xí)與非線(xiàn)性分析提供了普遍的數(shù)量推演準(zhǔn)則; 提出基于視覺(jué)認(rèn)知的數(shù)據(jù)建模新原理與新方法,形成了聚類(lèi)分析、判別分析、隱變量分析等系列數(shù)據(jù)挖掘核心算法,并廣泛應(yīng)用于科學(xué)與工程領(lǐng)域。曾獲國(guó)家自然科學(xué)二等獎(jiǎng)、國(guó)家科技進(jìn)步二等獎(jiǎng)、陜西省最高科技獎(jiǎng)、國(guó)際IAITQM 理查德·普萊斯(Richard Price)數(shù)據(jù)科學(xué)獎(jiǎng)、中國(guó)陳嘉庚信息技術(shù)科學(xué)獎(jiǎng)、華羅庚數(shù)學(xué)獎(jiǎng)、蘇步青應(yīng)用數(shù)學(xué)獎(jiǎng)、吳文俊人工智能最高科技成就獎(jiǎng)等,在2010年世界數(shù)學(xué)家大會(huì)上作45分鐘特邀報(bào)告。
湖南韶峰應(yīng)用數(shù)學(xué)研究院
湖南國(guó)家應(yīng)用數(shù)學(xué)中心
到家集團(tuán)
湘潭大學(xué)數(shù)學(xué)與計(jì)算科學(xué)學(xué)院
湖南省數(shù)學(xué)學(xué)會(huì)
湘潭國(guó)家高新技術(shù)產(chǎn)業(yè)開(kāi)發(fā)區(qū)
湘潭市大數(shù)據(jù)和產(chǎn)業(yè)創(chuàng)新發(fā)展中心
“智能計(jì)算與信息處理”教育部重點(diǎn)實(shí)驗(yàn)室
“科學(xué)工程計(jì)算與數(shù)值仿真”湖南省重點(diǎn)實(shí)驗(yàn)室
“計(jì)算科學(xué)”湖南省科技創(chuàng)新國(guó)際合作基地