【摘要】當(dāng)前,大模型的發(fā)展速度日益加快,且其發(fā)展的道路和方向已成為人工智能發(fā)展的重要命題。如何讓機(jī)器具有智力,成為人類自身發(fā)展的好伙伴、好幫手,是大模型發(fā)展面臨的新挑戰(zhàn)。我們認(rèn)為,未來(lái)大模型將從表述內(nèi)容的“搜索范式”進(jìn)化到闡述論證觀點(diǎn)的“價(jià)值范式”,建立自己的價(jià)值觀。在這樣的價(jià)值范式下,機(jī)器的人性化不斷增強(qiáng),創(chuàng)造力得到進(jìn)一步發(fā)展,從而使幻思的能力成為合乎世界模型的有意義的創(chuàng)造,最終推動(dòng)大模型步入“創(chuàng)造范式”,使人與機(jī)器的共生、共存、共創(chuàng)成為可能,形成嶄新的社會(huì)形態(tài)。為此,我們需要建構(gòu)面向未來(lái)的技術(shù)理想,對(duì)人工智能的發(fā)展及其推動(dòng)人類發(fā)展進(jìn)步的前景充滿信心,不畏試錯(cuò)、大膽創(chuàng)新,走出一條我們自己的大模型道路。
【關(guān)鍵詞】人工智能 大模型 搜索范式 價(jià)值范式 創(chuàng)造范式 擴(kuò)展律
【中圖分類號(hào)】TP18 【文獻(xiàn)標(biāo)識(shí)碼】A
【DOI】10.16619/j.cnki.rmltxsqy.2024.13.002
【作者簡(jiǎn)介】郭毅可,香港科技大學(xué)首席副校長(zhǎng)、英國(guó)皇家工程院院士、歐洲科學(xué)院院士、香港工程科學(xué)院院士,2023年“吳文俊人工智能杰出貢獻(xiàn)獎(jiǎng)”獲得者。研究方向?yàn)闄C(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘、數(shù)據(jù)科學(xué)工作流程、機(jī)器學(xué)習(xí)算法及醫(yī)學(xué)大數(shù)據(jù)分析系統(tǒng)。主要著作有《人工智能與未來(lái)社會(huì)發(fā)展》(主編)等。
如果大模型是一個(gè)答案,那么什么是問(wèn)題
說(shuō)到大模型,一個(gè)簡(jiǎn)單的理解就是把巨量的信息(如互聯(lián)網(wǎng)上所有的文字)壓縮(即編碼),在這個(gè)壓縮的空間里形成一個(gè)采樣機(jī)制,它可以根據(jù)需要(如回答一個(gè)問(wèn)題)選擇一些壓縮的信息,把它復(fù)原(即譯碼)以生成新的內(nèi)容(如對(duì)問(wèn)題的回答),也就是說(shuō)模型的終極目標(biāo)是壓縮輸入空間的信息,形成模型,使其可以重構(gòu)并恢復(fù)原來(lái)的輸入空間。對(duì)于語(yǔ)言而言,重構(gòu)生成策略是“文字接龍”,即通過(guò)前一個(gè)詞預(yù)測(cè)下一個(gè)詞的方法生成句子。這樣的稱為自回歸的預(yù)測(cè)基于“注意力”(attention)的方法來(lái)計(jì)算詞與詞的所有相關(guān)性,并用它來(lái)判斷一個(gè)詞和后一個(gè)詞的生成。這個(gè)看似簡(jiǎn)單的方法,成就了ChatGPT革命性的突破!
大模型在語(yǔ)言上的成就也擴(kuò)展到了其他的模態(tài),如音樂(lè)、視頻都能夠以同樣的方法生成。在圖像方面,擴(kuò)散模型通過(guò)對(duì)圖像進(jìn)行壓縮編碼來(lái)提取抽象圖像的特征,并通過(guò)譯碼在壓縮的空間中基于不同特征的組合,形成新的圖像。在生成的過(guò)程中,對(duì)于圖像元素之間相關(guān)關(guān)系的估計(jì),使得生成的圖像符合邏輯、具有意義。
這一原理并不復(fù)雜,而以這樣簡(jiǎn)單的原理去實(shí)現(xiàn)一個(gè)機(jī)器的語(yǔ)言模型,使機(jī)器可以與人一樣進(jìn)行交流對(duì)話,卻具有劃時(shí)代的意義。
這種方法之所以能夠成功,緣于今天我們可以有驚人的算力去處理天下所有的數(shù)據(jù)。今天的計(jì)算機(jī)可以讀遍世界上所有的文字,把它壓縮成一個(gè)萬(wàn)億參數(shù)的模型,這是一個(gè)偉大的成就。而這樣的模型可以從海量的文字里面,總結(jié)出所有詞與詞的關(guān)系,更是一種不可思議的能力。
機(jī)器走到今天,具有了與人相近的語(yǔ)言能力,用專業(yè)的話說(shuō)就是機(jī)器具有了與人相近的語(yǔ)言模型,這已經(jīng)是不爭(zhēng)的事實(shí)。機(jī)器可以如人般回答問(wèn)題,讓人從回答中分辨不出機(jī)器和人,也就是說(shuō)今天的計(jì)算機(jī)通過(guò)了當(dāng)年圖靈為回答“機(jī)器能思維嗎”這個(gè)問(wèn)題而設(shè)計(jì)的“圖靈測(cè)試”。人工智能進(jìn)入了“后圖靈時(shí)代”。
今天我們都在做大模型,有開(kāi)源的、閉源的,有語(yǔ)言的,還有各種其他模態(tài)的。在大模型的追逐中有一套測(cè)試標(biāo)準(zhǔn),如同人的智商測(cè)試,大家都在以這樣的測(cè)試來(lái)衡量模型的水平,追求一個(gè)SOTA(即目前的最好結(jié)果)。仿佛人工智能的發(fā)展已經(jīng)找到了一個(gè)答案、一個(gè)萬(wàn)能的方法,剩下的工作就是用更多的數(shù)據(jù)、更強(qiáng)的算力把模型做得更大。
強(qiáng)化學(xué)習(xí)的鼻祖薩頓(Richard Sutton)2019年發(fā)表了一篇博文——《苦澀的教訓(xùn)》(The Bitter Lesson),指出在人工智能研究中如能找到一個(gè)通用的方法,利用大算力不斷拓展其能力,往往是最有效的研究途徑。這篇博文被廣泛引用,被稱之為人工智能學(xué)者必學(xué)的材料,這個(gè)論斷也被稱之為“擴(kuò)展律”(Scaling Law)。從這個(gè)論斷出發(fā),大模型的發(fā)展主要是依賴大算力和大數(shù)據(jù),這也是目前大家普遍遵循的一條技術(shù)路線。
然而,我們真的已經(jīng)為人工智能的發(fā)展找到了大模型這樣一個(gè)完美的答案了嗎?我們知道,科學(xué)發(fā)展每一個(gè)階段、每一個(gè)里程碑的完成都不只是給出一個(gè)答案,而是提出一系列新的問(wèn)題,這些新的問(wèn)題恰恰是科學(xué)繼續(xù)發(fā)展的內(nèi)在推動(dòng)力。那么,大模型時(shí)代,提出的問(wèn)題又是什么呢?
作為投資者,他們關(guān)心的問(wèn)題是大模型的價(jià)值到底是什么?如何實(shí)現(xiàn)它的商業(yè)利益?作為哲學(xué)家,他們關(guān)心的問(wèn)題是機(jī)器思維和人類思維之間的異同以及由此帶來(lái)的與社會(huì)發(fā)展的關(guān)系。哲學(xué)家維特根斯坦說(shuō)過(guò),語(yǔ)言確定了思維的邊界。也就是說(shuō)今天的機(jī)器有了語(yǔ)言,所以它不僅有了思維的表達(dá),也有了思維的能力,那么,這樣的能力將如何進(jìn)化,其發(fā)展對(duì)人類和社會(huì)又有多大的沖擊和影響?這是人工智能發(fā)展與治理需要思考的大問(wèn)題。作為計(jì)算機(jī)科學(xué)家,在為技術(shù)不斷進(jìn)步而驚喜的時(shí)候,我們也在總結(jié)過(guò)去的經(jīng)驗(yàn)和探索未來(lái)的方向。今天大模型給出的并不是一個(gè)答案,而是一系列新的問(wèn)題——讓機(jī)器具有智力,成為人類自身發(fā)展的好伙伴、好幫手是一個(gè)漫長(zhǎng)的征程。對(duì)這些新問(wèn)題的理解和思考有助于我們規(guī)劃好研究的方向,避免人云亦云、重復(fù)勞動(dòng),從而有效地進(jìn)行創(chuàng)新。下面,筆者將從算力、算料(數(shù)據(jù))和算法三要素的角度來(lái)談一些看法。
關(guān)于算力
大模型的訓(xùn)練需要巨大的算力。據(jù)稱GPT-3模型訓(xùn)練使用了128臺(tái)英偉達(dá)A100服務(wù)器(訓(xùn)練34天),對(duì)應(yīng)640P算力;GPT-4模型訓(xùn)練使用了3125臺(tái)英偉達(dá)A100服務(wù)器(訓(xùn)練90~100天),對(duì)應(yīng)15625P算力。從GPT-3到GPT-4模型,參數(shù)規(guī)模增加約10倍,但用于訓(xùn)練的GPU數(shù)量增加了近24倍,總計(jì)算量增加了近70倍。可以想象,擴(kuò)展律對(duì)應(yīng)的資源需求量遞增是多么的巨大。實(shí)際上,擴(kuò)展律還揭示了一個(gè)令人沮喪的事實(shí):當(dāng)我們的資源投入呈線性增長(zhǎng)的時(shí)候,性能的提升是遠(yuǎn)低于線性增長(zhǎng)的。
巨大的算力也意味著巨大的投入。據(jù)估計(jì),運(yùn)營(yíng)一臺(tái)英偉達(dá)A100服務(wù)器,一年的成本約為80萬(wàn)元。對(duì)于一個(gè)擁有萬(wàn)卡的廠商,擁有1250臺(tái)服務(wù)器(8卡一臺(tái)服務(wù)器),一年需要1250乘以80萬(wàn)也就是10億元的成本??梢韵胂?,維護(hù)一個(gè)強(qiáng)大的算力中心的成本是驚人的,對(duì)于成本如此高昂的算力資源,如果不能得到滿負(fù)載的利用,將會(huì)造成巨大的浪費(fèi)。
因此,大模型的發(fā)展不能僅僅在擴(kuò)展率的驅(qū)動(dòng)下,用算力的野蠻增長(zhǎng)來(lái)推動(dòng)。算力的確是今天AI時(shí)代最根本的基礎(chǔ)設(shè)施,但它不可能是無(wú)限的。我們必須研究高效的學(xué)習(xí)方法和策略來(lái)聰明地使用有限的計(jì)算資源。
混合專家模型。優(yōu)化計(jì)算效率的一個(gè)有效的方法,是通過(guò)對(duì)模型結(jié)構(gòu)和推理機(jī)制的改良,使得模型參數(shù)的增長(zhǎng)和計(jì)算資源需求的增長(zhǎng)呈線性而不是倍增關(guān)系,這其中一個(gè)重要的進(jìn)展就是通過(guò)多個(gè)小參數(shù)模型的組合形成一個(gè)大參數(shù)量的模型,即“混合專家模型”(Mixture of Experts, MoE)。這一模型將多個(gè)不同的學(xué)習(xí)數(shù)據(jù)訓(xùn)練成的子模型相結(jié)合,用一種表決組合的方式形成綜合的生成內(nèi)容。由于這一方案在推理過(guò)程中能夠根據(jù)輸入數(shù)據(jù)的不同,動(dòng)態(tài)地選擇不同的子模型(即“專家”)進(jìn)行計(jì)算,使大模型的學(xué)習(xí)和推理“稀疏化”,因而能夠把大模型參數(shù)增長(zhǎng)對(duì)算力的要求“線性化”,實(shí)現(xiàn)更快的響應(yīng)速度。這樣的策略實(shí)現(xiàn)了對(duì)計(jì)算效率的極大改進(jìn),而且實(shí)踐證明,以這樣的新方式構(gòu)造的模型系統(tǒng)的性能與同樣規(guī)模的單一模型相比并不遜色。這一結(jié)果其實(shí)并不令人驚訝,因?yàn)楹腿四X一樣,基于神經(jīng)元網(wǎng)絡(luò)的模型在思考一個(gè)問(wèn)題的過(guò)程中,實(shí)際上只有極小的一部分神經(jīng)元參與了工作,所以這樣“稀疏”的學(xué)習(xí)和推理策略應(yīng)當(dāng)是行之有效的。
高質(zhì)量的數(shù)據(jù)。第二種減少對(duì)大算力依賴的重要思路,是用高質(zhì)量的數(shù)據(jù)來(lái)彌補(bǔ)模型的規(guī)模不足。數(shù)據(jù)是人工智能的基石,數(shù)據(jù)的質(zhì)量關(guān)乎人工智能發(fā)展水平,影響其安全性、可信性。高質(zhì)量的數(shù)據(jù)集可以幫助模型更好地理解和捕捉不同的概念、語(yǔ)義和語(yǔ)法結(jié)構(gòu),使模型在各種任務(wù)和領(lǐng)域中表現(xiàn)出更好的泛化能力,推動(dòng)大模型的價(jià)值躍遷。大模型并不是越大越好,數(shù)據(jù)也不是越多越好,真正好的大模型是參數(shù)大小適中、數(shù)據(jù)質(zhì)量高。實(shí)踐充分證明,面對(duì)同一個(gè)學(xué)習(xí)策略,高質(zhì)量的學(xué)習(xí)數(shù)據(jù)可以大大提高模型的質(zhì)量。相比一個(gè)規(guī)模更大但訓(xùn)練數(shù)據(jù)質(zhì)量較低的模型,一個(gè)規(guī)模較小但使用高質(zhì)量數(shù)據(jù)訓(xùn)練的模型可能表現(xiàn)出更高的生成質(zhì)量。
持續(xù)學(xué)習(xí)。緩解算力需求的第三種重要方法是持續(xù)學(xué)習(xí),即在不“忘記”從以前的學(xué)習(xí)中獲得的知識(shí)的情況下,不斷地用新的數(shù)據(jù)來(lái)更新模型,使訓(xùn)練的大模型有更高的生成質(zhì)量。我們知道,人類具有從經(jīng)驗(yàn)中不斷復(fù)用拓展知識(shí)的能力,不僅可以將先前學(xué)到的知識(shí)和技能應(yīng)用到新的環(huán)境中,還可以將它們作為以后學(xué)習(xí)的基礎(chǔ)。如果機(jī)器也能有這樣的持續(xù)學(xué)習(xí)機(jī)制,我們就可以避免每次在進(jìn)化一個(gè)大模型時(shí),在包含新舊數(shù)據(jù)這一新的更大數(shù)據(jù)集的基礎(chǔ)上對(duì)整個(gè)模型進(jìn)行重新訓(xùn)練,從而改善大模型訓(xùn)練對(duì)算力的需求。但是,持續(xù)學(xué)習(xí)不是一件容易的事情,模型所學(xué)到的知識(shí)與規(guī)律存儲(chǔ)在模型參數(shù)中,當(dāng)模型在新數(shù)據(jù)集上學(xué)習(xí)時(shí),網(wǎng)絡(luò)中的參數(shù)會(huì)被更新,而舊任務(wù)的知識(shí)則會(huì)被覆蓋,導(dǎo)致更新后的模型在舊任務(wù)上的表現(xiàn)出現(xiàn)“災(zāi)難性的下降”,這種現(xiàn)象被稱為“災(zāi)難性遺忘”。如何使機(jī)器在持續(xù)學(xué)習(xí)中克服這一問(wèn)題,是一個(gè)很大的研究課題。所以,我們要看到,今天機(jī)器學(xué)習(xí)的機(jī)制還是很初級(jí)的,甚至不具備人類擁有的基本認(rèn)知功能,比如“記憶”。在這樣一個(gè)功能欠缺的機(jī)制上,通過(guò)擴(kuò)展律,用規(guī)模來(lái)彌補(bǔ)機(jī)制的缺陷,應(yīng)該不是一個(gè)長(zhǎng)遠(yuǎn)之計(jì)。我相信,對(duì)人腦這樣一個(gè)經(jīng)過(guò)幾百萬(wàn)年的進(jìn)化而形成的高效學(xué)習(xí)機(jī)制的研究和認(rèn)識(shí),一定會(huì)使我們發(fā)展出高效的機(jī)器學(xué)習(xí)機(jī)制,使算力不再成為大模型發(fā)展的瓶頸。
關(guān)于數(shù)據(jù)
擴(kuò)展律的另一個(gè)結(jié)論是,通過(guò)大量不同的數(shù)據(jù)來(lái)訓(xùn)練高容量的大模型,較之于通過(guò)巧妙的方法、用精選的小數(shù)據(jù)來(lái)微調(diào)一個(gè)現(xiàn)成的模型,更能捕捉數(shù)據(jù)的本質(zhì)特征,從而找到數(shù)據(jù)的共性(即泛化能力),提高生成能力。
現(xiàn)在業(yè)界有一個(gè)普遍的認(rèn)識(shí),就是目前所有的數(shù)據(jù)已經(jīng)快被用完,我們即將面臨“數(shù)據(jù)危機(jī)”。這個(gè)看法有一定的道理,但事實(shí)是,被我們用完的數(shù)據(jù)并不是消失了,而是被壓縮成了一個(gè)強(qiáng)大的模型。何謂壓縮?壓縮就是找出數(shù)據(jù)中的規(guī)律性、共性,并用更簡(jiǎn)潔的方式予以表示,以減少冗余信息。而當(dāng)我們成功地對(duì)數(shù)據(jù)進(jìn)行壓縮時(shí),就意味著我們已經(jīng)捕捉到了數(shù)據(jù)的本質(zhì)特征和規(guī)律,所得到的模型就有了優(yōu)秀的泛化和生成能力。假如我們有了一個(gè)非常好的語(yǔ)言模型,那么這樣的語(yǔ)言模型同時(shí)也構(gòu)成了一個(gè)最強(qiáng)大的數(shù)據(jù)生成器,可以生成所有我們想講的和能講的話。如此一來(lái),更有意義的工作就不再是努力尋找新的數(shù)據(jù),而是研究如何從大模型中生成我們需要的數(shù)據(jù),并在這樣的數(shù)據(jù)之上以有限的算力更為有效地構(gòu)造一個(gè)又一個(gè)精致的、滿足特定需要的模型。
這聽(tīng)起來(lái)仿佛是一個(gè)輪回:從數(shù)據(jù)到模型又從模型生成數(shù)據(jù),但這樣的輪回可以實(shí)現(xiàn)層次性的上升:新的數(shù)據(jù)和信息的質(zhì)量、語(yǔ)言的結(jié)構(gòu)更為高級(jí),從而使得新的模型在層次上有了質(zhì)的飛躍。比如我們要求新的語(yǔ)言模型可以懂得幽默、富有感情,可以寫(xiě)出笑話,這不是一個(gè)簡(jiǎn)單的任務(wù)。美國(guó)著名作家、語(yǔ)言學(xué)家勒古恩(Ursula K. Le Guin)指出,詞語(yǔ)是一種事件,具有作用力,能夠改變事物。它們不僅能夠改變說(shuō)話者和聆聽(tīng)者,還能在雙方之間傳遞能量,傳遞理解或情感,并對(duì)其進(jìn)行放大。然而,當(dāng)詞語(yǔ)被剝離了“人性”,輸入到無(wú)感情的機(jī)器中,被用作不具有啟迪功能的信息代價(jià)物時(shí),會(huì)發(fā)生什么呢?這正是今天的大模型技術(shù)面臨的一個(gè)挑戰(zhàn)。
要在機(jī)器生成的語(yǔ)言中注入“人性”,就要求我們?cè)谀P椭凶⑷肽軌蛴谜Z(yǔ)言表達(dá)的人類文明凝練的精神智慧和文化底蘊(yùn),也就是說(shuō)我們?cè)谟?xùn)練模型時(shí),對(duì)語(yǔ)言數(shù)據(jù)的壓縮不僅要捕捉低階的語(yǔ)義特征,還要捕捉高階的語(yǔ)境、語(yǔ)用特征,這對(duì)語(yǔ)言模型的學(xué)習(xí)提出了新的要求。為了把這樣的層次性表達(dá)出來(lái),也許,我們未來(lái)的壓縮編碼空間將不再是簡(jiǎn)單的向量空間了。
進(jìn)而言之,對(duì)新數(shù)據(jù)合成的要求也將不再滿足于簡(jiǎn)單地按分布采樣,數(shù)據(jù)的生成不再是越多越好,而是要有選擇性,強(qiáng)調(diào)一定條件下的數(shù)據(jù)生成、有結(jié)構(gòu)的數(shù)據(jù)生成,即數(shù)據(jù)的產(chǎn)生和采集是結(jié)構(gòu)化的,而不是如現(xiàn)在這般——大模型的數(shù)據(jù)采集用一個(gè)數(shù)據(jù)元(token)統(tǒng)一組織——進(jìn)行線性采集和順序生成了。
依筆者之見(jiàn),用于學(xué)習(xí)的數(shù)據(jù)是取之不盡、用之不竭的。數(shù)據(jù)是客觀世界的一種體現(xiàn)和表達(dá),如果把模型看成是機(jī)器通過(guò)數(shù)據(jù)對(duì)客觀世界進(jìn)行理解,那么數(shù)據(jù)和模型的關(guān)系便符合毛澤東同志在“實(shí)踐論”中對(duì)辯證唯物主義認(rèn)識(shí)論的闡述:“實(shí)踐、認(rèn)識(shí)、再實(shí)踐、再認(rèn)識(shí),這種形式,循環(huán)往復(fù)以至無(wú)窮,而實(shí)踐和認(rèn)識(shí)之每一循環(huán)的內(nèi)容,都比較地進(jìn)到了高一級(jí)的程度。這就是辯證唯物論的全部認(rèn)識(shí)論,這就是辯證唯物論的知行統(tǒng)一觀”。就大模型而言,從數(shù)據(jù)到模型體現(xiàn)了實(shí)踐,而從模型到數(shù)據(jù)反映了認(rèn)識(shí)。我們不必?fù)?dān)心數(shù)據(jù)的窮盡,而應(yīng)該期待越來(lái)越有人性的大模型的到來(lái)。
關(guān)于算法
未來(lái)的大模型如何發(fā)展?這是今天每一個(gè)人工智能研究者都要認(rèn)真思考的問(wèn)題。如上文所言,以自回歸為基礎(chǔ)的大模型的研究取得了許多非常振奮人心的成果,存在技術(shù)改進(jìn)的可能性空間和廣闊的開(kāi)拓潛力,特別是在學(xué)習(xí)效率的提高、思維鏈的增強(qiáng)與合成數(shù)據(jù)的深度、精度和廣度等方面大有可為。此外,把大模型與其他的功能調(diào)用(functional call)的業(yè)務(wù)工作流相結(jié)合,把語(yǔ)言作為工作流的驅(qū)動(dòng)機(jī)制,可以靈活地組織各種功能,形成一個(gè)大商業(yè)語(yǔ)言模型(Large Business Language Model)。這也是大模型算法研究上一個(gè)非常有前景的方向。這里我想談一下對(duì)生成式人工智能算法的一些根本性問(wèn)題。
基于自回歸的生成模型的局限性。基于自回歸的生成模型的基本思路是線性地依順序重構(gòu)輸入空間,所以,讓模型具有補(bǔ)全一句話、填滿一張圖的能力是有效的學(xué)習(xí)方法,目的都是使模型具有生成力。但是,這樣的模型也有其內(nèi)在缺陷。
從學(xué)習(xí)的角度而言,以重構(gòu)世界為目標(biāo)的學(xué)習(xí)并不等同于可以理解世界。正如你學(xué)會(huì)了重新拼裝一架飛機(jī),并不等于你理解飛行的原理,也不一定確保你能夠重新設(shè)計(jì)出一架新的飛機(jī)。所以,重構(gòu)只是學(xué)習(xí)的第一步,理解所構(gòu)造的世界才是關(guān)鍵而艱難的下一步。這個(gè)挑戰(zhàn)在目前的視頻生成研究中已經(jīng)顯示得很清楚了。我們可以把視頻生成和語(yǔ)言生成等同起來(lái),把視頻看成是圖像的序列語(yǔ)言,基于同樣的自回歸方法讓機(jī)器來(lái)重構(gòu),從大量的視頻數(shù)據(jù)中學(xué)會(huì)圖像序列的生成。這就要求在一個(gè)連續(xù)的時(shí)間序列中準(zhǔn)確地生成每一幅圖像上的各種細(xì)節(jié),并在這個(gè)時(shí)間段中保持每一幅圖像的一致性(如不變的建筑背景、符合運(yùn)動(dòng)規(guī)律的車(chē)流等),這是非常困難的,因?yàn)橹貥?gòu)一個(gè)動(dòng)態(tài)連續(xù)變化的場(chǎng)景的復(fù)雜程度要比重構(gòu)一段靜態(tài)的文字表達(dá)高得多。因此筆者認(rèn)為,用自回歸的方法生成視頻,生成內(nèi)容細(xì)節(jié)有限的動(dòng)畫(huà)是比較現(xiàn)實(shí)的,但對(duì)于高清的、有真實(shí)場(chǎng)景細(xì)節(jié)的視頻生成,它可能不是一條有效的途徑。
從“搜索范式”到“價(jià)值范式”。如何把握大模型未來(lái)的發(fā)展方向?關(guān)于這個(gè)命題有許多討論,例如從技術(shù)、哲學(xué)、認(rèn)知科學(xué)等角度。下面,筆者將從大模型使用模式的角度來(lái)談?wù)勥@個(gè)問(wèn)題。
今天,大模型支持人類和機(jī)器的“人問(wèn)機(jī)答”交流模式,這樣的交流是簡(jiǎn)單的,我們可以把它看成是搜索的一個(gè)高級(jí)版,生成的答案可以視為檢索內(nèi)容的一個(gè)總結(jié)。所以,今天大模型的學(xué)習(xí)和推理支持的是“搜索范式”。
事實(shí)上,我們使用的大模型搜索范式并不是唯一的方式。毋寧視其為一種初級(jí)的生成能力,因?yàn)樗皇窃谠~語(yǔ)相關(guān)性的指導(dǎo)下,對(duì)學(xué)過(guò)的語(yǔ)言進(jìn)行合乎統(tǒng)計(jì)規(guī)律的重構(gòu)。這樣的自回歸方法還不具有人類語(yǔ)言中的類比、聯(lián)想、層次推理等各種能力。在未來(lái)大模型的研究中,我們要超越自回歸的思想,創(chuàng)造出更高級(jí)的語(yǔ)言能力,這將極大地豐富大模型的應(yīng)用方式,同時(shí)這也將是大模型算法研究中一個(gè)有意義的方向。
從“人問(wèn)機(jī)答”的搜索范式出發(fā),對(duì)大模型的下一個(gè)要求就是,不僅能回答問(wèn)題,而且要有討論和爭(zhēng)辯的能力。在人工智能領(lǐng)域,對(duì)于思辯(argumentation)的研究一直是一個(gè)重要的領(lǐng)域,如何讓機(jī)器模型具有思辨的能力,可以與人進(jìn)行討論,即不僅能回答問(wèn)題,還能提出問(wèn)題,并對(duì)人的回答作出判斷、評(píng)價(jià)和回應(yīng)。這樣的思辨能力的實(shí)現(xiàn)要求模型的思維不僅有演繹的能力,而且要有一個(gè)內(nèi)在的“世界模型”,從而能夠?qū)?ldquo;回答”進(jìn)行判斷和論證,這將使模型從“搜索范式”進(jìn)化到一個(gè)以闡述觀點(diǎn)為目標(biāo)的“價(jià)值范式”。這樣的世界模型的建立對(duì)于算法來(lái)說(shuō),要求其不僅具有學(xué)習(xí)和推理的能力,更需要有記憶、行為目標(biāo)的建立,價(jià)值的衡量與判斷以及行為控制的能力。在這樣的范式下,學(xué)習(xí)的方式和推理的模式也會(huì)發(fā)生重大的改變,將不再可以被歸結(jié)為“預(yù)測(cè)下一個(gè)有可能的數(shù)據(jù)元”這么簡(jiǎn)單的學(xué)習(xí)和生成模式了。實(shí)際上,這樣的向“價(jià)值范式”的進(jìn)化,也是實(shí)現(xiàn)我們今天常講的“具身智能”的基礎(chǔ)。具身智能強(qiáng)調(diào)智能體通過(guò)與環(huán)境的交互獲取信息、理解問(wèn)題、作出決策并實(shí)現(xiàn)行動(dòng),從而產(chǎn)生智能行為和適應(yīng)性。有了支持“價(jià)值范式”的大模型,我們才可以有效地實(shí)現(xiàn)對(duì)環(huán)境的理解并通過(guò)其基于世界模型的價(jià)值衡量來(lái)作出決策、實(shí)現(xiàn)行動(dòng)。
研究“創(chuàng)造范式”,使機(jī)器具有人類靈性。大模型的發(fā)展是從數(shù)據(jù)學(xué)習(xí)模型、模型生成數(shù)據(jù)的循環(huán)往復(fù)中,不斷從一個(gè)層次邁向更高的層次。不管是注入情感,還是融入思辨,每一層的循環(huán)都是在語(yǔ)言模型中添加人性的理解,使我們?cè)谡Z(yǔ)言模型的建立上不斷地逼近人類的語(yǔ)言和思維,讓機(jī)器的語(yǔ)言模式逐漸與人類相一致。早在2013年,本輪人工智能浪潮來(lái)臨前夕,美國(guó)上映了一部講述在不遠(yuǎn)的未來(lái)人與人工智能機(jī)器相愛(ài)的科幻愛(ài)情電影《她》(Her)。主人公西奧多是一位信件撰寫(xiě)人,能寫(xiě)出感人肺腑的信件。他剛結(jié)束與妻子的婚姻,還沒(méi)走出痛苦的陰影。一次偶然的機(jī)會(huì)讓他接觸到最新的人工智能系統(tǒng)OS1,它的化身薩曼莎擁有迷人的聲線,溫柔體貼而又幽默風(fēng)趣。西奧多與薩曼莎很快發(fā)現(xiàn)他們是如此投緣,而且存在對(duì)彼此的需求與欲望,人機(jī)友誼最終發(fā)展為一段奇異愛(ài)情。這個(gè)科幻片生動(dòng)地展示了人類和一個(gè)有語(yǔ)言能力的機(jī)器之間的關(guān)系,也對(duì)后圖靈時(shí)代語(yǔ)言模型的發(fā)展作了一個(gè)形象的描述:機(jī)器的語(yǔ)言模型會(huì)與人無(wú)縫交流,會(huì)理解我們的語(yǔ)言、感情和語(yǔ)境,其與我們的交流也會(huì)越來(lái)越有“人性”。賦予機(jī)器模型以人性的光輝,就是研究大模型的終極目標(biāo)。眾所周知,人性最精彩的部分是創(chuàng)造力。因此,我們應(yīng)該研究大模型的“創(chuàng)造范式”,讓機(jī)器也具有人類的靈性。
2022年由AI生成的畫(huà)作——《空間歌劇院》(Théâtre D'opéra Spatial)在美國(guó)科羅拉多州博覽會(huì)的“數(shù)字藝術(shù)”類別美術(shù)比賽中獲得第一名。該畫(huà)作的創(chuàng)作者是39歲的美國(guó)游戲設(shè)計(jì)師杰森·艾倫(Jason Allen),他使用文本生成圖像程序Midjourney,經(jīng)過(guò)近千次調(diào)整、耗費(fèi)近三百個(gè)小時(shí)進(jìn)行修改完善,繪成了這個(gè)作品。Midjourney根據(jù)用戶的文字描述生成逼真的圖像,每次創(chuàng)作耗時(shí)約一分鐘。在創(chuàng)作者給定一個(gè)對(duì)歌劇院和天堂的描述之后,機(jī)器憑借自己對(duì)天堂的理解生成了一幅作品。在這個(gè)作品中,我們看到了機(jī)器與人類對(duì)天堂幻想的共同之處,但同時(shí)機(jī)器又賦予它獨(dú)特的想象力,畫(huà)出了超越習(xí)慣性思維的天堂。對(duì)于機(jī)器的這種能力,我們通常稱之為“幻思”(hallucinations)。
在文本生成中,這樣的幻思被認(rèn)為是個(gè)嚴(yán)重的問(wèn)題,是模型要克服的“毛病”,甚至常常被視為“一本正經(jīng)的胡說(shuō)八道”。之所以對(duì)其有這樣的看法,正是出于我們對(duì)大模型搜索范式的習(xí)慣性理解和使用。在搜索范式下,內(nèi)容的生成常常是有事實(shí)依據(jù)的,與事實(shí)相符與否是衡量?jī)?nèi)容質(zhì)量的標(biāo)準(zhǔn),不然就是“胡說(shuō)八道”;但是如果我們走出傳統(tǒng)的大模型搜索范式的思維,把它看成是一個(gè)有創(chuàng)作能力的生成系統(tǒng),那么幻思就是一個(gè)非常重要的能力了。以筆者團(tuán)隊(duì)正在開(kāi)發(fā)的一個(gè)生成系統(tǒng)為例,我們給系統(tǒng)提供幾幅照片或幾幅圖畫(huà)后,機(jī)器可以生動(dòng)地寫(xiě)出一篇與提供的圖片相匹配的散文。在這樣的創(chuàng)作中,重要的不是與事實(shí)的一致性,而是內(nèi)容與所給出圖片的意境相吻合,換句話說(shuō),這樣的吻合度就是我們要求的“一本正經(jīng)”。只要符合邏輯,就不會(huì)對(duì)其有與事實(shí)相符的要求;只要不違背常識(shí)、不違背邏輯,就不會(huì)對(duì)其有“胡說(shuō)八道”的責(zé)難。如此一來(lái),就有了大模型使用的“創(chuàng)造范式”。對(duì)于在創(chuàng)造范式下的大模型而言,重要的是研究各種幻思的形式和性質(zhì),以及衡量各種幻思的創(chuàng)造性、啟發(fā)性和其他特性的標(biāo)準(zhǔn)及評(píng)價(jià)方法。以筆者團(tuán)隊(duì)正在設(shè)計(jì)的用大模型來(lái)創(chuàng)作童話的工作為例,大模型的幻思是一個(gè)非常重要的能力,正是對(duì)幻思能力的合理開(kāi)發(fā),才能夠?yàn)橥拕?chuàng)造出具有啟迪性和趣味性的內(nèi)容。
對(duì)大模型發(fā)展的未來(lái)展望
作為總結(jié),我想回顧一下圖靈關(guān)于機(jī)器智能的思考。圖靈在1950年發(fā)表的著名論文《計(jì)算機(jī)器與智能》(Computing Machinery and Intelligence)中,提出了機(jī)器能否思維的命題,認(rèn)為只要機(jī)器在對(duì)話上和人沒(méi)有明顯差別,就是具有智能的,此即后人所稱的“圖靈測(cè)試”。今天的大模型已經(jīng)初步具有了這樣的能力,可以實(shí)現(xiàn)“人問(wèn)機(jī)答”。這樣看來(lái),似乎可以說(shuō)我們有了問(wèn)題的答案。但是,人的語(yǔ)言能力遠(yuǎn)不只是問(wèn)答,我們的前路還很長(zhǎng)。圖靈也在他的文章中規(guī)劃了一條道路,認(rèn)為可以編制一個(gè)“兒童程序”,對(duì)其進(jìn)行教育,以使其達(dá)到成人的智力水平。但在筆者看來(lái),鑒于人類教育和機(jī)器學(xué)習(xí)的“兩極性”,這條路似乎要反著走了。
如圖1所示,我們對(duì)于機(jī)器的教育和對(duì)于人類的教育實(shí)踐似乎正好是相反的。對(duì)人類而言,我們?cè)谟變航逃A段,不斷地啟發(fā)孩子對(duì)新事物的好奇,從而建立起孩子對(duì)生活和社會(huì)的常識(shí);小學(xué)教育的目標(biāo)主要不是知識(shí)積累,而是價(jià)值觀培養(yǎng),讓孩子從各方面學(xué)到社會(huì)上的對(duì)與錯(cuò)、真與假、善與惡;中學(xué)教育開(kāi)始建立知識(shí)體系的基礎(chǔ);大學(xué)教育才是專門(mén)化的知識(shí)培養(yǎng)。有了這些,一個(gè)人才能在社會(huì)實(shí)踐中接受社會(huì)的再教育,建立自己的知識(shí)體系,形成成人智力。而機(jī)器學(xué)習(xí)的過(guò)程正好是反過(guò)來(lái)的。我們一開(kāi)始就喂給了機(jī)器這個(gè)世界的全部數(shù)據(jù),把它壓縮成一個(gè)通用的預(yù)訓(xùn)練模型,理論上,它可以講所有符合語(yǔ)言特性的話;第二步,才開(kāi)始對(duì)這樣的一個(gè)預(yù)訓(xùn)練模型進(jìn)行微調(diào),學(xué)習(xí)各個(gè)領(lǐng)域的知識(shí)(微調(diào))和人類的表達(dá)方式(對(duì)齊),使它符合我們?cè)诟鞣N主題下交流的需要;接下來(lái),我們才發(fā)現(xiàn)要讓機(jī)器有判斷的能力,就必須讓機(jī)器學(xué)習(xí)對(duì)與錯(cuò)的判別,使它產(chǎn)生價(jià)值觀;直到最后,我們希望機(jī)器從大量的學(xué)習(xí)中,能夠總結(jié)出一個(gè)世界模型,作為自己的常識(shí),并在這樣的基礎(chǔ)上,能夠?qū)@個(gè)世界產(chǎn)生創(chuàng)造力。
正是基于這樣的對(duì)人機(jī)學(xué)習(xí)兩極性的理解,我們對(duì)大模型發(fā)展的未來(lái)作了這樣的展望:一個(gè)可以生成語(yǔ)言的大模型會(huì)從表述內(nèi)容的搜索范式進(jìn)化到闡述論證觀點(diǎn)的價(jià)值范式,它可以在對(duì)世界的理解下與人交流,這樣的理解也會(huì)在交流中不斷進(jìn)化,從而使得機(jī)器學(xué)會(huì)建立自己的價(jià)值觀。而人工智能治理的一個(gè)根本性任務(wù)是努力保證這樣的價(jià)值觀符合人類進(jìn)步的要求。在這樣的價(jià)值范式下,機(jī)器的人性化會(huì)不斷增強(qiáng),創(chuàng)造力會(huì)得到進(jìn)一步發(fā)展,從而使其幻思的能力成為合乎世界模型的有意義的創(chuàng)造方式。這樣的創(chuàng)造方式會(huì)使人與機(jī)器的共生、共存、共創(chuàng)成為可能,形成一個(gè)嶄新的社會(huì)形態(tài)。而人工智能治理的另一個(gè)根本性的任務(wù)就是為這樣的社會(huì)建立新的秩序,使一個(gè)對(duì)世界有理解、有價(jià)值、有判斷的大模型作為人腦的延伸,可以有其行為選擇的正確原則和機(jī)制,這樣我們講的具身智能才會(huì)真正到來(lái),在一個(gè)人機(jī)二元的社會(huì)里為我們服務(wù)。
2024年5月14日,美國(guó)OpenAI宣布了全能大模型GPT-4o,它在大模型的問(wèn)答能力方面,加入了視訊功能,可以感知語(yǔ)言環(huán)境,進(jìn)行實(shí)時(shí)、自然、滿足語(yǔ)境的語(yǔ)音對(duì)話,并且能捕捉情緒、模擬情緒,這是大模型向人性化前進(jìn)的重要一步。當(dāng)前,大模型發(fā)展的速度越來(lái)越快,而對(duì)其發(fā)展道路和方向的把握尤為重要。我們必須建構(gòu)自己的技術(shù)理想,對(duì)人工智能的發(fā)展,及其推動(dòng)人類發(fā)展進(jìn)步的前景充滿信心,不畏試錯(cuò)、大膽創(chuàng)新,走出一條我們自己的大模型道路。
參考文獻(xiàn)
A. M. Turing, "Computing Machinery and Intelligence," Mind, 1950, 59.
郭毅可,2020,《人工智能與未來(lái)社會(huì)發(fā)展》,北京:科學(xué)技術(shù)文獻(xiàn)出版社。
郭毅可,2021,《論人工智能歷史、現(xiàn)狀與未來(lái)發(fā)展戰(zhàn)略》,《人民論壇·學(xué)術(shù)前沿》,第23期。
郭毅可,2023,《迎接一個(gè)人機(jī)共生的時(shí)代》,《智能系統(tǒng)學(xué)報(bào)》,第2期。
中央文獻(xiàn)研究室,2004,《毛澤東傳(1893—1949)》,北京:中央文獻(xiàn)出版社,第463頁(yè)。
責(zé) 編∕張 貝 美 編∕周群英
Thoughts on and Prospects of the Development of Large Model of Artificial Intelligence
Guo Yike
Abstract: At present, the development of large models is accelerating, and the paths and directions of their development have become significant topics in the advancement of artificial intelligence. How to make a machine to become intelligent and be a good partner and helper of human development is a new challenge facing the development of large model. We propose that future large model will evolve from a "search paradigm" that expresses content to a "value paradigm" that articulates arguments, establishing its own values. Under such a value paradigm, humanization of machine is continuously enhanced, and creativity is further developed, so that the ability of illusion becomes a meaningful creation in line with the world model, and finally promotes large model to enter the "creation paradigm". Furthermore, symbiosis, coexistence and co-creation of people and machines will become possible, forming a new social form. To this end, we need to construct forward-looking technical ideals, have full confidence in the development of artificial intelligence and its prospects for promoting human development and progress, be fearless of trial and error and be bold in innovation, and walk out of a large model development path of our own.
Keywords: artificial intelligence, large model, search paradigm, value paradigm, creation paradigm, rate of spread