国产视频一区在线,日韩三级网,日韩欧美在线观看一区二区,午夜欧美福利视频,国产人妖视频一区二区,久久亚洲精品中文字幕,国产成人午夜高潮毛片

理大研究發(fā)現(xiàn)感官及運(yùn)動(dòng)信息有助大語言模型表達(dá)復(fù)雜概念

來源:The Hong Kong Polytechnic University

點(diǎn)擊:1573

A+ A-

所屬頻道:新聞中心

關(guān)鍵詞:理大研究 大語言模型

    香港 -Media OutReach Newswire- 2025年6月9日 - 沒有聞過花香、觸摸過花瓣,或在花園散步過,有可能真正了解什么是「花」嗎?這個(gè)問題引發(fā)了不少的哲學(xué)與認(rèn)知科學(xué)爭論;有認(rèn)知理論專家認(rèn)為,親身感受和體驗(yàn)是概念形成的關(guān)鍵,但目前飛速發(fā)展的大語言模型研究卻表明,僅憑語言便有可能建立對現(xiàn)實(shí)具有意義的真實(shí)表征。



    由理大冼為堅(jiān)基金人文與科技講座教授、人文學(xué)院院長兼理大杭州技術(shù)創(chuàng)新研究院副院長李平教授領(lǐng)導(dǎo)的研究團(tuán)隊(duì),透過分析大語言模型和人類在概念表征上的相似度,為語言能在多大程度上推動(dòng)復(fù)雜概念的形成和學(xué)習(xí)提出新見解。


    由香港理工大學(xué)(理大)研究人員與合作者組成的團(tuán)隊(duì),透過分析大語言模型和人類在概念表征上的相似度,為語言能在多大程度上推動(dòng)復(fù)雜概念的形成和學(xué)習(xí)提出了新見解。研究并揭示「具身化訓(xùn)練」(grounding),即為大語言模型提供感官(如視覺)及運(yùn)動(dòng)信息,讓模型能將抽象與具體概念聯(lián)系起來,可以影響其對復(fù)雜概念的理解并生成接近人類的表征。此研究與俄亥俄州立大學(xué)、普林斯頓大學(xué)及紐約市立大學(xué)的研究人員合作進(jìn)行,成果最近于《Nature Human Behaviour》上發(fā)表。


    理大冼為堅(jiān)基金人文與科技講座教授、人文學(xué)院院長兼理大杭州技術(shù)創(chuàng)新研究院副院長李平教授領(lǐng)導(dǎo)的研究團(tuán)隊(duì)選取大語言模型ChatGPT(GPT-3.5和GPT-4)和 Google LLMs(PaLM 和 Gemini)所生成的詞匯評分,并將其與公開發(fā)表及經(jīng)過驗(yàn)證的《格拉斯哥詞匯范本》(Glasgow Norms)和《蘭卡斯特詞匯模板》(Lancaster Norms)數(shù)據(jù)集中近4,500個(gè)詞語的人類評分進(jìn)行比較。這些評分涵蓋了非感官運(yùn)動(dòng)領(lǐng)域,包括情感效價(jià)、具體性、可意象性等維度;感官領(lǐng)域,包括視覺、嗅覺、聽覺等維度,以及運(yùn)動(dòng)領(lǐng)域,包括腿/腳、嘴巴/喉嚨等維度。


    研究團(tuán)隊(duì)以人與人之間的配對結(jié)果作為基準(zhǔn),首先將個(gè)別人類和大語言模型生成的數(shù)據(jù)進(jìn)行比較,以探究人類與大語言模型的詞匯評分在上述領(lǐng)域各維度中的相似程度,從中找出大模型和人類在理解不同領(lǐng)域概念上的一致性,例如兩者是否都認(rèn)為某些概念相較其他概念更加具體。然而,這種分析或會忽略不同維度如何共同影響詞匯的整體表征。以 「pasta」(意大利面)和「 roses」(玫瑰)為例,兩者同樣在嗅覺維度擁有較高的評分,但實(shí)際上「pasta」與「roses」遠(yuǎn)遠(yuǎn)不及「pasta」與「noodles」(面)接近,因?yàn)楦拍钪g的相似度需要綜合考慮其外觀和味道。因此,團(tuán)隊(duì)再運(yùn)用了表征相似性分析(representational similarity analysis),將每個(gè)詞匯在各領(lǐng)域多個(gè)范疇的評分?jǐn)?shù)據(jù)整合成一個(gè)向量(vector),以進(jìn)行更全面的人類與模型比對。


    研究結(jié)果表明大語言模型生成的詞匯表征與人類表征的相似度,在非感官運(yùn)動(dòng)領(lǐng)域最高,感官領(lǐng)域次之,而在運(yùn)動(dòng)領(lǐng)域表現(xiàn)最差。這凸顯了大語言模型在表征人類概念上的局限;模型雖然能夠有效掌握非感官運(yùn)動(dòng)領(lǐng)域的概念,但在理解涉及視覺外觀、味覺等感官概念,或需要肢體動(dòng)作體驗(yàn)的運(yùn)動(dòng)概念時(shí),表現(xiàn)明顯較為遜色。其中,動(dòng)作性概念較少被文字完整描述,且高度依賴具身經(jīng)驗(yàn),相對于色彩一類能從文本數(shù)據(jù)學(xué)習(xí)到的感官概念,對模型而言更具挑戰(zhàn)性。


    根據(jù)研究結(jié)果,研究人員進(jìn)一步檢驗(yàn)具身化訓(xùn)練能否提升大語言模型的表現(xiàn)。他們比較了同時(shí)接受語言及視覺輸入訓(xùn)練的具身化模型(如GPT-4和Gemini),跟僅接受語言訓(xùn)練的模型(如GPT-3.5和PaLM)之間的差異,結(jié)果發(fā)現(xiàn)結(jié)合視覺輸入的模型生成的表征與人類表征相似度明顯更高。


    李平教授表示:「純語言訓(xùn)練及語言+視覺輸入(如圖像及視頻等)訓(xùn)練的大語言模型,為研究感官及運(yùn)動(dòng)信息如何影響人類概念形成提供了獨(dú)特的機(jī)遇。我們的研究具體展現(xiàn)了多模態(tài)學(xué)習(xí)的潛在優(yōu)勢,因?yàn)閷?shí)時(shí)整合多種模態(tài)的信息正是人類學(xué)習(xí)和表征的特點(diǎn),如大模型能吸取到這個(gè)特征,就可更趨近人類的認(rèn)知模式以及更如人類行為一樣高效率?!?/span>


    值得注意的是,這項(xiàng)發(fā)現(xiàn)與以往提出人類表征遷移現(xiàn)象的研究結(jié)果吻合。人類透過視覺和觸覺的多模態(tài)經(jīng)驗(yàn)獲取對象形狀知識,如當(dāng)我們觀看或觸摸對象時(shí),大腦中同一區(qū)域會被激活。研究人員指出,正如人類一樣,經(jīng)過多模態(tài)輸入訓(xùn)練的大語言模型在接收了多種信息后,或能在連續(xù)的高維度空間中進(jìn)行表征融合或遷移。李教授續(xù)解釋:「大語言模型嵌入空間所具有的平滑及連續(xù)特性或許能解釋為何我們觀察到源自單一模態(tài)的知識能夠擴(kuò)散至其他相關(guān)模態(tài)。此發(fā)現(xiàn)也可能揭示了先天失明人士與視力正常者之間為何會在某些領(lǐng)域上有相似表征。目前的大語言模型在這方面還有明顯不足?!?/span>


    展望未來,研究團(tuán)隊(duì)指出今后可以透過類人型機(jī)械人技術(shù)把大語言模型與多模態(tài)數(shù)據(jù)整合,使其能主動(dòng)解讀真實(shí)世界,并作出相應(yīng)行動(dòng)。李教授指:「相關(guān)技術(shù)發(fā)展或?qū)⒋呋笳Z言模型真正實(shí)現(xiàn)具身人工表征,從而更切實(shí)反映出人類認(rèn)知所具有的復(fù)雜性和豐富性,屆時(shí)人們將無法指出大模型對玫瑰花的表征與人類的表征有何分別?!?/span>

    (審核編輯: 光光)

    聲明:除特別說明之外,新聞內(nèi)容及圖片均來自網(wǎng)絡(luò)及各大主流媒體。版權(quán)歸原作者所有。如認(rèn)為內(nèi)容侵權(quán),請聯(lián)系我們刪除。