亚洲国产婷婷_手机在线观看国产精品_日本一区二区三区在线视频_亚洲精品成人久久

首頁 > 汽車測(cè)評(píng) > 汽車測(cè)評(píng) > 科學(xué)家用STEM數(shù)據(jù)集評(píng)測(cè)神經(jīng)網(wǎng)絡(luò)模型基礎(chǔ),加快人工智能實(shí)現(xiàn)進(jìn)程

科學(xué)家用STEM數(shù)據(jù)集評(píng)測(cè)神經(jīng)網(wǎng)絡(luò)模型基礎(chǔ),加快人工智能實(shí)現(xiàn)進(jìn)程

發(fā)布時(shí)間:2024-05-01 15:08:46

理工科 STEM 技能,是解決真實(shí)世界中諸多問題的基礎(chǔ)。譬如,探索蛋白質(zhì)結(jié)構(gòu)、證明數(shù)學(xué)定理、發(fā)現(xiàn)新藥物等。(編者注:STEM,即科學(xué)、技術(shù)、工程和數(shù)學(xué)四門學(xué)科英文首字母的縮寫。)

 

而對(duì)于人工智能領(lǐng)域來說,理解視覺-文本的多模態(tài)信息,則是掌握 STEM 技能的關(guān)鍵。

 

可是,現(xiàn)有的數(shù)據(jù)集主要集中在檢驗(yàn)?zāi)P徒鉀Q專家級(jí)別難題的能力上,難以反映模型在基礎(chǔ)知識(shí)方面的掌握情況。并且,其往往只考慮文本信息而忽略視覺信息,又或者只關(guān)注 STEM 中某單一學(xué)科的能力。

 

另外,由于缺少細(xì)粒度的信息,該領(lǐng)域的科學(xué)家也無法更好地分析與改進(jìn)神經(jīng)網(wǎng)絡(luò)模型存在的薄弱之處。

 

所以,模型在這種情況下生成的內(nèi)容,既無法讓人充分信任,又不能幫助指導(dǎo)未來模型開發(fā)的方向。

 

更重要的是,由于缺乏和人類表現(xiàn)相關(guān)的數(shù)據(jù),因此科學(xué)家也不可能獲取到更具實(shí)際意義的模型表現(xiàn)參考,嚴(yán)重阻礙了人工智能的健康發(fā)展。

 

為了攻克上述局限性,近期,來自北京大學(xué)和美國圣路易斯華盛頓大學(xué)的研究團(tuán)隊(duì),不僅成功完成了首個(gè)多模態(tài) STEM 數(shù)據(jù)集的構(gòu)建,還在此基礎(chǔ)上實(shí)現(xiàn)對(duì)大語言模型與多模態(tài)基礎(chǔ)模型的評(píng)測(cè)。

 

結(jié)果發(fā)現(xiàn),即使是目前最先進(jìn)的人工智能模型,其 STEM 基礎(chǔ)水平也存在較大的提升空間,尚不具備解決更有難度的現(xiàn)實(shí)問題的能力。也就是說,與人類智能相比,目前人工智能的水平還有一定差距。

 

 

圖丨綜合評(píng)測(cè)效果(來源:ICLR 2024)

 

近日,相關(guān)論文以《測(cè)量神經(jīng)網(wǎng)絡(luò)模型的視覺-語言理工科技能》(Measuring Vision-Language STEM Skills of Neural Models)為題收錄于 2024 國際表征學(xué)習(xí)大會(huì)(ICLR 2024,International Conference on Learning Representations 2024)上[1]。

 

據(jù)悉,該會(huì)議將于今年 5 月 7 日至 5 月 11 日在奧地利的首都維也納召開。

 

STEM 數(shù)據(jù)集相關(guān)資源如下。

 

評(píng)測(cè)鏈接:
https://huggingface.co/spaces/stemdataset/stem-leaderboard

數(shù)據(jù)集頁面:
https://huggingface.co/datasets/stemdataset/STEM

代碼 GitHub:
https://github.com/stemdataset/STEM

 

北京大學(xué)博士研究生沈劍豪和袁野是共同第一作者,圣路易斯華盛頓大學(xué)王晨光助理教授和北京大學(xué)張銘教授擔(dān)任共同通訊作者。王晨光助理教授博士畢業(yè)于北京大學(xué),導(dǎo)師是張銘教授。

 

圖丨相關(guān)論文(來源:ICLR 2024)

 

 

搭建 STEM 數(shù)據(jù)集,全方位評(píng)測(cè)神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)理工科能力

 

據(jù)王晨光介紹,課題組在確定研究目標(biāo)和題目之后,便開始著手收集數(shù)據(jù)。

 

一向擅長于算法研究的團(tuán)隊(duì)成員,在面對(duì)爬蟲編寫、數(shù)據(jù)清洗和去重等工作時(shí)不免有些犯難。盡管如此,他們還是迎難而上,設(shè)計(jì)了多種用于數(shù)據(jù)清洗和去重的規(guī)則,最終成功獲得了首個(gè)多模態(tài) STEM 數(shù)據(jù)集。

 

圖丨左起;王晨光、張銘、沈劍豪、袁野、Srbuhi Mirzoyan(來源:課題組)

 

值得一提的是,該數(shù)據(jù)集包含 448 個(gè) STEM 技能,共 1073146 道題目,是目前涵蓋面最廣、包含題目最多的多模態(tài) STEM 題目數(shù)據(jù)集。

 

圖丨相關(guān)論文(來源:ICLR 2024)

 

接著,他們開始針對(duì)數(shù)據(jù)集進(jìn)行評(píng)測(cè)與分析。

 

由于該數(shù)據(jù)集包含科目(科學(xué)、技術(shù)、工程、數(shù)學(xué))、技能和年級(jí)三個(gè)維度標(biāo)簽,因此研究人員選擇從這三個(gè)維度切入,對(duì)每個(gè)維度的數(shù)據(jù)數(shù)量分布、問題類型分布、問題長度分布等信息進(jìn)行了詳盡分析。

 

與此同時(shí),他們也針對(duì)每個(gè)科目,按照 6:2:2 的比例,劃分了訓(xùn)練集、驗(yàn)證集與未公開標(biāo)簽的測(cè)試集。

 

隨后,研究人員又設(shè)計(jì)了模型評(píng)測(cè)方案。

 

其中,在選擇評(píng)測(cè)指標(biāo)時(shí),他們除了關(guān)注準(zhǔn)確率,還重點(diǎn)使用全球范圍內(nèi)最被認(rèn)可的在線習(xí)題網(wǎng)站之一(https://www.ixl.com/)的考試分?jǐn)?shù)。

 

后者是基于該網(wǎng)站千萬用戶的真實(shí)考試成績得出的,與學(xué)生對(duì)知識(shí)的掌握程度呈正相關(guān)。當(dāng)分?jǐn)?shù)達(dá)到 90 以上(通常是小學(xué)生水平)時(shí),就代表學(xué)生掌握了該技能。

 

“我們讓模型模仿考生在線答題,再將得到的考試分?jǐn)?shù)與真實(shí)人類的考試結(jié)果進(jìn)行比較。”王晨光表示。

 

這也正是該工作的一大亮點(diǎn)。原因在于,過去將人類的表現(xiàn)與人工智能做比較時(shí),前者都是由相對(duì)較小的樣本(例如幾百到幾千人)總結(jié)出的,而該團(tuán)隊(duì)的結(jié)果卻是基于千萬量級(jí)的數(shù)據(jù)得到的,可信度更高。

 

然后,在模型評(píng)測(cè)環(huán)節(jié),研究人員選擇使用當(dāng)前主流的大基礎(chǔ)模型,包括 OpenAI 的多模態(tài) CLIP 模型,以及大語言模型 ChatGPT 的 GPT3.5-Turbo 版本。

 

前者根據(jù)模型判斷問題選項(xiàng)與圖片的匹配程度來做出選擇,后者則利用字幕模型為圖片生成描述,并利用語言模型選擇回答。

 

“我們?cè)u(píng)測(cè)了不同規(guī)模的 CLIP 模型與 GPT3.5-Turbo 模型,發(fā)現(xiàn)在 0 樣本的設(shè)置下,模型的錯(cuò)誤率很高。這表明現(xiàn)有模型無法直接真正地掌握這些知識(shí)。”王晨光表示。

 

進(jìn)一步地,他們又利用劃分出的訓(xùn)練數(shù)據(jù)集,對(duì) CLIP 模型進(jìn)行了微調(diào),發(fā)現(xiàn)微調(diào)后的模型取得了顯著的效果提升,綜合準(zhǔn)確率從 54.4% 提升至 76.3%。不過,這離 90 分依然有一定差距。

 

除此之外,該課題組還對(duì)模型結(jié)果的各個(gè)側(cè)面進(jìn)行了分析。

 

具體來說,首先,在年級(jí)層面,他們發(fā)現(xiàn)模型的測(cè)驗(yàn)分?jǐn)?shù)隨著題目所屬年級(jí)的升高而降低,這符合年級(jí)越高的題目難度就越高的預(yù)期。

 

圖丨測(cè)驗(yàn)分?jǐn)?shù)隨年級(jí)變化(來源:ICLR 2024)

 

其次,通過模型在不同技能上的評(píng)測(cè)表現(xiàn),他們發(fā)現(xiàn)模型在抽象知識(shí)與復(fù)雜推理任務(wù)上的表現(xiàn)欠佳。

 

另外,過去的經(jīng)驗(yàn)表明,模型應(yīng)該對(duì)正確答案有著較高的預(yù)測(cè)置信度,這代表著模型的校準(zhǔn)度較好。

 

“我們發(fā)現(xiàn)在我們的數(shù)據(jù)集上微調(diào)過的模型,表現(xiàn)出了良好的校準(zhǔn)性,模型的置信度與準(zhǔn)確率呈現(xiàn)清晰的相關(guān)性。”王晨光說。

 

另一方面,他們?cè)谘芯磕P鸵?guī)模與效果之間關(guān)系的過程中,也發(fā)現(xiàn)了清晰的正相關(guān)關(guān)系。

 

與此同時(shí),他們還分析了模型表現(xiàn)與問題長度、問題類型、選項(xiàng)數(shù)量等其它因素之間的關(guān)系,發(fā)現(xiàn)隨著問題變長、選項(xiàng)數(shù)量變多和樣例數(shù)量變少,模型的表現(xiàn)都會(huì)下降。

 

除此之外,他們也評(píng)估了準(zhǔn)確率與測(cè)驗(yàn)考試分?jǐn)?shù)這兩種指標(biāo)的相關(guān)性,發(fā)現(xiàn)它們同樣呈現(xiàn)出顯著的正相關(guān)。

 

“最終,在整體的評(píng)價(jià)指標(biāo)上,我們確認(rèn)即使是微調(diào)過的模型,與人類對(duì)應(yīng)年級(jí)學(xué)生水平相比也有顯著差距。基于此,我們?nèi)匀恍枰獙ふ腋行У姆椒?,使模型掌?STEM 知識(shí)技能。”王晨光說。

 

圖丨與人類表現(xiàn)比較(來源:ICLR 2024)

 

 

嘗試推出更多評(píng)測(cè)大語言模型的數(shù)據(jù)集,加快通用人工智能實(shí)現(xiàn)的進(jìn)程

 

顯而易見,在該項(xiàng)研究中,STEM 數(shù)據(jù)集發(fā)揮了關(guān)鍵作用。

 

它不僅有利于模型增強(qiáng) STEM 的基礎(chǔ)知識(shí),還能幫助研究人員評(píng)估模型對(duì)于基礎(chǔ) STEM 技能掌握的程度,并通過細(xì)粒度的數(shù)據(jù)分析有針對(duì)性地改進(jìn)模型。

 

王晨光表示,他和團(tuán)隊(duì)期待該數(shù)據(jù)集可以進(jìn)一步推動(dòng)當(dāng)前多模態(tài)大模型的研究,朝著模型能夠充分理解 STEM 技能、解決真實(shí)場(chǎng)景下 STEM 問題的目標(biāo)更進(jìn)一步。

 

并且,也希望發(fā)布的測(cè)試集可以作為評(píng)測(cè)人工智能基礎(chǔ)模型能力的標(biāo)準(zhǔn)評(píng)測(cè)之一,得到社區(qū)的廣泛使用。

 

“更重要的是,我們提供的與大規(guī)模人類(主要是小學(xué)生)真實(shí)水平的比較,可以作為未來模型開發(fā)的目標(biāo)和參考,以加快通用人工智能目標(biāo)實(shí)現(xiàn)的進(jìn)程。”他說。

 

目前,基于該數(shù)據(jù)集,該課題組已經(jīng)成功評(píng)測(cè)了神經(jīng)網(wǎng)絡(luò)模型在基礎(chǔ)教育中的理工科能力。

 

接下來,他們一方面計(jì)劃繼續(xù)收集數(shù)據(jù),并嘗試推出諸如人文學(xué)科、社會(huì)學(xué)科等領(lǐng)域的數(shù)據(jù)集,以更好地評(píng)測(cè)大語言模型在其他關(guān)鍵學(xué)科上的能力。

 

在這方面值得關(guān)注的是,該團(tuán)隊(duì)最近已經(jīng)提出了一個(gè)新的社會(huì)學(xué)科數(shù)據(jù)集 Social,包含較大規(guī)模的文本評(píng)估數(shù)據(jù),可用來評(píng)測(cè)大語言模型的社會(huì)學(xué)科基礎(chǔ)能力。

 

進(jìn)一步地,還設(shè)計(jì)了一種多智能體交互的方法,能夠增強(qiáng)大語言模型在 Social 數(shù)據(jù)集上的表現(xiàn)。

 

相關(guān)論文以《衡量大語言模型的社會(huì)規(guī)范》(Measuring Social Norms of Large Language Models)為題收錄于計(jì)算語言學(xué)協(xié)會(huì)北美分會(huì) 2024 年年會(huì)(NAACL 2024,2024 Annual Conference of the North American Chapter of the Association for Computational Linguistics)上[2]。

 

據(jù)悉,該會(huì)議將于今年 6 月 16 日至 6 月 21 日在墨西哥的首都墨西哥城召開。

 

另一方面,他們也打算通過研究模型在細(xì)粒度數(shù)據(jù)集上的表現(xiàn),找出模型能力不足的部分,并研究如何改進(jìn)。

 

此外,還希望通過結(jié)合檢索的 RAG 方法、設(shè)計(jì)特殊的模型架構(gòu)和訓(xùn)練方法,來進(jìn)一步增強(qiáng)模型的基礎(chǔ)能力。

 

“我們相信,只有先在基礎(chǔ)理工科和文科領(lǐng)域?qū)崿F(xiàn)突破,扎實(shí)打好基礎(chǔ),人工智能才有被進(jìn)一步應(yīng)用的可能性。”王晨光如是說。

汽車測(cè)評(píng)更多>>

從《大師與瑪格麗特》看經(jīng)典作品當(dāng)代復(fù)現(xiàn)的創(chuàng)作困境 傅繼英工筆畫三十三觀音之馬郎婦觀音:至誠合作,事業(yè)騰達(dá) 粵港青年音樂家在深圳展演四場(chǎng)室內(nèi)樂音樂會(huì),奏響大灣區(qū)青春樂章 若羌縣舉辦“棗花開了”系列活動(dòng)之移風(fēng)易俗、書畫攝影作品、臨書臨印展 第十四屆全國美術(shù)作品展覽部分進(jìn)京作品巡展至河南 2024年南寧市體育局局屬事業(yè)單位免筆試招聘工作人員公告(5人) 2024年中國人民政治協(xié)商會(huì)議廣州市海珠區(qū)委員會(huì)辦公室關(guān)于招聘雇員的公告(1人) 2024年中山職業(yè)技術(shù)學(xué)院第三期招聘事業(yè)單位人員公告(16人) 2024年下半年揭陽市市直事業(yè)單位專項(xiàng)招聘博(碩)士研究生公告(45人) 安徽大眾第二款SUV要來了,依舊轎跑風(fēng)格,定位更高 阿維塔又要推新車了,定位中型轎車,明年推出 9.98萬元起售,搭載2C快充,五菱星光純電版算是真香之選嗎? 阿維塔12增程版要來了,明天開啟預(yù)售,純電續(xù)航201km MG ES5要來了,10月15日首發(fā),主打大空間 嵐圖知音正式上市,19.69萬起,全新純電平臺(tái)打造,還配曲面屏 別錯(cuò)過!這四款華為手機(jī)超高性價(jià)比,最低1199元! 解讀卡羅拉銳放,定位緊湊型SUV,配2.0L+CVT,實(shí)力表現(xiàn)如何? 外觀運(yùn)動(dòng)時(shí)尚的艾瑞澤8,1.6T爆發(fā)197馬力,實(shí)力表現(xiàn)到底如何? 小鵬P7i:6.4秒破百,配XNGP+AI天璣系統(tǒng),產(chǎn)品實(shí)力值得一看 長安啟源A07全新真香版即將上市,產(chǎn)品力依舊保持較高水準(zhǔn) 定位緊湊型SUV,車身軸距2770mm的哪吒X,其實(shí)力表現(xiàn)是否值得一看 9月銷量破萬,豐田亞洲龍2024款,2.0L+CVT,值得入手嗎 10小時(shí)訂單量破5000臺(tái),全新智己LS6比極氪7X更值得考慮? 純電中大型轎車之爭,極越07、領(lǐng)克Z10,誰更具“性價(jià)比”? 塊頭都不小呀!比亞迪騰勢(shì)N9、全新“夏”MPV現(xiàn)身目錄 蘋果推出新款iPad mini 現(xiàn)在即可訂購 10月23日在實(shí)體店開售 一汽紅旗:交付 EH7 榮耀版,助力體育強(qiáng)國 中國車企正在“顛覆”歐洲老牌制造商?小鵬、廣汽紛紛“安撫” 第100萬輛汽車下線 理想汽車成國內(nèi)首個(gè)“百萬輛新勢(shì)力車企” AION V 打頭陣,廣汽開始籌謀歐洲市場(chǎng)
亚洲国产婷婷_手机在线观看国产精品_日本一区二区三区在线视频_亚洲精品成人久久
一本色道久久综合亚洲精品不卡| 国产精品综合| 国内精品福利| 亚洲欧美日韩国产一区二区| 欧美精品成人一区二区在线观看| 黄色欧美日韩| 欧美在线亚洲| 国产日韩综合| 性欧美暴力猛交另类hd| 国产精品久久二区二区| 亚洲视频一二区| 欧美日韩综合在线| 99国产一区| 欧美极品aⅴ影院| 亚洲国产一区二区a毛片| 久久香蕉国产线看观看网| 国内精品嫩模av私拍在线观看| 欧美伊人精品成人久久综合97| 国产精品日韩欧美一区二区三区 | 国产午夜精品视频免费不卡69堂| 亚洲欧美日韩精品久久久| 国产精品每日更新| 亚洲欧美日韩另类精品一区二区三区| 国产精品理论片在线观看| 亚洲婷婷免费| 国产精品一区免费观看| 欧美一级日韩一级| 国产亚洲制服色| 久久免费精品视频| 在线观看亚洲一区| 女同性一区二区三区人了人一 | 国产精品视屏| 久久9热精品视频| 狠狠色狠狠色综合| 美女视频黄免费的久久| 亚洲欧洲中文日韩久久av乱码| 欧美成人黑人xx视频免费观看| 亚洲欧洲精品一区二区精品久久久 | 欧美午夜精彩| 久久久在线视频| 久久成人免费电影| 久久久夜精品| 欧美激情网站在线观看| 欧美色图麻豆| 欧美激情a∨在线视频播放| 久久精品亚洲国产奇米99| 欧美在线地址| 欧美日本韩国一区| 在线看一区二区| 亚洲调教视频在线观看| 久久久久久久97| 国产精品久久久久久五月尺| 亚洲欧洲日本mm| 欧美一区二区三区的| 欧美精品一区二区三区一线天视频 | 亚洲专区欧美专区| 欧美视频不卡中文| 国产一区二区日韩| 洋洋av久久久久久久一区| 麻豆freexxxx性91精品| 国产日韩欧美精品一区| 日韩一级片网址| 亚洲视频中文| 欧美欧美午夜aⅴ在线观看| 国产精品毛片在线| 国产一区二区欧美日韩| 亚洲高清久久| 欧美在线高清视频| 久久夜色精品国产噜噜av| 国产精品久久久久久久电影| 亚洲精品日韩综合观看成人91| 久久九九国产| 韩国三级电影久久久久久| 中文精品99久久国产香蕉| 欧美精品九九| 在线不卡中文字幕| 久久一区视频| 欧美紧缚bdsm在线视频| 91久久精品美女| 久久免费视频网| 国产亚洲欧美色| 99精品免费| 欧美电影在线观看| 99视频超级精品| 国产精品www.| 亚洲精品一区二区在线| 欧美日韩国语| 亚洲老司机av| 欧美日韩国产成人在线91| 亚洲无限乱码一二三四麻| 国产午夜亚洲精品羞羞网站| 另类av导航| 国产一区二区三区电影在线观看 | 国产伦精品一区二区| 亚洲一区二区精品视频| 国产精品视频在线观看| 亚洲欧美日韩视频一区| 欧美日韩三级一区二区| 一区二区三区欧美视频| 国产精品美女久久福利网站| 午夜亚洲性色视频| 玉米视频成人免费看| 欧美日本一区二区视频在线观看| 亚洲欧美国产高清va在线播| 韩日欧美一区| 欧美激情亚洲国产| 国产精品入口夜色视频大尺度 | 国产精品久久午夜| 香蕉亚洲视频| 一区免费视频| 国产毛片一区| 国产精品v欧美精品∨日韩| 午夜精品久久久久久久99黑人| 在线观看欧美一区| 国产精品久久久久久户外露出| 亚洲福利视频三区| 欧美日韩高清在线| 欧美成人激情在线| 亚洲综合精品自拍| 日韩性生活视频| 今天的高清视频免费播放成人| 欧美三级视频在线播放| 久久频这里精品99香蕉| 亚洲综合首页| 亚洲一区二区在线| 正在播放欧美一区| 亚洲精品乱码久久久久久久久| 国产日韩欧美综合一区| 国产精品日韩精品欧美精品| 欧美涩涩视频| 欧美日韩国产片| 欧美一区二区三区喷汁尤物| 亚洲一区日韩| 亚洲影视中文字幕| 亚洲伊人久久综合| 亚洲欧美国产日韩天堂区| 最近中文字幕mv在线一区二区三区四区 | 久久久久久久999精品视频| 影音先锋久久精品| 国产欧美日韩在线播放| 欧美精品免费在线| 久久国产主播| 亚洲另类春色国产| 亚洲欧洲一区二区三区在线观看| 国产日韩精品综合网站| 欧美三区在线观看| 麻豆精品91| 久久综合电影一区| 久久亚洲欧美| 欧美成ee人免费视频| 麻豆精品传媒视频| 久久综合中文| 欧美1区2区| 欧美激情精品久久久久久| 男女激情视频一区| 欧美成人精品在线视频| 男女视频一区二区| 欧美日韩国产系列| 国产精品久久久久久久9999| 国产精品美女午夜av| 国产手机视频一区二区| 一区在线电影| 亚洲国产一成人久久精品| 亚洲一区二区三区视频播放| 免费观看日韩av| 久久精品国产亚洲一区二区| 性做久久久久久久久| 久久久综合精品| 欧美伊人久久久久久久久影院| 亚洲一区精品电影| 久久精品中文字幕一区| 老巨人导航500精品| 狂野欧美激情性xxxx欧美| 欧美视频第二页| 伊人天天综合| 欧美中文字幕第一页| 欧美日韩亚洲一区| 经典三级久久| 亚洲一级黄色片| 欧美91大片| 欧美性淫爽ww久久久久无| 国内欧美视频一区二区| 在线观看欧美亚洲| 久久av在线看| 国产视频综合在线| 亚洲免费中文字幕| 欧美日韩成人精品| 伊人蜜桃色噜噜激情综合| 亚洲欧美综合一区| 欧美性猛交99久久久久99按摩| 亚洲国产另类精品专区| 亚洲欧美日韩精品久久奇米色影视 | 欧美日韩亚洲一区二区三区在线| 欧美日韩国产综合视频在线| 欧美日韩精品中文字幕| 国产女主播一区二区三区| 精品不卡在线| 亚洲网站在线看| 欧美日韩国产三级| 黑人极品videos精品欧美裸| 一区二区日本视频| 久久人人97超碰人人澡爱香蕉| 国产精品久久久久久久久婷婷 | 一本久久知道综合久久|