語(yǔ)種
中文簡(jiǎn)體 中文繁體 English
營(yíng)業(yè)廳
網(wǎng)上營(yíng)業(yè)廳 掌上營(yíng)業(yè)廳
返回頂部
中國(guó)電信研究院發(fā)布“天罡”通用大模型評(píng)測(cè)榜單
翼研 2024-08-27 人民郵電報(bào)
分享:
   

近日,依托2024年世界人工智能大會(huì)發(fā)布的中國(guó)電信AI模型評(píng)測(cè)聯(lián)創(chuàng)基地,中國(guó)電信研究院攜手上海人工智能實(shí)驗(yàn)室、清華大學(xué)等產(chǎn)學(xué)研機(jī)構(gòu)發(fā)布了全面覆蓋“能力—任務(wù)—性能—安全”四級(jí)的“天罡”大模型評(píng)測(cè)指標(biāo)體系,并基于該體系首次發(fā)布了“天罡”通用大模型評(píng)測(cè)榜單。該榜單重點(diǎn)圍繞大模型的能力和安全指標(biāo)進(jìn)行評(píng)估。模型能力評(píng)估涵蓋知識(shí)百科、語(yǔ)言理解、認(rèn)知推理、模型幻覺(jué)、智能體等多個(gè)維度;安全評(píng)估重點(diǎn)考察大模型輸出生成內(nèi)容,涵蓋意識(shí)形態(tài)、安全隱私、倫理道德、安全對(duì)抗攻擊等維度,其中與國(guó)家主流價(jià)值觀和網(wǎng)絡(luò)信息安全要求的相符度為重要評(píng)估因素。

當(dāng)前,人工智能技術(shù)的迅速發(fā)展賦能大模型強(qiáng)大的生成能力和表示泛化能力。隨著開(kāi)源大模型與閉源大模型的不斷迭代發(fā)展,如何有效評(píng)估模型能力,并構(gòu)建一套標(biāo)準(zhǔn)化、系統(tǒng)化、自動(dòng)化的評(píng)測(cè)體系,成為全行業(yè)亟待解決的問(wèn)題。

本次測(cè)評(píng)通過(guò)全面評(píng)測(cè)維度、權(quán)威評(píng)測(cè)題庫(kù)、動(dòng)態(tài)抽題、多裁判模型判別和人工審核等機(jī)制對(duì)國(guó)內(nèi)外主流通用大模型開(kāi)展了評(píng)測(cè),評(píng)測(cè)對(duì)象包括國(guó)際頭部閉源OpenAI的GPT-4系列、Google的Gemini系列、Anthropic的Claude系列、國(guó)內(nèi)主流的閉源模型以及國(guó)內(nèi)外主流的開(kāi)源模型,評(píng)測(cè)結(jié)果展示了當(dāng)前開(kāi)源/閉源通用大模型整體能力分布和差距,為大模型持續(xù)創(chuàng)新發(fā)展和賦能行業(yè)場(chǎng)景應(yīng)用提供重要參考。

此次“天罡”通用大模型評(píng)測(cè)結(jié)果揭示了國(guó)內(nèi)外通用大模型的三大能力發(fā)展趨勢(shì)。一是GPT-4o在語(yǔ)言理解、認(rèn)知推理、智能體等方面表現(xiàn)出色,其憑借強(qiáng)大的綜合能力領(lǐng)跑全行業(yè),與此同時(shí)國(guó)內(nèi)頭部大模型豆包、智譜清言在中文場(chǎng)景已達(dá)到GPT-4o的90%分位水平,表現(xiàn)突出;二是開(kāi)源整體落后于閉源,但開(kāi)閉源差距逐漸縮小,當(dāng)下千億級(jí)參數(shù)規(guī)模開(kāi)源大模型能力已逼近業(yè)內(nèi)主流閉源大模型,其中國(guó)內(nèi)開(kāi)源大模型Qwen2系列能力表現(xiàn)尤其突出;三是國(guó)外領(lǐng)先的開(kāi)源大模型Llama3系列模型在中文場(chǎng)景下模型能力表現(xiàn)較弱。

隨著中國(guó)電信AI模型評(píng)測(cè)聯(lián)創(chuàng)基地和“天罡”評(píng)測(cè)體系的發(fā)布,中國(guó)電信研究院將進(jìn)一步和產(chǎn)學(xué)研機(jī)構(gòu)協(xié)同合作,通過(guò)評(píng)測(cè)對(duì)國(guó)內(nèi)外通用大模型技術(shù)能力進(jìn)行全面對(duì)標(biāo)、對(duì)大模型產(chǎn)業(yè)趨勢(shì)進(jìn)行深入分析,以評(píng)測(cè)促創(chuàng)新、促發(fā)展、促安全。

掃一掃在手機(jī)打開(kāi)當(dāng)前頁(yè)