【深度】谁在评价大模子?AI大模子评测榜单乱象侦查
“大模子”无疑仍是当下科技互联网界最大的热点。2022年尾,OpenAI宣布ChatGPT3.5,抖客教程网,像一粒投入池塘的石子,迅速在海内人工智能赛道激发荡漾。
据中国科学技能信息研究所于本年5月宣布的不完全统计数据,海内10亿参数局限以上的模子产物数已达79个,堪称“百模大战”。百度、腾讯、阿里、科大讯飞、商汤、百川智能等大厂或明星创业者教育的科技企业,纷纷跑步入场。
与“百模大战”一样让人目眩凌乱的是,针对大模子产物宣布的评测榜单也层出不穷。理论上讲,本领临近的大模子在差异排行榜上的功效差距不应很大。但实际上,他们在差异榜单的排名功效大概是天壤之别。
8月15日,新华社研究院宣布了《人工智能大模子体验陈诉2.0》,对海内主流大模子举办利用体验的横向测评。该榜单用500道题目评测了海内8款主流AI大模子,最终讯飞星火排名第一,百度文心一言排名第二,阿里通义千问排在倒数第二。
8月28日,SuperCLUE宣布了中文大模子8月榜单,这是百模大战时代出镜率最高的榜单。总榜之上,GPT-4排名第一,百川智能的Baichuan-13B-Chat排在中文榜单首位。
9月,学术界当红开源评测榜单C-Eval最新一期排行榜中,云天励飞的大模子“云天书”排在第一,而GPT-4仅名列第十。
这三个榜单别离来自权威媒体、业界、学术界,已经是各自规模较为风行的榜单,功效差别尚且如此庞大,遑论其他。
据界面新闻记者相识,此刻海表里各类叫得上名的大模子评测榜单不下50个,而他们的排名功效,鲜有一致。
有趣的是,一些榜单甚至利用了沟通的评测集,但排名功效依然差别很大。就像是同一批运带动们换了个园地跑步,后果排名却迥然差异。那么问题到底是出在运带动,照旧在发令枪?
两个维度评价大模子自ChatGPT问世到百模大战,8个月以来,评价一款大模子有两个公认的显化尺度:一是参数量,二是评测集。
参数量指模子中可进修的参数数量,包罗模子的权重和偏置。参数量的巨细抉择了模子的庞洪水平,更多的参数和层数,是大模子区别于小模子的符号性特点。2022年,美国一批大模子表态,从Stability AI宣布由文字到图像的生成式模子Diffusion,再到OpenAI推出的ChatGPT,模子参数局限开始进入百亿、千亿级别时代。
从外貌指标看,千亿参数的模子普遍比百亿级表示更好。不外也有少量破例,并且同样参数级此外模子应该如何判别黑白?这就需要引入大模子的第二个评测维度:评测集。
所谓评测集,是为有效评估基本模子及其微调算法在差异场景、差异任务上的综合结果,所构建的单任务或多任务的统一基准数据集,有果真和关闭两种形态。
这些评测集就像针对差异规模的考卷,通过测试大模子在这些“考卷”中的得分,人们可以更直观地较量大模子的机能坎坷。
在小模子时代,大大都模子机构城市利用学术类评测集结果来作为评判模子优劣的依据。此刻,大模子厂商也开始越发主动地参加到学术界基准测试框架中来,视其为权威背书与营销依据。
好比Meta宣布开源大模子LIama2之际,就在相关技能论文里明晰先容了其于多个学术评测集之上的表示,并果真了在GSM8K和MMLU两款评测集上与闭源GPT-3.5的比拟功效。
今朝,国际上用的较多的大模子评测集是MMLU。它源自伯克利大学,思量了57个学科,容纳了从人文到社科到理工多个大类的综合常识本领,被直接用于GPT-3.5、GPT-4和PaLM系列大模子的研发进程,海内科技大厂大大都环境也都基于这个框架举办评测。
商汤在宣布最新财报时,专门先容了新模子InternLM-123B在快要30个学术评测集上的表示,也将MMLU的评测后果放在首位,并跟Meta的llama2做了横向得分较量。