欢迎访问抖客教程网!

抖客教程网

您现在的位置是:主页 > 运营技巧 >

运营技巧

英伟达新研究:上下文长度虚标严重,32K机能及格的都不多【图文】

发布时间:2024-06-04 16:45:01运营技巧评论
英伟达新研究:上下文长度虚标严重,32K机能及格的都不多 英伟达最近的研究展现了长上下文大模子存在虚标现象,涉及包罗GPT-4在内的10个知名模子。这些模子宣称能处理惩罚128K以致1

英伟达新研究:上下文长度虚标严重,32K机能及格的都不多

英伟达最近的研究展现了长上下文大模子存在虚标现象,涉及包罗GPT-4在内的10个知名模子。这些模子宣称能处理惩罚128K以致1M的上下文长度,但在英伟达设计的新指标“有效上下文”测试下,抖客教程网,能维持32K有效长度的模子已显稀缺。这一新基准名为RULER,它通过检索、多跳追踪、聚合及问答四类共13项任务,评估模子处理惩罚长文本的真实本领,确保存眷点在于模子的领略而非纯真的信息回想。英伟达新研究:上下文长度虚标严重,32K机能及格的都不多

RULER基准的奇特之处在于淘汰了对模子预存“参数化常识”的依赖,加强了评测的公正性和全面性。比方,它不只进级了传统的单一检索任务,还引入了多针检索、多值检索、多查询检索等巨大情景,以及模仿指代消解的变量追踪、词汇提取和抗滋扰的长序列问答等挑战,全方位检讨模子的长文本处理惩罚实力。

英伟达新研究:上下文长度虚标严重,32K机能及格的都不多

尝试涵盖了从6B至8x7B参数局限不等的10个模子,包罗GPT-4及其他开源模子如Command-R、Yi-34B等,最大上下文长度跨度从32K至1M。在RULER的严格测试下,尽量大都模子在其标称的长上下文范畴内表示精彩,但深入阐明发明,仅Mixtral模子能在其声明的长度上一连逾越基线机能。GPT-4在4K长度下揭示出最佳机能,且在扩展至128K时机能下降最少。开源模子中,Command-R、Yi-34B及Mixtral因回收较大RoPE基频和更多参数,表示突出。

英伟达新研究:上下文长度虚标严重,32K机能及格的都不多

进一步的研究还摸索了输入长度、任务巨大度对模子表示的影响,以及模子巨细、架构对长上下文处理惩罚本领的浸染。功效显示,增大练习上下文凡是晋升机能,但结果不恒定;模子局限扩大显著有利于长文能力略;非Transformer架构模子在此类任务上表示不及基于Transformer的模子。

英伟达新研究:上下文长度虚标严重,32K机能及格的都不多

对付那些盼愿深入相识模子长文本处理惩罚本领范围及优化偏向的研究者而言,英伟达的这项研究无疑提供了名贵的洞见和实证基本。

热心评论

评论列表