luyuanhong 发表于 2023-6-24 08:10

百度文心大模型已内测,实测分超 ChatGPT

百度文心大模型已内测,实测分超 ChatGPT

作者:赵广立 来源:中国科学报微信公众号 发布时间:2023/6/20 21:09:10

6 月 20 日消息,据内部人士透露,百度文心大模型 3.5 版本已内测可用。早在 5 月末中关村论坛上,百度创始人、董事长兼 CEO 李彦宏透露,百度大模型产品“文心一言”的“母本”将迎来 3.5 版本,距今时隔不到一个月。

最新版本文心大模型达到了怎样的实力?在公开测试集上进行的基础模型少样本(Few-Shot)评测显示,文心大模型 3.5(ERNIE 3.5)在多个测试集的得分已超过 ChatGPT 。



三大评测基准综合评估 上万道考题“统考”主流大模型

为验证主流大模型的各项综合能力,评测在 AGIEval 、C-Eval 和 MMLU 三个权威评测基准上进行综合评估。

AGIEval 评测基准是微软研究院发布的、专门用于评估模型在“以人为本”的标准化考试中表现水平的测试集。该基准选取 20 种面向普通人类考生的官方、公开、高标准的资格考试,包括普通大学入学考试(如中国的高考和美国的SAT考试)、司法考试、数学竞赛、律师资格考试、国家公务员考试以及美国的 GRE 、GMAT 等。

C-Eval 评测基准是由上海交通大学、清华大学以及爱丁堡大学联合创制和发布的中文基础模型评测集。它包含 13948 个多项选择题、涵盖 52 个不同的学科,设置了四个难度级别,是面向中文语言模型的综合考试评测集。

MMLU 是伯克利大学、哥伦比亚大学、伊利诺伊大学厄巴纳-香槟分校和芝加哥大学联合发布的一种大规模多任务语言理解的基准测试,用于衡量模型的英文跨学科专业能力。该测试包含 57 个科目,涵盖 STEM 、人文、社会科学等。

除了文心大模型 3.5 ,评测的模型还有 ChatGPT 、GPT-4 、ChatGLM 、LLaMa 系列大模型。评测可以看出大模型在能力上的优劣,同时对模型的迭代发展也有着很强的指导作用。

评测结果:文心大模型 3.5 中文能力超 GPT-4 ,综合能力超 ChatGPT

在 AGIEval 、C-Eval 等中英文权威测试集和 MMLU 英文权威测试集中,国产文心大模型3.5 取得了超过 ChatGPT 和 LLaMa 、ChatGLM 等其他大模型的分数表现,在中文评测项中超越了 GPT-4 。

在中文 AGIEval 评测中,文心大模型 3.5 得分 64.37 ,远超 ChatGLM-6B 、LLaMa-7B 、LLaMa-13B 、LLaMa-65B ,同时还超过了 ChatGPT 的 40.27 分和 GPT-4 的56.96 分,位居第一。AGIEval 评测英文部分中,GPT-4 得分 65.55 居于首位,文心大模型 3.5 得分录得50.59 分,仅次于 GPT-4 。紧随其后的是 ChatGP T录得 48.7 5分。

在中文 C-Eval 评测中,文心大模型 3.5 测出 71.93 的最高得分,不仅高于 ChatGPT 的 51.70 分,还略高于 GPT-4 的 68.57 分,领先于 LLaMa-65B 、LLaMa-7B 、ChatGLM-6B 的得分。

在英文 MMLU 测试中,GPT-4 和 ChatGPT 的表现较好,分别以 82.47 分和 68.85 分领先于其他大模型。文心大模型 3.5 得分 65.10 紧随其后,优于 LLaMa-65B 、LLaMa-13B 、LLaMa-7B 、ChatGLM-6B 等模型分数。

从上述评测得分来看,文心大模型 3.5 版中文能力突出,甚至有超出 GPT-4 的表现;综合能力稍逊于 GPT-4 ,但已经在评测中超过了 ChatGPT ,远远领先于其他开源大模型。

国产大模型中文能力优势突出 综合能力加速缩小差距

尽管市面上有多个大模型横空出世,但大模型研发门槛高、难度大、投入高,依赖算力、数据等综合支撑的现实不容忽视。在推动大模型产业化的路上,中国企业如何在大模型发展过程中发挥所长优势,加速缩小差距?

中国工程院院士邬贺铨曾在接受采访时表示,中国企业在获得中文语料和对中国文化的理解方面比外国企业有天然的优势,中国制造业门类最全,具有面向实体产业训练产业 AIGC 的有利条件。同时,在算力方面中国已具有较好的基础。

以百度文心大模型 3.5 为例,与 3.0 版本相比,通过各项算法和数据的优化,尤其是百度首创的知识增强和检索增强技术的优化,新版本文心大模型在各项能力上均有明显提升。据了解,百度人工智能四层架构的端到端优化,尤其是框架和模型层的协同优化,让文心大模型训练速度、模型效果加速提升。

创新工场董事长兼 CEO 李开复也曾公开表示“中国拥有丰富的中文语料和庞大的市场,通过发展 AI 大模型,中国可以推动创新产业的发展,实现科技与经济的双重红利。而且中国拥有庞大基数的年轻工程师和最坚韧的企业家,为发展AI大模型提供了强大的人才支持,技术领先、策略灵活、市场反应快、能打硬仗、落地执行力强,将是中国大模型公司的成功关键。”

眼下,市场呼唤大模型,呼唤先进可用的 AI 大模型。相信以百度等为代表的中国科技公司,基于对中国文化的感悟和对中国市场的理解,能够做出不逊于国外公司的 AI 应用。在数智化的征程上,中国企业应积极迎接挑战,持续创新。

页: [1]
查看完整版本: 百度文心大模型已内测,实测分超 ChatGPT