2023大语言模型综合能力评测报告

2023大语言模型综合能力评测报告插图

2022年年末以来,人工智能大模型成为技术领域乃至全球创新领域最炙手可热的话题。以ChatGPT引领的大模型产品发展日新月异,有预测数据显示,到2030年,AIGC的市场规模或将超过万亿人民币。2023年国内主要厂商也相继推出自研的大语言模型产品,另外国内也推出了大量的大语言模型应用,逐步构建起基于中文语言特色的大语言模型生态。

InfoQ研究中心本次针对大语言模型产品的研发要素、大语言模型产品的核心特征进行研究,并选取语言模型准确性、数据基础、模型和算法的能力、安全和隐私四个大维度,拆分出语义理解、语法结构、知识问答、逻辑推理、代码能力、上下文理解、语境感知、多语言能力、多模态能力、数据基础、模型和算法的能力、安全和隐私12个细分维度,分别对ChatGPT、Claude、Sage、天工3.5、文心一言、通义千问、讯飞星火、Moss、ChatGLM、vicuna-13B进行了超过3000+道题的评测。

另外,本次研究特别关注了技术视角中大模型产品的编程能力,提高了问题的权重和比例;同时也专门设置了关于中文语境的特色测试题目,如方言测试、中文特色推理、对对联等题目。InfoQ研究中心希望可以通过本次测评帮助更多技术领域同仁获得对于中外大模型产品能力的逻辑认知,以帮助大家在AGI创业方向选择、工作实际应用等方面获得最新认知。

资源下载地址

该资源需登录后下载

去登录
温馨提示:本资源来源于互联网,仅供参考学习使用。若该资源侵犯了您的权益,请 联系我们 处理。