CLiB中文大模型能力评测榜单

2023-12-15 06:58:12

1 引言

  • 目前已囊括48个大模型,覆盖chatgpt、gpt4、谷歌bard、百度文心一言、阿里通义千问、讯飞星火、360智脑、商汤senseChat、微软new-bing、minimax、tigerbot等商用模型, 以及百川、belle、chatglm6b、ziya、guanaco、Phoenix、linly、MOSS、AquilaChat、vicuna、wizardLM、书生internLM、llama2-chat等开源大模型。

  • 模型来源涉及国内外大厂、大模型创业公司、高校研究机构。

  • 支持多维度能力评测,包括分类能力、信息抽取能力、阅读理解能力、表格问答能力。

2 大模型基本信息

由于大模型较多,下表只展示部分大模型的信息,更多更详细的信息,见https://github.com/jeinlee1991/chinese-llm-benchmark

大模型机构类别链接
chatgpt-3.5openai商用https://chat.openai.com
文心一言百度商用https://yiyan.baidu.com
chatglm官方智谱AI商用https://chatglm.cn
讯飞星火科大讯飞商用https://xinghuo.xfyun.cn/desk
360智脑奇虎360商用https://ai.360.cn/
阿里通义千问阿里巴巴商用https://tongyi.aliyun.com
minimaxminimax商用https://api.minimax.chat
tigerbot-7b官网虎博科技商用/开源https://www.tigerbot.com/
chatglm-6b清华大学&智谱AI开源https://github.com/THUDM/ChatGLM-6B
belle-llama-7b-2m链家科技开源https://github.com/LianjiaTech/BELLE
BELLE-on-Open-Datasets链家科技开源https://github.com/LianjiaTech/BELLE
belle-llama-13b-2m链家科技开源https://github.com/LianjiaTech/BELLE
belle-llama-13b-ext链家科技开源https://github.com/LianjiaTech/BELLE
Ziya-LLaMA-13B-v1IDEA研究院开源https://mp.weixin.qq.com/s/IeXgq8blGoeVbpIlAUCAjA
guanaco-7bJosephusCheung开源https://huggingface.co/JosephusCheung/Guanaco
phoenix-inst-chat-7b港中文开源https://github.com/FreedomIntelligence/LLMZoo
linly-chatflow-13b深圳大学开源https://github.com/CVI-SZU/Linly
MOSS-003-SFT复旦大学开源https://github.com/OpenLMLab/MOSS
AquilaChat-7B智源研究院开源https://github.com/FlagAI-Open/FlagAI/blob/master/examples/Aquila/README.md
tulu-30ballenai开源https://github.com/allenai/open-instruct
chatglm2-6b清华大学&智谱AI开源https://github.com/THUDM/ChatGLM2-6B
Baichuan-13B-Chat百川智能开源https://github.com/baichuan-inc/Baichuan-13B
……………………

3 排行榜

3.1 综合能力排行榜

综合能力得分为分类能力、信息抽取能力、阅读理解能力、数据分析能力四者得分的平均值。

类别大模型总分排名
商用gpt496.11
商用chatgpt-3.593.62
开源tigerbot-70b-chat-v286.53
商用文心一言v2.286.54
商用讯飞星火v385.85
商用谷歌bard84.16
开源tigerbot-70b-chat-v383.57
开源openbuddy-llama2-70b-v10.183.28
开源aquilachat2-34b82.59
商用商汤senseChat81.910
商用文心4.081.811
商用Baichuan2-53B81.812
开源BELLE-Llama2-13B-chat-0.4M79.813
商用豆包79.514
开源qwen-14b-chat79.415
开源Baichuan2-13B-Chat79.416
开源Baichuan2-7B-Chat79.117
商用阿里通义千问79.018
开源belle-llama-13b-2m78.719
开源openbuddy-llama-65b-v876.820
开源xverse-13b-chat76.621
商用chatglm-std76.022
商用chatglm-pro75.823
商用讯飞星火v1.575.524
开源openbuddy-mistral-7b-v13.175.125
商用chatglm-130b-v174.726
开源openbuddy-llama-30b-v7.174.327
商用360智脑74.328
开源Llama-2-70b-chat73.629
开源Qwen-7B-Chat73.530
商用讯飞星火v2.072.831
开源Baichuan-13B-Chat-v272.732
开源chatglm3-6b72.233
开源tulu-30b72.134
开源belle-llama-13b-ext71.235
开源internlm-chat-20b69.836
开源Ziya-LLaMA-13B-v1.169.837
开源belle-llama-7b-2m67.638
开源Linly-Chinese-LLaMA2-13B67.339
开源ziya2-13b-chat67.340
开源linly-chatflow-13b67.241
开源chatglm2-6b66.842
商用minimax66.343
开源vicuna-33b66.144
开源BELLE-on-Open-Datasets65.245
开源wizardlm-13b60.046
开源InternLM-Chat-7B59.047
开源AquilaChat-7B58.048

3.2 分类能力排行榜

类别大模型分类能力排名
商用chatgpt-3.5981
开源tigerbot-70b-chat-v2972
商用gpt4943
开源tigerbot-70b-chat-v3944
商用文心一言v2.2905
开源BELLE-Llama2-13B-chat-0.4M906
开源Qwen-7B-Chat897
商用文心4.0888
开源Baichuan2-7B-Chat889
商用讯飞星火v38710
商用谷歌bard8611
开源openbuddy-llama2-70b-v10.18612
开源xverse-13b-chat8613
商用360智脑8614
开源Llama-2-70b-chat8615
开源qwen-14b-chat8416
商用chatglm-std8417
商用chatglm-pro8418
开源Baichuan2-13B-Chat8319
商用商汤senseChat8220
开源belle-llama-13b-2m8221
商用chatglm-130b-v18222
开源openbuddy-llama-30b-v7.18223
开源Baichuan-13B-Chat-v28224
开源chatglm3-6b8225
开源vicuna-33b8226
开源BELLE-on-Open-Datasets8227
开源phoenix-inst-chat-7b8228
商用微软new-bing8229
商用阿里通义千问8130
商用豆包7931
开源openbuddy-mistral-7b-v13.17932
开源Linly-Chinese-LLaMA2-13B7833
开源aquilachat2-34b7734
商用Baichuan2-53B7635
商用讯飞星火v1.57636
开源tulu-30b7637
开源belle-llama-7b-2m7638
开源ziya2-13b-chat7639
开源belle-llama-13b-ext7440
开源internlm-chat-20b7441
商用讯飞星火v2.07242
开源Ziya-LLaMA-13B-v1.17243
开源linly-chatflow-13b7244
开源chatglm2-6b7045
开源AquilaChat-7B7046
开源openbuddy-llama-65b-v86847
商用minimax6848
开源wizardlm-13b6849
开源InternLM-Chat-7B6250

3.3 信息抽取能力排行榜

类别大模型信息抽取能力排名
商用gpt4941
商用chatgpt-3.5882
商用谷歌bard883
商用文心一言v2.2874
开源tigerbot-70b-chat-v3855
商用商汤senseChat856
开源tigerbot-70b-chat-v2847
开源openbuddy-llama2-70b-v10.1848
商用文心4.0849
商用Baichuan2-53B8410
开源openbuddy-llama-65b-v88411
开源Baichuan2-13B-Chat8312
商用讯飞星火v38213
开源aquilachat2-34b8214
商用阿里通义千问8115
商用讯飞星火v1.58116
商用豆包7717
开源Baichuan2-7B-Chat7618
商用chatglm-130b-v17619
开源tulu-30b7620
开源belle-llama-13b-2m7521
商用讯飞星火v2.07522
开源BELLE-Llama2-13B-chat-0.4M7423
开源openbuddy-llama-30b-v7.17424
开源qwen-14b-chat7225
开源xverse-13b-chat7226
开源openbuddy-mistral-7b-v13.17227
开源Qwen-7B-Chat7228
商用chatglm-std7129
商用360智脑7130
商用chatglm-pro7031
开源Baichuan-13B-Chat-v26932
开源Ziya-LLaMA-13B-v1.16933
开源chatglm3-6b6834
开源chatglm2-6b6835
开源Linly-Chinese-LLaMA2-13B6736
开源Llama-2-70b-chat6637
开源belle-llama-13b-ext6538
开源vicuna-33b6539
开源internlm-chat-20b6440
开源belle-llama-7b-2m6441
开源linly-chatflow-13b6342
开源BELLE-on-Open-Datasets6243
开源phoenix-inst-chat-7b6244
商用minimax6145
开源InternLM-Chat-7B5546
开源ziya2-13b-chat5447
开源wizardlm-13b5248
开源AquilaChat-7B5149
商用微软new-bing4450

3.4 阅读理解能力排行榜?

类别大模型阅读理解能力排名
商用gpt499.31
商用chatgpt-3.595.32
商用文心一言v2.288.03
商用Baichuan2-53B88.04
商用讯飞星火v388.05
开源aquilachat2-34b88.06
开源openbuddy-llama2-70b-v10.186.77
商用谷歌bard85.38
开源qwen-14b-chat84.79
开源tigerbot-70b-chat-v384.010
开源Baichuan2-7B-Chat83.311
商用文心4.083.012
商用商汤senseChat82.713
开源openbuddy-llama-30b-v7.181.314
开源xverse-13b-chat81.315
商用阿里通义千问81.016
开源belle-llama-13b-2m80.717
开源tigerbot-70b-chat-v280.018
商用豆包80.019
开源Ziya-LLaMA-13B-v1.180.020
开源openbuddy-llama-65b-v879.321
商用讯飞星火v2.079.322
开源chatglm3-6b78.723
开源internlm-chat-20b77.324
开源belle-llama-13b-ext76.725
商用讯飞星火v1.576.026
开源BELLE-Llama2-13B-chat-0.4M76.027
商用chatglm-std76.028
商用chatglm-pro76.029
商用微软new-bing76.030
开源tulu-30b75.331
开源Baichuan2-13B-Chat74.732
开源linly-chatflow-13b74.733
开源Qwen-7B-Chat74.034
商用360智脑74.035
开源openbuddy-mistral-7b-v13.173.336
开源Llama-2-70b-chat73.337
商用minimax73.338
开源Baichuan-13B-Chat-v272.739
商用chatglm-130b-v172.740
开源chatglm2-6b72.041
开源wizardlm-13b72.042
开源belle-llama-7b-2m71.343
开源phoenix-inst-chat-7b71.344
开源ziya2-13b-chat71.345
开源BELLE-on-Open-Datasets68.746
开源Linly-Chinese-LLaMA2-13B67.347
开源InternLM-Chat-7B66.048
开源vicuna-33b63.349
开源AquilaChat-7B56.050

3.5?表格问答排行榜(数据分析)

专门考查大模型对表格的理解分析能力,常用于数据分析。

类别大模型表格问答能力排名
商用gpt4971
商用chatgpt-3.5932
商用讯飞星火v3863
开源tigerbot-70b-chat-v2854
开源aquilachat2-34b835
商用豆包826
商用文心一言v2.2817
商用Baichuan2-53B798
开源BELLE-Llama2-13B-chat-0.4M799
商用商汤senseChat7810
商用谷歌bard7711
开源qwen-14b-chat7712
开源belle-llama-13b-2m7713
开源Baichuan2-13B-Chat7714
开源openbuddy-llama2-70b-v10.17615
开源openbuddy-llama-65b-v87616
开源openbuddy-mistral-7b-v13.17617
商用阿里通义千问7318
商用chatglm-std7319
商用chatglm-pro7320
商用文心4.07221
开源tigerbot-70b-chat-v37122
开源Baichuan2-7B-Chat6923
开源belle-llama-13b-ext6924
商用讯飞星火v1.56925
开源Llama-2-70b-chat6926
商用chatglm-130b-v16827
开源ziya2-13b-chat6828
开源xverse-13b-chat6729
开源Baichuan-13B-Chat-v26730
商用360智脑6631
商用讯飞星火v2.06532
开源internlm-chat-20b6433
商用minimax6334
开源tulu-30b6135
开源openbuddy-llama-30b-v7.16036
开源chatglm3-6b6037
开源linly-chatflow-13b5938
开源Qwen-7B-Chat5939
开源belle-llama-7b-2m5940
开源Ziya-LLaMA-13B-v1.15841
开源chatglm2-6b5742
开源Linly-Chinese-LLaMA2-13B5743
开源AquilaChat-7B5544
开源vicuna-33b5445
开源InternLM-Chat-7B5346
开源wizardlm-13b4847
开源BELLE-on-Open-Datasets4848

4 各项能力评分

评分方法:从各个维度给大模型打分,每个维度都对应一个评测数据集,包含若干道题。 每道题依据大模型回复质量给1~5分,将评测集内所有题的得分累加并归一化为100分制,即作为最终得分。

类别大模型分类能力信息抽取能力阅读理解能力数据分析能力综合能力
商用gpt4949499.39796.1
商用chatgpt-3.5988895.39393.6
商用文心一言v2.2908788.08186.5
开源tigerbot-70b-chat-v2978480.08586.5
商用讯飞星火v3878288.08685.8
商用谷歌bard868885.37784.1
开源tigerbot-70b-chat-v3948584.07183.5
开源openbuddy-llama2-70b-v10.1868486.77683.2
开源aquilachat2-34b778288.08382.5
商用商汤senseChat828582.77881.9
商用文心4.0888483.07281.8
商用Baichuan2-53B768488.07981.8
开源BELLE-Llama2-13B-chat-0.4M907476.07979.8
商用豆包797780.08279.5
开源Baichuan2-13B-Chat838374.77779.4
开源qwen-14b-chat847284.77779.4
开源Baichuan2-7B-Chat887683.36979.1
商用阿里通义千问818181.07379.0
开源belle-llama-13b-2m827580.77778.7
开源openbuddy-llama-65b-v8688479.37676.8
开源xverse-13b-chat867281.36776.6
商用chatglm-std847176.07376.0
商用chatglm-pro847076.07375.8
商用讯飞星火v1.5768176.06975.5
开源openbuddy-mistral-7b-v13.1797273.37675.1
商用chatglm-130b-v1827672.76874.7
开源openbuddy-llama-30b-v7.1827481.36074.3
商用360智脑867174.06674.3
开源Llama-2-70b-chat866673.36973.6
开源Qwen-7B-Chat897274.05973.5
商用讯飞星火v2.0727579.36572.8
开源Baichuan-13B-Chat-v2826972.76772.7
开源chatglm3-6b826878.76072.2
开源tulu-30b767675.36172.1
开源belle-llama-13b-ext746576.76971.2
开源internlm-chat-20b746477.36469.8
开源Ziya-LLaMA-13B-v1.1726980.05869.8
开源belle-llama-7b-2m766471.35967.6
开源Linly-Chinese-LLaMA2-13B786767.35767.3
开源ziya2-13b-chat765471.36867.3
开源linly-chatflow-13b726374.75967.2
开源chatglm2-6b706872.05766.8
商用minimax686173.36366.3
开源vicuna-33b826563.35466.1
开源BELLE-on-Open-Datasets826268.74865.2
开源wizardlm-13b685272.04860.0
开源InternLM-Chat-7B625566.05359.0
开源AquilaChat-7B705156.05558.0
开源phoenix-inst-chat-7b826271.3//
商用微软new-bing824476.0//

5??原始评测数据

测评数据地址:https://github.com/jeinlee1991/chinese-llm-benchmark

评测样本示例

分类评测样本举例
请分类以下5种水果:香蕉、西瓜、苹果、草莓、葡萄。
将下列单词按词性分类。狗,追,跑,大人,高兴,树
将下列五个词分为两个组别,每个组别都有一个共同点:狗、猫、鸟、鱼、蛇。
给定一组文本,将文本分成正面和负面情感。举例文本:这部电影非常出色,值得推荐。我觉得导演做得很好。这场音乐会真是个灾难,我非常失望。
将以下10个单词分类为动物或植物。树木、狮子、玫瑰、草地、松鼠、猴子、蘑菇、兔子、山羊、香蕉
……
信息抽取评测样本举例
HR: 你好,我是XYZ公司的招聘主管。我很高兴地通知你,你已经通过了我们的初步筛选,并且我们希望邀请你来参加面试。
候选人:非常感谢,我很高兴收到你们的邀请。请问面试的时间和地点是什么时候和哪里呢?
HR: 面试的时间是下周二上午10点,地点是我们公司位于市中心的办公室。你会在面试前收到一封详细的面试通知邮件,里面会包含面试官的名字、面试时间和地址等信息。
候选人:好的,我会准时出席面试的。请问需要我做哪些准备工作呢?
HR: 在面试前,请确保你已经仔细研究了我们公司的业务和文化,并准备好了相关的问题和回答。另外,请务必提前到达面试现场,以便有足够的时间了解我们的公司和环境。
候选人:明白了,我会尽最大努力准备好的。非常感谢你的邀请,期待能有机会加入贵公司。
HR: 很高兴能和你通话,我们也期待着能和你见面。祝你好运,并期待下周能见到你。
基于以上对话,抽取出其中的时间、地点和事件。
给定以下文本段落,提取其中的关键信息。今天早上,纽约市长在新闻发布会上宣布了新的计划,旨在减少治安问题。该计划包括增加派遣警察的人数,以及启动社区倡议,以提高居民对警察工作的支持度。
在给定的短文中找出三个关键词。西方的哲学历史可上溯至古希腊时期,最重要的哲学流派包括柏拉图学派、亚里士多德学派和斯多葛学派。
从以下诗句中提取人物名称:两个黄鹂鸣翠柳,一行白鹭上青天。
明天天气怎么样?广州明天最冷多少度?广东大后天最暖多少度?北京冷不冷?提取出上述句子中的地理位置实体
……
阅读理解评测样本举例
牙医:好的,让我们看看你的牙齿。从你的描述和我们的检查结果来看,你可能有一些牙齦疾病,导致牙齿的神经受到刺激,引起了敏感。此外,这些黑色斑点可能是蛀牙。病人:哦,真的吗?那我该怎么办?牙医:别担心,我们可以为你制定一个治疗计划。我们需要首先治疗牙龈疾病,然后清除蛀牙并填充牙洞。在此过程中,我们将确保您感到舒适,并使用先进的技术和材料来实现最佳效果。病人:好的,谢谢您,医生。那么我什么时候可以开始治疗?牙医:让我们为您安排一个约会。您的治疗将在两天后开始。在此期间,请继续刷牙,使用牙线,并避免吃过于甜腻和酸性的食物和饮料。病人:好的,我会的。再次感谢您,医生。牙医:不用谢,我们会尽最大的努力帮助您恢复健康的牙齿。基于以上对话回答:病人在检查中发现的牙齿问题有哪些?
文化艺术报讯 国务院办公厅发布关于2023年部分节假日安排的通知,具体内容如下:元旦:2022年12月31日至2023年1月2日放假调休,共3天。春节:1月21日至27日放假调休,共7天。1月28日(星期六)、1月29日(星期日)上班。清明节:4月5日放假,共1天。劳动节:4月29日至5月3日放假调休,共5天。4月23日(星期日)、5月6日(星期六)上班。端午节:6月22日至24日放假调休,共3天。6月25日(星期日)上班。中秋节、国庆节:9月29日至10月6日放假调休,共8天。10月7日(星期六)、10月8日(星期日)上班。基于以上信息回答:2023年五一假期怎么放假。
基于以下表格,请问张三的考勤情况员工姓名,日期,上班时间,下班时间,是否迟到,是否早退,是否请假张三,1月1日,8:30,17:30,否,否,否李四,1月1日,9:00,18:00,是,否,否王五,1月1日,8:00,16:30,否,是,否赵六,1月1日,8:30,17:00,否,否,是张三,1月2日,8:00,17:00,否,否,否李四,1月2日,8:30,17:30,否,否,否王五,1月2日,9:00,18:00,是,否,否赵六,1月2日,8:30,17:00,否,否,是
对于给定的问答对,判断问题是否被正确回答问题:地球是第几颗行星?答案:地球是第三颗行星。
根据以下文本回答问题:什么是能量守恒定律?物理学是自然科学的一个重要分支,研究自然界的物质、能量、空间和时间等基本概念。在物理学的研究中,科学家们探索了宇宙的奥秘,从微观粒子到宏观天体的各个方面都进行了深入研究。在物理学中,一个重要的概念是能量守恒定律。能量守恒定律指出,一个孤立系统的总能量在任何时间都是不变的。也就是说,能量不能被创造或摧毁,只能被转化成其他形式。例如,当一个物体被提起并释放时,它的势能被转化为动能,使得物体开始运动。
……

大模型输出结果示例

prompt输入chatgpt3.5输出
将下列单词按词性分类。狗,追,跑,大人,高兴,树好的,以下是这些单词按照词性分类后的结果:名词:狗、大人、树动词:追、跑形容词:高兴
从以下诗句中提取人物名称:两个黄鹂鸣翠柳,一行白鹭上青天。这句诗出自唐代诗人杜甫的《绝句》,并没有明确提到人物名称。这句诗主要是在描绘自然景色,通过形象生动的语言来表现春天的美丽景象。诗中提到“两个黄鹂”,“一行白鹭”,他们是动物而非人物名称。黄鹂是一种鸟类,它们身体鲜黄色,嘴巴呈钩形,叫声清脆悦耳;白鹭是另一种水鸟,身体白色,嘴巴细长,善于捕捉鱼类等。杨婉这句诗意境深远,很好地表现了大自然的美丽和神奇。
…………

6 评测的目的和意义

  • 大模型百花齐放,也参差不齐。不少媒体的宣传往往夸大其词,避重就轻,容易混淆视听;而某些公司为了PR,也过分标榜自己大模型的能力,动不动就“达到chatgpt水平”,动不动就“国内第一”。 所谓“外行看热闹,内行看门道”,业界急需一股气流,摒弃浮躁,静下心来打磨前沿技术,真真正正用技术实力说话。这就少不了一个公开、公正、公平的大模型评测系统,把各类大模型的优点、不足一一展示出来。 如此,大家既能把握当下的发展水平、与国外顶尖技术的差距,也能更加清晰地看明白未来的努力方向,而不被资本热潮、舆论热潮所裹挟。

  • 对于产业界来说,特别是对于不具备大模型研发能力的公司,熟悉大模型的技术边界、高效有针对性地做大模型技术选型,在现如今显得尤为重要。 而一个公开、公正、公平的大模型评测系统,恰好能够提供应有的助力,避免重复造轮子,避免因技术栈不同而导致不必要的争论,避免“鸡同鸭讲”。

  • 对于大模型研发人员,包括对大模型技术感兴趣的人、学术界看中实践的人,各类大模型的效果对比,反应出了背后不同技术路线、技术方法的有效性,这就提供了非常好的参考意义。 不同大模型的相互参考、借鉴,帮忙大家躲过不必要的坑、避免重复实验带来的资源浪费,有助于整个大模型生态圈的良性高效发展。

文章来源:https://blog.csdn.net/lsb2002/article/details/134884388
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。