写在前面

仅作个人学习记录用。本文主要记录部分开源的金融大模型评测基准数据集和通用大模型的中文评测基准数据集(持续更新)

一、为什么要评测大模型

第一,评测大模型有助于我们更好地了解大模型的优势和劣势。一个极端的例子是网友“欺骗”ChatGPT 生成Win10、Win11密钥的事件。只需要一点提问技巧,就能让 ChatGPT 生成 Win11 和 Win10 系统的产品密钥。大模型评测任务可以有效防范这些事件的发生。

第二,更好的评测方法可以更好地指导人机交互,对未来的交互设计和实现有启发作用。例如,PromptBench基准表明,当前的大模型对对抗性提示很敏感,因此在人机交互,输入提示时需要更加仔细的提示工程来提高模型性能。

第三,大模型的广泛适用性强调了确保其安全性和可靠性的重要性,特别是在金融机构和医疗行业等敏感行业。

详见综述 A Survey on Evaluation of Large Language Models

二、金融大模型评测基准

1. BBT CFLEB

官网:https://bbt.ssymmetry.com/evaluation.html

BBT CFLEB是中文领域金融大模型的专业的评测数据集,包含八个标准语言任务,包括论坛情绪分析FinFE 、事件抽取 FinQA、因果事件抽取FinCQA、新闻文本摘要FinNA、事件关系抽取FinRE、负面消息识别及主体判定FinNSP、新闻分类FinNL、事件主体抽取FinESE,用以衡量不同的模型的多维能力,并促进金融大模型研发。

2. DISC-Fin-Eval-Benchmark

Github:https://github.com/FudanDISC/DISC-FinLLM/tree/main/eval

DISC-FinLLM评估框架包括四个不同的组成部分,即:金融NLP任务、人类试题、资料分析和时事分析。这一评估框架全面地证明了我们模型能力和训练数据的有效性。该方法也使用BBT CFLEB进行部分的评测任务,详见 链接

3. FinEval

Github:https://github.com/SUFE-AIFLM-Lab/FinEval/blob/main

FinEval是一个中文的包含高质量多项选择题的集合,涵盖金融、经济、会计和证书等领域。它包括4,661个问题,涵盖了34个不同的学术科目。为了确保对模型性能进行全面的评估,FinEval采用了多种方法,包括zero-shot,few-shot,仅预测答案(answer-only)和思维链(chain-of-thought)提示词。问题包括34个不同的科目,这些科目随后被分为更广泛的类别,包括金融、经济、会计和证书。

4. FLARE_ZH

Github:https://github.com/chancefocus/PIXIU/blob/main/README.zh.md
Huggingface:https://huggingface.co/collections/ChanceFocus/flare-evalution-datasets-chinese-65292963a8cd8847517204a2

FLARE_ZH是用于FinMA性能评测的中文评估基准框架,包括了一系列任务和指标,涵盖了金融自然语言处理和金融预测的各个方面。

5. FinanceIQ

Github:https://github.com/Duxiaoman-DI/XuanYuan/tree/main/FinanceIQ

FinanceIQ是一个专注于金融领域的中文评估数据集,重点评估大语言模型在金融场景下的知识和推理能力。FinanceIQ涵盖了10个金融大类及36个金融小类,总计7173个单项选择题。

6. 手动构造基准

第一种方法是,利用现成的金融问答题目和答案。例如,将财经计算题组成数据集,用于评估模型在金融计算任务中的能力,其中财经计算题可以从中国行政职业能力测验中的材料分析计算题等途径得到。

第二种方法是,基于性能较好的大模型,例如GPT-4模型作出评估,构建金融问题数据集,其中的问题需要模型使用最新信息来获得准确答案。然后们在谷歌等搜索引擎中手动搜索,以收集与每个问题相关的多个参考文段。

三、通用大模型评测基准

1. C-Eval

Github:https://github.com/hkust-nlp/ceval#data
官网:https://cevalbenchmark.com/

C-Eval是一个综合性的中文基础模型评估基准,由清华大学、上海交通大学和爱丁堡大学合作完成。它包括13948个选择题,跨越52个不同的学科和四个难度等级。

2. Xiezhi (獬豸)

Github:https://github.com/mikegu721/xiezhibenchmark

Xiezhi(獬豸)是一个针对大模型的综合评估基准。它包括249587道选择题,跨越516个不同的学科,包括金融、医学、心理学、工程学、历史等,共有四个难度等级。值得注意的是,Xiezhi的测评方式是自测。

3. FlagEval(天秤)

Github:https://github.com/FlagOpen/FlagEval
官网:https://flageval.baai.ac.cn/#/home

FlagEval (天秤)大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时探索利用AI方法实现对主观评测的辅助,大幅提升评测的效率和客观性。FlagEval (天秤)创新构建了“能力-任务-指标”三维评测框架,细粒度刻画基础模型的认知能力边界,可视化呈现评测结果。目前已推出语言大模型评测、多语言文图大模型评测及文图生成评测等工具,并对广泛的语言基础模型、跨模态基础模型实现了评测。评测需要安装flageval提供的工具(python库)上传模型,自己提供预测代码,平台提供算力。

4. OpenCompass

官网:https://opencompass.org.cn

OpenCompass是一个开源、高效、全面的评估基准和平台,专为大模型设计。提供了一个完整的开源和可复制的评估框架,支持对大型语言模型和多模态模型进行一站式评估。代码和数据都开源。评测共有五大维度,提供 70+ 个数据集约 40 万题的的模型评测方案。提交方法通过模型仓库地址或标准的 API 接口,平台提供算力。


本部分仅列出部分测评数据量大、参考价值较高的中文评测数据集。

然而,任何评测数据集的参考价值都需要酌情评估。因为任何评测都有其局限性,以及任何的榜单都可以被不健康的刷榜。 例如,在榜单上得到高分的方式有:从GPT-4的预测结果蒸馏,找人工标注然后蒸馏,在网上找到原题加入训练集中微调模型——然而这样得到的分数是没有意义的。

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐