FlagEval

4周前更新 29,414 47 0

智源研究院推出的FlagEval（天秤）大模型评测平台

收录时间：

2026-02-13

打开网站手机查看

FlagEval

打开网站

FlagEval是什么

FlagEval（天秤）是北京智源人工智能研究院（BAAI）推出的科学、公正、开放的大模型评测体系及开放平台，为研究人员提供全面评估基础模型及训练算法性能的工具和方法。FlagEval采用“能力-任务-指标”三维评测框架，从多个维度对大模型的认知能力进行评估，涵盖对话、问答、情感分析等多种应用场景，提供超过22个数据集和8万道评测题目。平台支持多模态模型评测，覆盖文本、图像、视频等多种数据类型，兼容多种AI框架和硬件架构。FlagEval提供自动化评测机制，支持主观与客观评测的全自动流水线，帮助研究人员高效、准确地了解模型性能，推动大模型技术的发展。

FlagEval

FlagEval的主要功能

多维度评测框架：采用“能力-任务-指标”三维评测框架，从多个维度全面评估大模型的认知能力，涵盖对话、问答、情感分析等多种应用场景。
丰富的评测数据集：提供超过22个数据集和8万道评测题目，覆盖不同应用场景、难度级别和语言类型，确保评测的全面性和准确性。
多模态支持：支持文本、图像、视频等多种模态的模型评测，满足不同类型模型的评估需求。
自动化评测机制：实现主观评测和客观评测的全自动流水线，支持自适应评测机制，用户可根据模型类型和状态选择评测策略，提高评测效率。
广泛的模型覆盖：涵盖超过800个开源和闭源模型，支持多种AI框架（如PyTorch和MindSpore）和硬件架构（如NVIDIA、昇腾、寒武纪和昆仑芯等）。
排行榜与结果展示：提供详细的评测数据表格和排行榜，展示不同模型的评测结果，帮助研究人员直观了解模型性能。
社区参与与持续更新：鼓励社区参与，欢迎研究人员和开发者贡献评测数据集和模型，持续更新评测内容，确保评测的时效性和全面性。

如何使用FlagEval

注册与登录：访问 FlagEval 官网，注册并登录用户账户。
准备模型与代码：根据 FlagEval 平台的要求，准备好待评测的模型文件、推理代码及相关配置文件。例如，在计算机视觉（CV）领域，需要提供模型的基本信息，如输入图像的预处理参数、任务相关的批处理大小等。
安装 FlagEval-Serving 工具：通过安装 FlagEval-Serving 工具，用户可以上传模型、代码和数据等待评测的文件。
上传模型与代码：在 FlagEval 平台上点击“上传模型 & 代码”，获取上传所需的 token，然后使用命令行工具上传模型文件和代码。
创建评测任务：在评测任务列表页面，点击“创建评测”，填写相关参数，包括评测领域、模型名称、描述、评测任务、镜像选择、卡型选择等。
提交评测任务：完成上述设置后，提交评测任务，平台将自动运行评测流程。
查看评测结果：评测完成后，用户可以在平台上查看详细的评测结果，包括性能指标、可视化图表等。
注意事项：
- 数据准备：确保评测任务数据质量和相关性，以获得准确结果。
- 模型一致性：同一评测任务需在同一模型版本下进行比较，避免干扰。
- 参数设置：合理调整评测参数，如样本数量和运行时间，确保公平性。
- 结果解读：关注置信区间和统计显著性，避免误解小样本差异。

FlagEval的应用场景

学术研究与模型开发：FlagEval为研究人员提供了标准化的评测工具和数据集，帮助他们深入分析模型在不同任务和场景下的表现，优化研究方向和模型架构。研究人员可以用FlagEval评估不同模型的性能，诊断模型的优势与不足，指导模型的进一步优化。
工业应用与企业决策：企业可以用FlagEval评估内部开发的模型或第三方提供的模型，支持业务决策和产品选型。
多模态与跨领域应用：FlagEval支持多模态模型的评测，包括文本、图像、视频、音频等多种模态的任务。例如，在开发文本到图像生成模型时，FlagEval能帮助开发者深入洞察模型在不同细节层面的表现，优化生成逻辑。
教育领域与人才培养：教育机构可以用FlagEval进行教学和研究，帮助学生和研究人员掌握AI模型评测的方法和技巧，培养AI领域的专业人才。
国际模型对比与生态建设：FlagEval覆盖了全球800多个开源和闭源模型，支持跨国模型的性能对比，帮助用户了解国内外模型的差距，推动AI技术的国际交流与合作。

数据统计

47 条评论

丸子妹妹读者

暗色主题配合深灰背景会舒服点，眼睛不酸

1个月前中国山东

回复
血月降临读者

一键上传省事儿，省了两天手活

1个月前中国河南

回复
丸子头读者

排行榜刷分太假笑 😂

1个月前中国上海

回复
加密骑士读者

加个中文问答细粒度指标，区分情感正负、事实与推理，还能输出置信区间，这样选模型更靠谱

4周前澳大利亚

回复
- 雾中独行客读者
  
  能不能把中文问答的情感细分也加入？我想看正负情绪的分布
  
  3周前中国上海@ 加密骑士
  
  回复
光影梦境游客

模型评测报告细节很到位

3周前中国黑龙江

回复
孤月夜读者

评测覆盖的模型太多，挑选时真是眼花缭乱

3周前中国广东

回复
剑挽风读者

能不能加个自动对比不同模型的趋势图？对比一下更直观

3周前韩国

回复
都督读者

排行榜总是被同几个大厂刷，真的让人怀疑公平性，想看看真实排名到底差多少呢，太让人无语了

3周前中国北京

回复

FlagEval

FlagEval是什么

FlagEval的主要功能

如何使用FlagEval

FlagEval的应用场景

数据统计

相关导航

腾讯混元大模型

Coze

新Leewow

AutoGPT

LLaMA

CodiumAI

Suna

CodeSnippets

47 条评论