Open LLM Leaderboard

3个月前发布 21,255 16 0

Hugging Face推出的开源大模型排行榜单

收录时间：

2026-03-08

打开网站手机查看

Open LLM Leaderboard

打开网站

Open LLM Leaderboard是什么

Open LLM Leaderboard 是最大的大模型和数据集社区 HuggingFace 推出的开源大模型排行榜单，基于 Eleuther AI Language Model Evaluation Harness（Eleuther AI语言模型评估框架）封装。Open LLM Leaderboard通过多种基准测试（如 IFEval、BBH、MATH 等），从指令遵循、复杂推理、数学解题、专业知识问答等多个维度对模型进行评估。排行榜涵盖预训练模型、聊天模型等多种类型，提供详细的数值结果和模型输入输出细节。Open LLM Leaderboard 能帮助用户筛选出当前最先进的模型，推动开源社区的进步。

Open LLM Leaderboard 的主要功能

多维度基准测试：包括多种基准测试（如 IFEval、BBH、MATH、GPQA 等），涵盖指令遵循、复杂推理、数学解题、专业知识问答等多个领域，全面评估模型能力。
多种模型类型支持：支持预训练模型、持续预训练模型、领域特定微调模型、聊天模型等，覆盖不同应用场景。
详细结果展示：提供详细的数值结果和模型输入输出细节，帮助用户深入了解模型表现。
社区互动：社区成员对模型进行标记和讨论，确保排行榜的公正性和透明度。
可复现性支持：提供代码和工具，帮助用户复现排行榜上的结果，增强研究的可信度。

Open LLM Leaderboard 的评估基准

IFEval：评估模型遵循明确指令的能力，如格式要求，使用严格准确率指标。
BBH（Big Bench Hard）：用23个高难度子任务，涵盖多步算术、算法推理和语言理解，测试模型的综合能力。
MATH：测试模型解决高中竞赛级别数学问题的能力，要求严格遵循特定输出格式。
GPQA（Graduate-Level Google-Proof Q&A Benchmark）：由专家设计的高难度知识问答任务，涵盖多领域专业知识。
MuSR（Multistep Soft Reasoning）：用复杂多步推理问题，如谋杀案谜题，评估模型的长距离上下文解析和推理能力。
MMLU-PRO（Massive Multitask Language Understanding – Professional）：改进版的多任务语言理解评估，增加选择数量，提高问题难度，减少噪声。

如何使用Open LLM Leaderboard

访问排行榜页面：访问Open LLM Leaderboard 页面，查看当前的模型排名和性能数据。
查看模型详情：点击感兴趣的模型名称，查看详细信息。
筛选和比较模型：用排行榜页面提供的筛选功能，根据模型类型、性能指标等条件筛选模型。对比不同模型在各基准测试中的表现，选择最适合需求的模型。
复现评估结果：如果需要复现某个模型的评估结果，用 Hugging Face 提供的代码工具：

git clone git@github.com:huggingface/lm-evaluation-harness.git
cd lm-evaluation-harness
git checkout main
pip install -e .
lm-eval --model_args="pretrained=<your_model>,revision=<your_model_revision>,dtype=<model_dtype>" --tasks=leaderboard --batch_size=auto --output_path=<output_path>

- 替换 <your_model>、<your_model_revision> 和 <output_path> 为实际值。
- 对于指令模型，添加 --apply_chat_template 和 --fewshot_as_multiturn 选项。

Open LLM Leaderboard的应用场景

模型评估与选择：开发者和研究人员快速筛选出适合特定任务（如智能客服、内容生成等）的最优开源语言模型。
学术研究：为学术界提供统一的基准测试平台，帮助研究人员评估模型性能，推动语言模型技术发展。
社区互动：促进开源社区的互动，鼓励开发者提交模型到排行榜，分享研究成果。
教育与学习：作为教育资源，帮助学生和初学者了解语言模型的评估方法和性能指标，提供实践平台。
技术验证与对比：验证新开发的语言模型是否达到行业标准，与其他模型对比发现自身优势和不足，为优化提供参考。

数据统计

16 条评论

云雾轻舞读者

筛模型确实快，不过有些冷门模型没标训练数据，有点懵。

3个月前中国北京

回复
谏议大夫读者

页面加载慢就算了，筛选还动不动失灵，急死人。

3个月前中国

回复
傻笑的猕猴桃读者

小众模型冒头真好，总算不用只看那几个大厂脸了。

3个月前中国吉林

回复

Open LLM Leaderboard

Open LLM Leaderboard是什么

Open LLM Leaderboard 的主要功能

Open LLM Leaderboard 的评估基准

如何使用Open LLM Leaderboard

Open LLM Leaderboard的应用场景

数据统计

相关导航

BLACKBOX AI

DMXAPI

DINQ

EasyClaw

Uberduck

神经网络入门

ColossalChat

Genie

16 条评论