AI发条
  • AI写作创作
    • AI内容创作
    • AI文档处理
    • AI排版工具
    • AI文案优化
    • AI创作辅助
    • AI写作工具
    • AI内容生成
    • AI字幕工具
  • AI办公提效
    • AI会议工具
    • AI办公协作
    • AI办公工具
    • AI协作平台
    • AI思维导图
    • AI文件管理
    • AI演示工具
    • AI表格工具
    • AI语音转录工具
  • AI图片图像
    • AI图像增强
    • AI修图软件
    • AI图像工具
    • AI图标工具
    • AI图像处理
    • AI矢量工具
    • AI调色工具
    • AI老照片修复
    • AI背景生成
    • AI背景移除工具
  • AI开发技术
    • AI代码检查
    • AI代码测试
    • AI开发工具
    • AI开发平台
    • AI代码生成
    • AI软件开发
    • AI开发框架
    • AI编程工具
    • AI开源工具
  • AI社交电商
    • AI变声工具
    • AI广告工具
    • AI口播工具
    • AI营销工具
    • AI电商工具
  • AI视频音频
    • AI视频工具
    • AI音频工具
    • AI视频音频
    • AI语音合成
    • AI语音工具
    • AI转录工具
    • AI语音理解
    • AI改变世界
    • AI写作创作
      • AI内容创作
      • AI文档处理
      • AI排版工具
      • AI文案优化
      • AI创作辅助
      • AI写作工具
      • AI内容生成
      • AI字幕工具
    • AI办公提效
      • AI会议工具
      • AI办公协作
      • AI办公工具
      • AI协作平台
      • AI思维导图
      • AI文件管理
      • AI演示工具
      • AI表格工具
      • AI语音转录工具
    • AI图片图像
      • AI图像增强
      • AI修图软件
      • AI图像工具
      • AI图标工具
      • AI图像处理
      • AI矢量工具
      • AI调色工具
      • AI老照片修复
      • AI背景生成
      • AI背景移除工具
    • AI开发技术
      • AI代码检查
      • AI代码测试
      • AI开发工具
      • AI开发平台
      • AI代码生成
      • AI软件开发
      • AI开发框架
      • AI编程工具
      • AI开源工具
    • AI社交电商
      • AI变声工具
      • AI广告工具
      • AI口播工具
      • AI营销工具
      • AI电商工具
    • AI视频音频
      • AI视频工具
      • AI音频工具
      • AI视频音频
      • AI语音合成
      • AI语音工具
      • AI转录工具
      • AI语音理解

    模型评测

    共 16 篇网址
    探索各类AI模型的标准化评测流程与指标体系,掌握从数据准备到结果解读的全套评测技能。
    排序
    发布更新浏览点赞
    CMMLU

    CMMLU

    一个综合性的大模型中文评估基准
    194,0100
    AI开发工具AI开源工具# AI分析# 开源工具# 模型评测
    MMBench

    MMBench

    全方位的多模态大模型能力评测体系
    102,1700
    AI开发工具AI开发框架# 多模态模型# 模型评测# 评测平台
    MMLU

    MMLU

    大规模多任务语言理解基准
    195,8050
    AI开发工具AI开发技术# AI分析# 模型评测# 评测平台
    Open LLM Leaderboard

    Open LLM Leaderboard

    Hugging Face推出的开源大模型排行榜单
    163,6850
    AI开发工具AI开发框架# 开源工具# 模型评测# 评测平台
    LLMEval3

    LLMEval3

    由复旦大学NLP实验室推出的大模型评测基准
    112,5950
    AI开发工具AI开源工具# 多模态模型# 学术诚信# 模型评测
    HELM

    HELM

    斯坦福大学推出的大模型评测体系
    153,9500
    AI开发工具AI开发框架# AI分析# 多模态模型# 模型评测
    H2O EvalGPT

    H2O EvalGPT

    H2O.ai推出的基于Elo评级方法的大模型评估系统
    218,3840
    AI开发工具AI开发平台# 开源工具# 模型评测# 自动化工作流
    MagicArena

    MagicArena

    字节推出的视觉生成模型对战平台
    318,4500
    AI内容生成AI图像工具# AI分析# 多模态模型# 模型评测
    PubMedQA

    PubMedQA

    生物医学研究问答数据集和模型得分排行榜
    173,0690
    AI开发工具AI开发平台# AI分析# 开源工具# 数据集
    C-Eval

    C-Eval

    一个全面的中文基础模型评估套件
    4111,2600
    AI开发工具AI开发框架# AI分析# 模型评测# 评测平台
    OpenCompass

    OpenCompass

    上海人工智能实验室推出的大模型开放评测体系
    12968,9270
    AI开发工具AI开发框架# 多模态模型# 开源工具# 模型评测
    SuperCLUE

    SuperCLUE

    中文通用大模型综合性测评基准
    196,7780
    AI开发工具AI开发平台# AI分析# 模型评测
    LMArena

    LMArena

    AI模型评估平台
    4511,9520
    AI开发平台AI开源工具# 开源工具# 模型评测# 评测平台
    AGI-Eval

    AGI-Eval

    AI大模型评测社区
    195,9820
    AI开发平台AI开源工具# 数据众包# 模型评测# 评测平台
    ZenMux

    ZenMux

    全球首个带保险赔付机制的企业级大模型聚合平台
    123,8680
    AI开发工具AI开发平台# AI分析# 模型评测# 自动化工作流
    FlagEval

    FlagEval

    智源研究院推出的FlagEval(天秤)大模型评测平台
    4718,0690
    AI开发工具AI开发平台# AI分析# 多模态模型# 模型评测
    Copyright © 2026 AI发条 粤ICP备2023067720号 
    反馈
    让我们一起共建文明社区!您的反馈至关重要!
    网址
    网址文章软件