H2O.ai推出的基于Elo评级方法的大模型评估系统
H2O EvalGPT 是 H2O.ai 用于评估和比较 LLM 大模型的开放工具,它提供了一个平台来了解模型在大量任务和基准测试中的性能。无论你是想使用大模型自动化工作流程或任务,H2O EvalGPT 都可以提供流行、开源、高性能大模型的详细排行榜,帮助你为项目选择最有效的模型完成具体任务。
模型排名直观看,选模型省心。
暗色背景太刺眼,眼睛要炸了 😂
每周更新真的省了我好多比对时间。
A/B测完感觉流程像走迷宫。
小模型会被排除在外吗?
看了Elo分数,我有点懵,究竟怎么算的?
左侧导航按钮挤成一条线,点起来超不舒服。
用了几次评估,速度快,偶尔卡一下。
能不能加个模型搜索框,直接筛选?
这工具太给力了,省下的时间直接去喝咖啡,团队里大家都在夸赞。
模型排名直观看,选模型省心。
暗色背景太刺眼,眼睛要炸了 😂
每周更新真的省了我好多比对时间。
A/B测完感觉流程像走迷宫。
小模型会被排除在外吗?
看了Elo分数,我有点懵,究竟怎么算的?
左侧导航按钮挤成一条线,点起来超不舒服。
用了几次评估,速度快,偶尔卡一下。
能不能加个模型搜索框,直接筛选?
这工具太给力了,省下的时间直接去喝咖啡,团队里大家都在夸赞。