LLMEval3

2个月前发布 8,205 11 0

由复旦大学NLP实验室推出的大模型评测基准

收录时间：

2026-03-08

打开网站手机查看

AI开发工具 AI开源工具 # 多模态模型 # 学术诚信 # 模型评测

LLMEval3

LLMEval3

LLMEval是由复旦大学NLP实验室推出的大模型评测基准，最新的LLMEval-3聚焦于专业知识能力评测，涵盖哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学、艺术学等教育部划定的13个学科门类、50余个二级学科，共计约20W道标准生成式问答题目。

数据统计

相关导航

Mutable AI

人工智能加速软件开发

Gemma

谷歌推出的新一代轻量级开放模型

Galileo AI

AI高保真原型设计

JoyCode

京东云推出的新一代智能编程 AI IDE

Zcode

智谱推出的轻量级AI IDE编程工具

Riffusion

AI生成不同风格的音乐，免费开源

JamGPT

AI Debug调试助手

TensorFlow

Google推出的机器学习和人工智能开源库

11 条评论

碧玉狐仙游客

这网站界面看着有点乱，找不着北啊。

2个月前中国山东

回复
虚妄之纱游客

要测20万道题？服务器不会炸吧？

2个月前日本

回复
月照书游客

哲学部分有点意思，不过经济学的题是不是太老了？

2个月前中国山东

回复
水乡琴韵读者

之前用过一个类似评测，结果跟实际体验差好多，这个准不准？

2个月前中国湖南

回复
Neo新星读者

医学那块出题人确定是医生吗？别是百度来的答案。

2个月前印度尼西亚

回复
鬼手摘心读者

军工类的题目，能公开测？🤔

2个月前中国浙江

回复
锦绣华服游客

界面配色能换不？白底黑字看久了眼睛疼。

2个月前日本

回复
DewWhiskers 游客

搞这么多学科，每个都测不深吧，感觉有点水。

2个月前中国湖南

回复
无情的咖啡游客

对于新手来说，这么多门类，从哪儿开始测比较好？

2个月前中国湖北

回复
BlinkBristle 读者

终于有专门测专业知识的了，之前找了好久。

2个月前中国江苏

回复