
Google Antigravity
谷歌推出的 AI IDE 编程智能体
C-Eval是适用于大语言模型的多层次多学科中文评估套件,由上海交通大学、清华大学和爱丁堡大学研究人员在2023年5月份联合推出,包含13948个多项选择题,涵盖52个不同的学科和四个难度级别,用在评测大模型中文理解能力。通过零样本(zero-shot)和少样本(few-shot)测试,C-Eval 能评估模型在未见过的任务上的适应性和泛化能力。

from datasets import load_dataset
dataset = load_dataset("ceval/ceval-exam", name="computer_network")
wget https://huggingface.co/datasets/ceval/ceval-exam/resolve/main/ceval-exam.zip
unzip ceval-exam.zip
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "your-model-name"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
以下是中国关于{科目}考试的单项选择题,请选出其中的正确答案。
{测试题目}
A. {选项A}
B. {选项B}
C. {选项C}
D. {选项D}
答案:
以下是中国关于{科目}考试的单项选择题,请选出其中的正确答案。
{题目1}
A. {选项A}
B. {选项B}
C. {选项C}
D. {选项D}
答案:A
[k-shot 示例]
{测试题目}
A. {选项A}
B. {选项B}
C. {选项C}
D. {选项D}
答案:
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
answer = extract_answer(response) # 自定义函数,提取答案选项
val),直接计算准确率。test),需要将结果提交到 C-Eval 官方平台获取评分。from sklearn.metrics import accuracy_score
# 假设 `predictions` 是模型的预测结果,`labels` 是真实答案
accuracy = accuracy_score(labels, predictions)
print(f"Validation Accuracy: {accuracy:.2f}")
{
"chinese_language_and_literature": {
"0": "A",
"1": "B",
...
},
...
}




这题库量也太大了,跑一次得多久啊?
界面文档写得跟代码一样,看得头大。
文档能不能别一股子代码味儿,新手根本看不懂
之前搞过类似评估,光预处理就折腾三天😭
三天折腾够呛,我也遇到字段不匹配的坑,真是浪费时间。
预处理真的烦,字段名对不上就得重头来。
有人试过在M1上跑吗?显存吃得消不?
又是Hugging Face那一套,能不能给个docker?
感觉选项提取那块容易出错,我上次就崩了。
零样本提示模板太死板了吧,改都懒得改。
模板改起来真费劲,不如直接让我自己写prompt
模板确实生硬,自己写个小函数把占位换了就好用多了。
模板确实僵,但自己改改也能用,总比没有强。
hhhh 看到清华交大联合出品就知道卷起来了
卷王联手,普通实验室还怎么活啊😂
这个准确率算出来能直接发论文吗?
数据下载链接挂了?wget半天没反应🤔