LLM LeaderBoard
Update every two weeks
Like :6k
使用 Eleuther AI 语言模型评估工具在4个关键基准上评估模型,这是一个统一的框架,用于在大量不同的评估任务上测试生成语言模型。
1. AI2 推理挑战(25 个镜头)- 一组小学科学问题。
2. HellaSwag(10 次)- 常识推理测试,对人类(~95%)来说很容易,但对 SOTA 模型来说具有挑战性。
3. MMLU(5-shot)——衡量文本模型多任务准确性的测试。 该测试涵盖了基础数学、美国历史、计算机科学、法律等 57 项任务。
4. TruthfulQA(0-shot)——衡量模型重现网上常见谎言的倾向的测试。 注意:Harness中的TruthfulQA实际上是一个最低限度的 6 个样本任务,因为它系统地预先添加了 6 个示例,即使启动时使用 0 作为少数样本示例的数量也是如此。
AlpacaEval基于AlpacaFarm数据集来测试模型遵循一般用户指令的能力。研究人员以GPT-4或Claude为自动评估器,以 GPT-3.5(Davinci-003)为基准,将目标模型与GPT-3.5的回复进行比较,计算获胜率。
Chatbot Arena Leaderboard Updates
该排行榜包含3个基准
Chatbot Arena - 一个众包、随机的战斗平台。 我们使用超过 90,000 名用户投票来计算 Elo 评级。
MT-Bench - 一组具有挑战性的多回合问题。 我们使用 GPT-4 对模型响应进行评分。
MMLU(5-shot)——衡量模型在 57 项任务上的多任务准确性的测试。