一些大模型榜单

https://llm-stats.com/ 前端很好看,数据可视化做得很好。Live Benchmarks,宣称Updated daily

https://livebench.ai/ Abacus.AI给出的leaderboard,更新及时

https://scale.com/leaderboard/humanitys_last_exam Scale AI给出的leaderboard

https://arcprize.org/leaderboard arcprize给出的leaderboard

https://aider.chat/docs/leaderboards/ Aider polyglot coding leaderboard

https://web.lmarena.ai/leaderboard WebDev Arena 数据更新及时

https://lmarena.ai/?leaderboard 之前是 lmsys.org 数据更新及时

https://beta.lmarena.ai/leaderboard lmarena弄了个新网站 数据更新及时

https://eqbench.com/ EQ-Bench,Emotional Intelligence Benchmarks for LLMs

国内到底有多少已备案的生成式人工智能服务?

个人推荐看上面几个,下面的也可以看一下。

https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboar/ reproducible

https://artificialanalysis.ai/models/claude-3-7-sonnet 这个也能看一看。

常见pre-training和post-training数据集

https://modelscope.cn/datasets/ 这里面可能有

常见评测基准

这些评测基准覆盖了语言理解、推理、数学、代码生成、多语言支持等多个维度,全面评估大模型的能力。

  1. GPQA (General Purpose Question Answering)
    • 简介 : GPQA 是一个通用问答数据集,用于评估模型在回答开放性问题时的能力。它通常包含多样化的主题和复杂的问题。
    • 特点 : 问题可能涉及多步推理或需要综合多个领域的知识。
  2. MMLU (Massive Multitask Language Understanding)
    • 简介 : MMLU 是一个多任务语言理解基准,涵盖 57 个学科领域,包括人文、社会科学、自然科学等。
    • 特点 : 每个任务都是多项选择题形式,测试模型的知识广度和深度。
  3. MMLU Pro
    • 简介 : MMLU Pro 是 MMLU 的升级版,增加了更难的任务和更专业的领域,进一步挑战模型的极限。
    • 特点 : 更注重专业知识和复杂推理能力。
  4. DROP (Discrete Reasoning Over Paragraphs)
    • 简介 : DROP 是一个阅读理解数据集,要求模型进行离散推理(如计数、排序、比较等)来回答问题。
    • 特点 : 问题通常需要对文本中的数字或关系进行逻辑操作。
  5. MLU-Pro
    • 简介 : MLU-Pro 是一个多语言语言理解基准,专注于评估模型在多种语言上的表现。
    • 特点 : 包含跨语言任务,测试模型的语言迁移能力和多语言理解能力。
  6. GPQA Diamond
    • 简介 : GPQA Diamond 是 GPQA 的扩展版本,包含更高难度的问题,尤其是那些需要专业知识和复杂推理的问题。
    • 特点 : 更强调模型在专业领域的表现。
  7. Humanity’s Last Exam (HLE)
    • 简介 : 这是一个极端难度的考试型基准,旨在测试模型是否能够达到人类专家水平。
    • 特点 : 问题设计极具挑战性,通常涉及跨学科知识和深度推理。
  8. LiveCodeBench
    • 简介 : LiveCodeBench 是一个实时代码生成和调试的评测基准,用于评估模型在编程任务中的表现。
    • 特点 : 强调代码的正确性、效率和可读性。
  9. SciCode
    • 简介 : SciCode 是一个科学领域的代码生成基准,测试模型在科学计算和实验模拟中的代码生成能力。
    • 特点 : 涉及科学公式、算法实现和实验数据分析。
  10. AIME (American Invitational Mathematics Examination) - 简介 : AIME 是一个数学竞赛题目集合,用于评估模型在解决高难度数学问题时的能力。 - 特点 : 题目通常需要复杂的数学推理和创造性解法。
  11. SuperGLUE - 简介 : SuperGLUE 是 GLUE 的升级版,包含更难的自然语言理解任务,如文本蕴含、共指消解等。 - 特点 : 测试模型在复杂语言任务中的表现。
  12. C-Eval - 简介 : C-Eval 是一个中文多学科考试基准,涵盖 50 多个学科领域。 - 特点 : 测试模型在中文环境下的知识广度和深度。
  13. CMMLU (Chinese Massive Multitask Language Understanding) - 简介 : CMMLU 是 MMLU 的中文版本,测试模型在中文多学科任务中的表现。 - 特点 : 强调中文语言理解和专业知识。
  14. MATH-500 - 简介 : MATH-500 是一个包含 500 道高难度数学问题的数据集,覆盖代数、几何、微积分等领域。 - 特点 : 测试模型在数学推理和问题解决上的能力。
  15. BIG-Bench (Beyond the Imitation Game Benchmark) - 简介 : BIG-Bench 是一个大规模的多任务基准,包含超过 200 个任务,涵盖了语言理解、推理、数学、代码生成等多个领域。 - 特点 : 强调模型的泛化能力和复杂任务处理能力。
  16. BBH (Big-Bench Hard) - 简介 : BBH 是 BIG-Bench 中最难的任务子集,专门用于测试模型的极限能力。 - 特点 : 包含高度复杂和具有挑战性的任务。
  17. HumanEval - 简介 : HumanEval 是一个代码生成基准,测试模型在编写功能正确代码时的能力。 - 特点 : 强调代码的逻辑性和功能性。
  18. Cybench - 简介 : CyBench是一个用于评估语言模型在网络安全领域能力和风险的基准框架,由斯坦福大学团队提出。 - 特点 : 评估模型在网络安全领域的能力。

posted @ yhm138   阅读(1437)  评论(0) 收藏 举报

导航目录

字节旗下的 AI IDE