现在 AI 发展得飞快,各种大型语言模型 (LLM) 层出不穷,如果你正在借助 AI 完成工作、自媒体、相关开发,想尽可能早地体验到最新的 AI 模型,想在这么多选择里要挑出适合的那一个确实不太容易。
Artificial Analysis 就是一个专门为大家评测和对比这些 LLM 模型,帮开发者、研究人员,还有普通用户从各种 AI 工具中挑出最合适的那个。
目前这个榜单上主要是海外知名的 LLM 模型,国内有三家公司的模型能够被加入对比,分别是 DeepSeek、阿里的 Qwen、零一万物的 Yi-Large。
Artificial Analysis 对 80 款 LLM 模型做了对比,涵盖了质量、性能、速度和价格等方面,希望给你一个清晰明了的参考。你可以在右上角的模型列表中,选择一些进行对比。
比如质量这一块,网站引用了 MMLU(多任务语言理解)、GPQA(科学推理与知识)、MATH(定量推理)和 HumanEval(编码能力)这些测试,来全面评估每个模型的能力。