article_image

Artificial Analysis：对 AI 模型的性能进行横向比较的工具网站

发布于：2024-12-05 18:00

更多文章

article_image

现在 AI 发展得飞快，各种大型语言模型 (LLM) 层出不穷，如果你正在借助 AI 完成工作、自媒体、相关开发，想尽可能早地体验到最新的 AI 模型，想在这么多选择里要挑出适合的那一个确实不太容易。

Artificial Analysis 就是一个专门为大家评测和对比这些 LLM 模型，帮开发者、研究人员，还有普通用户从各种 AI 工具中挑出最合适的那个。

目前这个榜单上主要是海外知名的 LLM 模型，国内有三家公司的模型能够被加入对比，分别是 DeepSeek、阿里的 Qwen、零一万物的 Yi-Large。

Artificial Analysis 对 80 款 LLM 模型做了对比，涵盖了质量、性能、速度和价格等方面，希望给你一个清晰明了的参考。你可以在右上角的模型列表中，选择一些进行对比。

比如质量这一块，网站引用了 MMLU（多任务语言理解）、GPQA（科学推理与知识）、MATH（定量推理）和 HumanEval（编码能力）这些测试，来全面评估每个模型的能力。

#UNTAG Developer

了解如何订阅 RSS，第一时间收到文章更新：
加入 Slack 群，直接和主笔交流：
成为会员，享受更多增值服务：