article_image

这份报告主要通过对 Claude.ai 平台上匿名对话数据的定量分析,来研究 AI 模型在不同应用场景和职业中的使用情况,并通过数据可视化展示了各项指标的变化。具体来说:

研究方法

数据来源与采样

  • 分析了发布后 11 天内 100 万条来自 Claude.ai Free 和 Pro 用户的匿名对话数据。
  • 重点数据来自于新版模型 Claude 3.7 Sonnet,该模型被设为默认版本,因此绝大部分数据均来源于这一版本。

数据映射与分类

  • 使用内部的隐私保护工具 Clio,将每条对话映射到美国劳工部 O*NET 数据库中的 17,000 个任务之一,从而分析对话涉及的职业和任务。
  • 同时,还开发了一个自下而上的使用分类体系,将对话划分为 630 个细分类别,以捕捉 O*NET 预设分类可能遗漏的应用场景。

技术改进

  • 在本次分析中,使用了更新后的 Claude 3.7 Sonnet 替代之前的 Claude 3.5 Sonnet,这提高了任务分类的准确性。
  • 为了保证数据质量,报告中剔除了被安全过滤器标记的不合规对话,但没有额外限制与职业相关的对话,从而保留了更多可供公开的数据。

得到的主要结果

使用场景的变化

  • 自从 Claude 3.7 Sonnet 上线后,编码(coding)、教育、科学及医疗等领域的使用比例有所上升。
  • 图表显示了与之前数据样本(12月~1月)相比,2月~3月数据中这些职业类别的使用份额增加。

扩展思维模式的使用

  • Claude 3.7 Sonnet 引入了“扩展思维”模式,使模型在回答复杂问题时能够“思考”得更久。
  • 数据显示,该模式主要在技术和创意问题解决中使用:例如计算机和信息研究科学家、软件开发者、多媒体艺术家和视频游戏设计师中使用率较高(分别约为 10%、8%、7% 和 6%)。

增强与自动化的交互模式

  • 总体上,增强型交互(用户与模型共同迭代)仍占 57%,而自动化型交互(模型直接完成任务)的比例相对较低。
  • 同时,学习型交互(用户询问信息或解释)的比例从约 23% 上升至 28%。
  • 不同职业中也呈现出显著差异:例如,文案撰写与编辑任务中用户反复迭代的情况较多,而翻译任务中模型则更多采用直接完成任务的方式。

自下而上分类体系的建立

  • 报告还发布了一套全新的自下而上的使用分类体系,覆盖了 630 个细分应用场景,从家庭水管维护、物理模拟、字体选择到电池技术指导等,旨在帮助研究人员发现传统顶层分类可能忽略的细分用例。

author_avatar

UNTAG 官方