这份报告主要通过对 Claude.ai 平台上匿名对话数据的定量分析,来研究 AI 模型在不同应用场景和职业中的使用情况,并通过数据可视化展示了各项指标的变化。具体来说:
研究方法
数据来源与采样
- 分析了发布后 11 天内 100 万条来自 Claude.ai Free 和 Pro 用户的匿名对话数据。
- 重点数据来自于新版模型 Claude 3.7 Sonnet,该模型被设为默认版本,因此绝大部分数据均来源于这一版本。
数据映射与分类
- 使用内部的隐私保护工具 Clio,将每条对话映射到美国劳工部
O*NET
数据库中的 17,000 个任务之一,从而分析对话涉及的职业和任务。 - 同时,还开发了一个自下而上的使用分类体系,将对话划分为 630 个细分类别,以捕捉
O*NET
预设分类可能遗漏的应用场景。
技术改进
- 在本次分析中,使用了更新后的 Claude 3.7 Sonnet 替代之前的 Claude 3.5 Sonnet,这提高了任务分类的准确性。
- 为了保证数据质量,报告中剔除了被安全过滤器标记的不合规对话,但没有额外限制与职业相关的对话,从而保留了更多可供公开的数据。
得到的主要结果
使用场景的变化
- 自从 Claude 3.7 Sonnet 上线后,编码(coding)、教育、科学及医疗等领域的使用比例有所上升。
- 图表显示了与之前数据样本(12月~1月)相比,2月~3月数据中这些职业类别的使用份额增加。
扩展思维模式的使用
- Claude 3.7 Sonnet 引入了“扩展思维”模式,使模型在回答复杂问题时能够“思考”得更久。
- 数据显示,该模式主要在技术和创意问题解决中使用:例如计算机和信息研究科学家、软件开发者、多媒体艺术家和视频游戏设计师中使用率较高(分别约为 10%、8%、7% 和 6%)。
增强与自动化的交互模式
- 总体上,增强型交互(用户与模型共同迭代)仍占 57%,而自动化型交互(模型直接完成任务)的比例相对较低。
- 同时,学习型交互(用户询问信息或解释)的比例从约 23% 上升至 28%。
- 不同职业中也呈现出显著差异:例如,文案撰写与编辑任务中用户反复迭代的情况较多,而翻译任务中模型则更多采用直接完成任务的方式。
自下而上分类体系的建立
- 报告还发布了一套全新的自下而上的使用分类体系,覆盖了 630 个细分应用场景,从家庭水管维护、物理模拟、字体选择到电池技术指导等,旨在帮助研究人员发现传统顶层分类可能忽略的细分用例。