20 万次 AI 对话数据洞察:工作场景中人与 AI 的协作模式、AI 能力边界与最佳应用场景
- 2025-09-16
- AI 力论文解读
关于生成式 AI 将如何重塑工作场所的讨论,常常两种对立观点之间摇摆:一部分观点聚焦于使用 AI 提升生产力的潜力,而另一部分则关注其可能导致的劳动力替代效应。然而这些论点,普遍缺乏基于大规模、真实使用行为的实证数据支持。
为了拨开迷雾,微软研究院进行了一项里程碑式的研究,深入分析了超过 20 万次用户与 AI 助手 Copilot 的匿名对话。这项研究没有停留在“哪些工作将被取代”的表层问题,而是深入剖析了人与 AI 互动时的每一个“工作活动”(Work Activity)。
研究结果揭示了一个关于人机协作的深刻洞见:AI 在工作流中的成功整合,并非是简单的任务“自动化”,而是取决于技术与工作活动的契合度。在此流程中,人类负责定义任务目标(即研究中的“用户目的”),而 AI 则作为执行特定支持性任务(即“AI 行动”)的高效伙伴。理解并优化这一结构化的交互模型,正是未来企业构建核心竞争力的关键所在。
1. 界定人机互动:拆解“双重任务”
这项研究提出了一个极具启发性的核心框架,帮助我们理解人机互动的本质。研究人员指出,在每一次人机对话中,实际上都并存着两种截然不同的工作任务:
1. 用户目的(User Goal):指用户希望通过 AI 的帮助,最终要实现的目标。例如,一位市场经理的目标是“为新产品撰写一份营销文案”。
2. AI 行动(AI Action):指 AI 为了响应用户指令而具体执行的活动。在上述例子中,AI 的行动可能是“根据关键词生成初稿”、“润色特定段落”或“提供10个备选标题”。
研究人员用一个简单的例子阐明了这种区别:当一个用户想弄清楚如何打印文件时,他的“用户目的”是操作办公设备,而 AI 为了帮助他,所执行的“AI 行动”则是培训他人使用设备。这个看似细微的区别,却至关重要。它将“AI 是否会取代我”的模糊问题,转化为一个更具操作性的问题:“在我的工作流程中,哪些具体的‘AI 行动’能够最高效地服务于我的‘用户目的’?”
通过对海量对话的分析,研究者发现了一个出人意料的事实:在高达 40% 的对话中,“用户目的”和“AI 行动”所属的工作活动类别完全没有交集。这有力地证明,人们并非简单地将自己的工作外包给 AI,而是在利用 AI 执行一系列支持性的、不同于自己最终目标的子任务。人类专注于“做什么”和“为什么做”,而 AI 则在“如何做”的某些环节上提供助力。
基于对“用户目的”和“AI 行动”的区分,研究者们旨在通过对大规模真实对话数据的分析,系统性地回答以下几个核心问题:
最常见的 AI 应用场景是什么?用户最频繁寻求 AI 帮助的工作活动(用户目的)是哪些?AI 自身最常执行的工作活动(AI 行动)又是什么?
AI 在哪些任务上表现最好?哪些类型的 AI 行动获得了最高的用户满意度和任务完成率?
AI 对不同职业的潜在影响有多大?通过将 AI 能够成功执行的工作活动与不同职业所需的活动进行匹配,可以如何量化 AI 对各个职业的“适用性”,从而识别出受影响最大和最小的职业类别。
通过回答这些问题,该研究试图超越理论预测,为理解生成式 AI 在当前阶段对劳动力市场的实际影响。
2. 研究方法:如何量化 AI 对职业的影响?
研究者们使用的分析数据,是从2024年1月1日到2024年9月30日的九个月里,从微软的 Copilot 大模型收集的两组匿名美国对话数据。为了系统化地分析这 20 万次对话,研究团队采用了一套严谨且创新的方法论,其核心是借鉴了美国劳工部使用的职业信息网络(ONET)数据库。ONET 的精妙之处在于它将复杂的“职业”层层分解为具体的“工作活动”。其数据结构如下:
职业(Occupation):如“经济学家”。
任务(Task):该职业包含的具体职责,如“汇编、分析和报告数据以预测市场趋势”。
详细工作活动(Detailed work activity, DWA):这是最具体的层级。一个职业中的具体“任务”(Task)会被对应到一组 DWA。DWA 相当于一个标准工作模块,是可以在不同工作角色之间迁移和复用的具体技能或活动。例如,对于经济学家这一职业,DWA 是“预测政治、经济或社会趋势”。
中间工作活动(Intermediate work activity, IWA):这是中间层级。每一个更具体的详细工作活动都从属于一个中间工作活动。这篇论文的研究分析主要集中在 IWA 这个层面,如“分析市场或行业状况”。
一般工作活动(Generalized work activity, GWA):这是最概括的层级,提供了对相似工作活动的最宽泛的分类。每一个中间工作活动会从属于一个更抽象的一般工作活动。比如,“分析市场或行业状况”这个中间工作活动,又从属于“分析数据或信息”这个一般工作活动。
研究者选择在“中间工作活动”(IWA)这一层面进行分析,因为它既足够具体,又能跨越不同职业,从而揭示 AI 能力的通用性。
为了全面评估 AI 的影响力,研究团队设计了一套多维度的评分体系,最终整合成一个综合性的“AI 适用性分数”(AI Applicability Score)。分数越高,意味着该职业的工作内容与 AI 当前能力的适配度越高。该分数的计算主要包含三大关键指标:
1. 任务完成度(Completion):AI 在多大程度上成功完成了用户的请求?研究人员使用大语言模型来对每一次用户与 Copilot 的对话进行“任务完成度”的分类。他们通过将这种 LLM 分类器的判断结果与用户的“点赞”反馈数据进行比较,发现两者高度相关,从而验证了这种计算方法的有效性。
2. 影响范围(Scope of Impact):为了区分 AI 在任务中的贡献大小(例如,是写了一份完整报告还是仅回答了一个简单问题),研究团队引入了“影响范围”这一指标。对于每一次对话,研究团队使用一个大型语言模型(LLM)分类器来评估 Copilot 所展示出的能力覆盖了对应工作活动(IWA)的多大一部分。每一次 AI 的行动都被置于一个六点量表上进行评估(从“无”到“完全”),以判断其能力覆盖了对应工作活动的多大一部分。
3. 活动频率(Activity Share):这项活动在真实世界中的使用频率有多高?只有那些被用户频繁请求,且 AI 能够成功、深度完成的活动,才对职业产生实质性影响。
通过将这三个维度加权整合,研究为每个 O*NET 中定义的职业计算出了一个最终的“AI 适用性分数”,从而为我们提供了一张基于真实使用数据的职业影响地图。
3. 数据洞察:AI 的能力边界与最佳应用场景
通过对数据的深度挖掘,研究揭示了当前生成式 AI 清晰的能力图谱,以及一些出乎意料的发现。
1. AI 发力的主场:知识工作的得力助手
研究发现,AI 最常被用于辅助和执行的活动高度集中在知识工作领域。最常见的“用户目的”聚焦于三大类:信息收集、内容创作(编写与编辑)以及与他人交流。
一个更深层的洞察在于“用户目的”与“AI 行动”在核心动词上的显著不同,这揭示了人与 AI 之间清晰的角色分工。
描述“用户目的”的动词往往是主动的、目标导向的。例如,用户希望获取(Obtain)关于商品或服务的信息、开发(Develop)新闻或艺术内容、撰写(Write)商业材料、研究(Research)特定问题 。这些动词表明,用户是整个任务的发起者和最终负责人,掌握着工作的主动权。
与此形成鲜明对比的是,描述“AI 行动”的动词则带有强烈的服务和支持色彩。例如,AI 的角色是回应(Respond)客户问询、提供(Provide)公共信息、呈现(Present)技术信息、协助(Assist)他人 。在更多情况下,AI 被用来执行培训(Train)、指导(Coach)和建议(Advise)等动作,体现出一种服务和支持的角色。
这些发现清晰地表明:人类正在利用 AI 作为强大的信息处理器和沟通辅助器,来完成自己的知识密集型任务。相比之下,涉及体力活动、监控实体设备或指导他人的工作活动,则极少出现在人机对话中。
2. AI 的“高光”与“盲区”:满意度揭示的真相
数据显示,用户对 AI 的帮助总体上是满意的。其中,三类活动的满意度最高:
编写和编辑文本(如撰写报告、修改邮件)
研究信息(如调研法律法规、了解健康问题)
评估或购买商品(如比较产品特性)
用户反馈最差的领域集中在数据分析和视觉设计。这表明,尽管 AI 可以处理信息,但在需要深度逻辑分析、数据可视化或原创性视觉创意的任务上,其表现尚不能完全满足用户的期望。这说明 AI 有明显擅长和不擅长的任务,有效使用 AI 意味着使用者必须能够判断 AI 的能力边界(表现较差的任务)和天花板(表现优秀的任务)并且扬长避短。
3. 职业影响地图:哪些岗位站在变革的中心?
最终的“AI 适用性分数”为我们揭示了受 AI 影响最大的职业图景。排名前 25 位的职业几乎全部与信息处理和沟通相关。口译员和笔译员高居榜首,其高达 98% 的工作活动都与 Copilot 频繁执行的任务重叠。紧随其后的是一系列我们熟悉的角色:销售代表、客户服务代表、作家与编辑、公关专员、市场研究分析师等。
从更宏观的职业大类来看,销售、计算机与数学、行政支持、社区与社会服务等领域的“AI 适用性分数”最高。这些职业的核心是什么?正是研究中发现的那些 AI 最擅长的“AI 行动”:向用户提供信息、回应问询、提供通用帮助。AI 强大的信息交流能力,与这些职业的核心需求形成了完美匹配。
相反,适用性分数最低的职业普遍具有两个特征:需要大量体力劳动(如建筑工人、保洁员)或高度依赖人际物理接触与精密操作(如护理助理、按摩治疗师、外科医生)。
4. 实践启发:从“使用 AI”到构建组织 AI 力
这项研究为企业管理者和员工都提供了极具价值的实践指导,帮助组织超越“是否要用 AI”的初级阶段,进入“如何用好 AI”的深水区。
1. 重新定义工作:从“岗位”到“活动组合”的思维转变
研究最核心的启示是,AI 并非直接影响整个“职业”,而是构成职业的“工作活动”。一个职业的“AI 适用性”高,并非意味着它将被整体替代,而是其包含的大量细颗粒度活动可以被 AI 高效增强。
这对企业的人才发展和岗位设计提出了新要求。管理者需要带领团队,对自己和下属的工作进行“任务分解”,识别出哪些活动是高重复性、信息密集型的(适合 AI 辅助),哪些是需要复杂决策、战略思考和人际互动的(人类的核心价值区)。这种分解能够帮助团队成员清晰地看到人机协作的最佳结合点,从而重构工作流,将人类的精力聚焦于最高价值的活动上。
2. 识别关键能力:AI 人才的核心能力是“项目管理”能力
研究揭示的“用户目的”与“AI 行动”之间的差异,恰恰需要一种新型能力来弥合——“项目管理能力”。这意味着员工具备将一个宏大的业务目标(用户目的),精准地分解并“翻译”成一系列 AI 可以理解并执行的具体步骤(AI 行动),在 AI 输出内容后,再进行汇总、验证、为结果负责的能力。这种能力,正是 AI 素养 (AI Literacy) 的核心体现。它不仅仅是会写提示词,更是一种融合了业务理解、逻辑分解和对 AI 能力边界认知于一体的综合心智模式。
** 3. 战略性赋能:构建组织的“AI 力”**
鉴于有效的人机协作是一个用户目标驱动的交互过程,那么能够准确预判 AI 的能力边界、并将业务目标转化为精确、可执行指令,就成为高效使用 AI 所必备的最重要能力。对于企业而言,让员工掌握 AI 素养,不能仅仅依赖于个体的自发学习。它需要一套系统性的培养体系,一种自上而下的文化倡导。这正是 UMU 所倡导的“AI 力”理念的精髓——它不仅是个体能力,更是组织能力。
要构建这种组织级的“AI 力”,需要一个将学习科学、业务场景与 AI 技术深度融合的解决方案。员工需要的不仅是通用的“AI 入门课”,而且还需要更加贴近其工作场景的赋能。
UMU 的 发展大模型时代的 AI 力系列课程,正是基于这样的理念设计的。它首先帮助员工深入理解自己所处的组织环境、角色定位和专业领域,掌握任务分解、定义优先级和归类的能力。随后,它将这种深度的业务认知,与对大模型通用能力的理解和预测(即 AI 基础素养)相结合。通过这种方式,每一位员工都能精准地找到自身“用户目的”和“AI 行动”之间的最佳连接点。
最终,当组织中的每一个人都具备高效利用 AI 辅助工作的心智模式后,AI 的引进才真正成为驱动个人成长与组织发展的强大引擎。
UMU ALT 团队由来自清华大学、北京大学、中国人民大学、康奈尔大学、佛罗里达大学等全球知名高校的博士组成,专注于深入解析 AI 与组织、管理、人力资源等领域的交叉研究。我们系统梳理大量相关学术论文,提炼其中的研究方法与核心洞见,并将其转化为企业可实际应用的知识资源。欢迎关注 AI 力论文研究合集。同时,我们结合学术成果、行业领袖建议及最佳实践访谈,推出了📖《发展大模型时代的 AI 力》在线系列课程。该课程旨在帮助企业全面理解 AI 技术演进对组织架构、管理模式及员工能力所带来的深远影响,助力组织构建面向未来的 AI 竞争力。欢迎点击文末“阅读原文”,深入了解课程内容,或📖 联系 UMU 专属顾问,开启您的 AI 转型之旅。
参考文献:
Tomlinson, K., Jaffe, S., Wang, W., Counts, S., & Suri, S. (2025). Working with AI: Measuring the Occupational Implications of Generative AI. arXiv preprint arXiv:2507.07935.