与 AI 协作如何实现“1+1>2”?前沿研究揭示:判断力是决定性因素
- 2025-12-05
- AI 力论文解读

随着 AI 在医疗、法律、金融等专业领域的快速应用,与 AI 的协作正成为我们工作与生活的核心议题。人们普遍认为,使用者的抽象推理、情境理解能力,与 AI 强大的数据处理、模式识别能力应当能实现优势互补,从而提升整体的工作表现。
然而,这种理论上的互补在现实中是否真的有效?“AI +人”一定更强吗?
以往的实证研究得出了相互矛盾的结论。有时,人机组合的表现优于任何一方单独工作;但在另一些研究中,这种组合并无优势,甚至出现了性能下降的情况。
为了厘清这些不一致的发现,来自麻省理工学院(MIT)的研究者 Michelle Vaccaro 等进行了一项大规模的系统性综述与元分析(meta-analysis),旨在回答两个核心问题:
在总体上,人机协作的表现是否优于个人单独工作或 AI 单独工作?
在什么特定条件下,人机协作才能真正产生协同效应?
1. 关键概念:为什么“增强”不等于“协同”?
为了精确评估人机协作的价值,研究者首先明确了两种不同的“成功”标准:
人机增强效应(Human Augmentation):指人机组合在该任务的表现优于个人在独立完成该任务时的平均表现。这说明 AI 在一定程度上帮助和提升了人的表现。
人机协同效应(Human–AI Synergy):指人机组合的表现同时该任务的历史最优表现,无论这个最优表现是个人单独工作实现的,还是 AI 单独工作实现的。
这一区分的重要性在于:增强效应和协同效应是不同层级的现象。增强是提升平均表现;协同是刷新系统最优。在许多现实场景中(如出于法律、伦理或安全原因),任务仍需由人来主导,AI 扮演的是辅助角色。在这种情况下,“增强效应”已经具有重要价值。但要实现系统性的最优化,我们就必须追求“协同效应”。
2. 研究方法:一项针对 106 项独立实验的元分析
研究团队对多个主要学术数据库(如 ACM Digital Library, Web of Science 等)进行了系统性检索,筛选了 2020 年 1 月至 2023 年 6 月期间发表的所有相关研究。
纳入研究的唯一标准是:该实验必须在同等条件下,同时报告了个人单独、AI 单独以及人机协作这三种情况的绩效结果。
最终,共有 106 项独立的实验研究被纳入分析,合计提供了 370 个“效应量”(effect sizes)。这些研究涵盖了医疗诊断、文本创作、图像识别、金融风险评估等多种任务类型。
3. 核心发现一:AI 让人类“变强”,却让“人机组合”表现变弱了?
分析结果首先揭示了一个违反直觉的总体趋势:
“增强效应”显著存在:平均而言,人机组合的表现确实显著优于个人单独工作时的平均表现。
“协同效应”总体为负:然而,当把人机组合与“个人或 AI 中的最强者”进行比较时,人机组合的平均表现反而显著更差。
换句话说,AI 的加入确实让普通人的表现得到增强。但在大多数情况下,这个“人机组合”的表现,不如让表现最好的 AI 或最好的个人专家单独去完成任务。
作者提出三个可能的原因:
比较基准不同。协同效应(synergy)比较的是“最强单方”,要求人机组合要超越两个系统中最强的那个。而增强效应(augmentation)比较的基准是“个人”,只要求比“人类的平均表现”更好。因此,协同要求的门槛更高。
协同需要特定交互形式。现有研究往往采用静态的“AI 提供答案–使用者决定采纳与否”模式,真正的协同可能需要更复杂的动态合作。
已有研究的实验设计不适合激发协同。目前实验中的人机协作方式可能过于简单。例如,AI 只是提供答案,而非共同决策,实验中较少考虑到具体合作的流程设计。
4. 核心发现二:任务类型是影响人机组合表现的关键
研究进一步发现,简单地观察“总体平均值”会掩盖关键差异。当把任务类型纳入分析后,结果出现了明显分化:
创作型任务(Creation Tasks):在写作、摘要生成、创意构思等任务中,人机组合表现出了显著的性能增益。这类任务没有唯一正确答案,AI 可以提供多样的内容和选项,而使用者负责筛选、整合和语境判断,形成了有效的认知互补。
决策型任务(Decision Tasks):在诊断、评估、分类等任务中,人机组合则普遍表现出性能损失。
研究者强调,这不代表决策任务本身不适合协作。问题可能出在实验设计上。在他们分析的 100 多个实验中,绝大多数决策任务采用了“平行式决策结构”:AI 和使用者分别独立完成整个决策流程,而使用者通常在最后阶段做最终裁定。
这种结构导致人机双方执行的是相同的全任务(complete decision),而非互补的子任务,缺乏真正的分工协作机制,因而未能体现各自的特长。
研究者推测,如果采用“分工结构”,决策任务的协同效应可能会大大改善。例如,AI 负责数据处理和筛选,使用者负责语境判断和最终选择。然而,在所有样本中,仅有 3 个实验尝试了这种预先划分子任务的协作设计。
5. 核心发现三:人类的判断力是决定协作表现的关键因素
这项研究还发现,当个人在某项任务上单独表现优于 AI 时,人机组合系统在该任务的整体表现显著提升,产生了“协同增益”。但是当 AI 单独表现优于个人时,人机组合系统的整体表现反而显著下降,出现了“协同损失”。
这一结果表明,人机协作的表现绝非两者能力的简单平均。那么为什么人机协同的表现会在两种条件下有如下大的差异呢?研究团队对这一现象提出了行为层面的解释:
当人类本身表现优于 AI 时,他们通常也更善于判断何时该信任 AI 的建议、何时该相信自己的判断,从而有效整合信息、提升最终表现。相反,当 AI 表现更好时,人类往往缺乏辨别 AI 何时正确的能力,容易出现过度怀疑(under-reliance)或盲目信任(over-reliance),从而削弱整体性能。
实验中超过 95% 的情况是由使用者在看到 AI 输出后做出最终决策。因此,人机系统的整体表现很大程度上取决于使用者能否正确判断何时依赖 AI、何时依赖自己。
也就是说,使用者的判断力是决定协作表现的关键调节因素。
这正是当前关于人机协作研究的一个关键启示:人类的优势体现在能动性与策略性使用 AI 的能力上。协作潜能的关键在于:
人与 AI 能否实现恰当的分工;
系统能否根据双方优势动态分配任务;
这些分配机制的有效性,通常由使用者的设计与决策逻辑决定。
因此,人机协作系统的效能,高度依赖于使用者的判断与策略使用能力。换言之,人能否正确理解并有效调用 AI 的能力,决定了系统潜能能否被充分激发。
6. 研究的启示:如何真正实现“1+1>2”?
基于研究结果,作者为未来如何寻找“人机协同”提供了建议:
关注创作型任务:研究显示,生成式 AI 参与的创作型任务是实现协同效应最富潜力的领域。
发展创新的协作流程:未来的关键不是提升 AI 技术本身,而是设计创新的“流程”。必须从简单的“AI 提建议、人来拍板”模式,转向人与 AI 之间更智能的“子任务动态分配”模式。
发展更健全的评估指标:用单一的“准确率”来评估协作是不够的。未来需要考虑任务时间、错误成本、任务难度等复合指标。
对于普通使用者而言,这项研究的最大启示在于重新定义了“AI 素养”:
真正的 AI 素养,不是指掌握提示词技巧或工具使用,而是一种更高阶的判断力与策略能力。这包括:理解 AI 的能力边界、评估其输出的可靠性,以及知道在何时应该相信 AI,何时更应该相信自己的判断。
这一核心洞察与 UMU 所倡导的 AI 力内涵不谋而合。UMU 出品的 AI 人才发展系列课程,旨在帮助员工深入理解组织环境、角色定位和专业领域,掌握任务分解、定义优先级和归类的能力。课程将这种深度的业务认知,与对大模型通用能力的理解和预测相结合。并且通过基于效果学习的课程设计,在练习中调整适合自身工作性质的流程。
UMU ALT 团队由来自清华大学、北京大学、中国人民大学、康奈尔大学、佛罗里达大学等全球知名高校的博士组成,专注于深入解析 AI 与组织、管理、人力资源等领域的交叉研究。我们系统梳理大量相关学术论文,提炼其中的研究方法与核心洞见,并将其转化为企业可实际应用的知识资源。欢迎关注 AI 力论文研究合集。同时,我们结合学术成果、行业领袖建议及最佳实践访谈,推出了《发展大模型时代的 AI 力》在线系列课程。该课程旨在帮助企业全面理解 AI 技术演进对组织架构、管理模式及员工能力所带来的深远影响,助力组织构建面向未来的 AI 竞争力。欢迎点击文末“阅读原文”,深入了解课程内容,或联系 UMU 专属顾问,开启您的 AI 转型之旅。
参考文献:
Vaccaro, M., Almaatouq, A., & Malone, T. (2024). When combinations of humans and AI are useful: A systematic review and meta-analysis. Nature Human Behaviour, 8(12), 2293-2303.