在医疗领域,人工智能正以前所未有的速度渗透各个角落,从诊断辅助到治疗方案推荐。然而,在所有医疗AI应用中,最引人深思也最具争议的莫过于让AI替身(AI surrogates)参与决定患者生死的问题。这一概念挑战着我们对生命、自主权和医疗决策的基本理解,引发了医学界、伦理学界和公众的广泛讨论。
AI替身的概念与研究现状
AI替身,简而言之,是通过人工智能技术创建的数字"克隆",旨在预测患者在无法表达自己意愿时的医疗偏好。这一概念已引发研究者超过十年的思考,如今随着AI技术的进步,一些专家开始认为,数字替身辅助临终决策可能成为不可避免的趋势。

华盛顿大学医学院的Muhammad Aurangzeb Ahmad正致力于将这一概念从理论推向实践。作为UW Medicine的驻院研究员,Ahmad在位于西雅图的Harborview医疗中心开展研究,旨在为AI替身在美国医疗机构的试点铺平道路。
"这非常新颖,所以很少有人从事这项研究,"Ahmad告诉Ars Technica。"目前我们仍处于概念阶段,主要工作是测试基于Harborview患者数据的AI模型准确性。"
准确性验证的挑战
Ahmad的研究面临的首要挑战是如何验证AI替身的准确性。他解释说:"只有在患者存活并能够确认模型做出正确选择时,我们才能验证模型的准确性。"
目前,Ahmad的模型专注于分析Harborview已收集的数据,包括伤情严重程度、病史、既往医疗选择和人口统计信息。"我们利用这些信息,将其输入机器学习预测模型,然后在回顾性数据中观察模型的表现,"Ahmad说。
然而,这种方法存在明显局限。宾夕法尼亚州重症监护室的医生Emily Moin指出:"这些决策是动态构建且依赖于上下文的。如果你通过询问康复后的人他们在康复前会怎么说来评估模型性能,那将无法提供准确的评估。"
无人类代理患者的困境
医疗AI面临的一个核心问题是:对于没有人类代理的患者,AI是否适用?Moin认为,这正是AI替身研究中最棘手的挑战。"他们可能希望部署该模型帮助无法沟通或没有代理的患者做决定,但恰恰是这些患者,你永远无法知道所谓的'真实情况',也就无法评估偏见和模型性能。"

研究表明,人类代理经常在预测患者偏好时出错。Ahmad相信AI可以提高成功率,但他也承认,AI替身不应是完美的模型,而应是经过严格测试的系统,供医生和亲人在评估所有已知信息时参考。
文化因素与决策模式转变
Moin指出,美国的文化已从"非常注重患者自主权"转向"更多共享决策模式,有时以家庭和社区为中心"。这种转变使得医生与患者及其家庭的互动变得尤为重要。
然而,Moin担心,如果患者与AI交流,可能会减少他们与家人进行重要对话的意愿。"研究发现,如果患者填写了先进指令,确定其偏好可能会变得更难,因为患者可能不太可能与亲人讨论他们的偏好。"
她特别担心"无法为自己发言且没有明确亲人"的患者最容易受到AI替身错误决定的影响。"太多此类错误可能会进一步侵蚀对医疗体系的信任,"Moin警告说。
AI替身的潜在冗余性
旧金山退伍军人医疗中心的医院医生Teva Brender认为,AI替身可能最终扮演冗余角色。"魔鬼的视角是,AI替身只是做一名优秀临床医生本来就会做的事情,即询问代理:'嘿,这个人是谁?他们喜欢做什么?什么给他们的生活带来意义?'"
"你需要AI来做这件事吗?我不太确定,"Brender质疑道。
专家警告:AI不能替代人类代理
上个月,生物伦理学专家Robert Truog与致力于推进姑息治疗的医生R. Sean Morrison共同强调,AI不应在复苏决策中替代人类代理。
"关于假设场景的决定与需要实时做出的决定没有相关性,"Morrison告诉Ars。"AI无法解决这个根本问题——这不是更好的预测问题。患者的偏好往往代表一个时间点的快照,根本无法预测未来。"
这一警告源于慕尼黑工业大学AI与神经伦理学主席的Georg Starke的一项概念验证研究。该研究表明,三种AI模型在预测患者偏好方面的平均表现优于人类代理,准确率高达70%。
然而,Starke的团队也强调,"人类代理仍然是特定情况背景下方面的重要信息来源",并同意"AI模型不应替代代理决策"。
聊天机器人代理的风险
Brender认为,AI系统可以作为讨论的"起点",让代理考虑哪些数据对患者可能重要。但他同意Moin的观点,如果不透明地展示AI替身如何做出决定,AI可能会播下不信任的种子。
"如果一个黑盒算法说祖母不希望复苏,我不知道这是否有帮助,"Brender说。"你需要它具有可解释性。"

Ahmad同意人类应始终参与决策过程。他强调自己并非急于部署AI模型,目前仍处于概念阶段。然而,目前几乎没有关于AI替身使用中偏见和公平性的研究。
Ahmad即将发布一篇预印本论文,该论文勾勒出各种公平观念的概念,并检验不同道德传统中的公平性。他提出,使用AI替身的公平性"超越了结果的平等,包含了道德代表性、对患者价值观、关系和世界观的忠实度"。
价值观工程的复杂性
Ahmad坦言,"价值观工程的问题"非常复杂。"这涉及到社会规范,以及特定宗教群体内的规范,"他说。
他举了一个极端例子:假设医生需要决定是否应让一名卷入事故的孕妇脱离呼吸机,因为过时的记录显示她曾标记这是她的偏好。人类代理,如她的伴侣或家人,可能会代表她主张继续使用呼吸机,特别是如果该孕妇持亲生命观点。
没有人类代理,医生可能会求助于AI帮助做决定,但前提是AI系统能够基于"从数据、临床变量、人口统计信息、临床笔记中的语言标记以及患者的数字足迹中学到的模式"捕捉患者的价值观和信念。
AI模型的脆弱性
Ahmad指出,AI模型存在"某种程度的脆弱性","如果问题的表述略有不同或以模型无法理解的'巧妙'方式提问,可能会给出完全不同的答案"。
他最近参加了一个在达拉斯举行的福音派基督教AI会议,以更好地了解其他研究人员如何处理这一问题以及患者对AI替身的期望。"一件真正突出的事情是,人们——尤其是涉及到大型语言模型时——有很多讨论围绕拥有反映其价值观的LLM版本,"Ahmad说。
理想数据集的构建
Starke认为,从临床角度来看,基于最容易获取的电子健康记录构建模型是理想的。但为了更好地服务患者,他同意Ahmad的观点,"理想的数据集应庞大、多样化、纵向且专门构建"。
"它将结合人口统计学和临床变量、记录的预先护理规划数据、患者记录的价值观和目标,以及特定决策的背景信息,"Starke解释说。"包括文本和对话数据可以进一步提高模型理解偏好产生和变化的原因的能力,而不仅仅是患者在单一时间点的偏好是什么。"
未来的研究方向
Ahmad建议,未来的研究可以专注于在临床试验中验证公平框架,通过模拟评估道德权衡,以及探索跨文化生物伦理如何与AI设计相结合。
只有到那时,AI替身才可能准备好部署,但仅作为"决策辅助工具"。任何"有争议的输出"应自动"触发伦理审查",Ahmad写道,并总结道:"最公平的AI替身是那些邀请对话、承认怀疑并为关怀留有空间的人。"
"AI不会免除我们的责任"
Ahmad希望在未来的五年内在UW的各个站点测试他的概念模型,这将"提供某种方式来量化这项技术有多好"。之后,他认为社会需要集体决定如何整合或不整合此类技术。
在他的论文中,他警告可能被解释为患者模拟的聊天机器人AI替身,预测未来的模型甚至可能用患者的声音说话,并暗示此类工具的"舒适和熟悉"可能会模糊"辅助和情感操纵之间的界限"。
Starke同意需要更多研究和患者与医生之间"更丰富的对话"。"我们应该谨慎不要不加区分地将AI作为寻求问题的解决方案来应用,"Starke说。"AI不会免除我们做出艰难伦理决策的责任,尤其是关乎生死的决策。"
Truog告诉Ars,他"可以想象AI有一天可以为代理决策者提供一些有趣的信息,这会有所帮助"。但他指出,"所有这些途径的一个问题是...它们将是否进行CPR的决定框定为二元选择,无论上下文或心脏骤停的具体情况如何"。"在现实世界中,当患者失去知觉时,他们是否希望进行CPR的答案,在几乎所有情况下,都是'视情况而定'。"
结语:技术与人文的平衡
AI替身的研究代表了医疗技术的前沿探索,同时也提出了深刻的伦理问题。正如专家们所强调的,AI不应替代人类决策,而应作为辅助工具,增强而非削弱医疗决策中的人文关怀。
在生死攸关的决策中,技术与人文的平衡至关重要。AI可以提供数据和分析,但最终的理解、共情和道德判断仍需人类来完成。正如Truog所言,"我不会希望有人说:'好吧,这是AI告诉我们的。'"在医疗决策中,尤其是关乎生死的决策中,人性的温度和深度是任何技术都无法替代的。
随着这一领域的不断发展,我们需要更多的公开辩论、伦理框架和监管机制,确保AI替身技术能够在尊重人类尊严、维护患者自主权的前提下负责任地发展。这不仅是对技术的考验,也是对我们社会价值观和伦理边界的重新审视。











