AI伦理与安全：人工智能稳健发展的基石

在数字经济浪潮下，人工智能（AI）正以前所未有的速度渗透到各行各业，重塑着全球产业格局。7月29日，在北京举行的“大模型智塑全球产业新秩序”论坛上，北京前瞻人工智能安全与治理研究院院长、中国科学院自动化研究所人工智能伦理与治理研究中心主任曾毅发表了题为“安全与治理推进全球人工智能稳健发展”的主题演讲，深入探讨了人工智能的伦理、安全、治理以及未来发展方向等关键议题。

AI快讯

曾毅在演讲中开宗明义地指出，人工智能的发展需要明确的方向指引，而伦理和治理正是塑造这一方向的重要力量。他强调，探索合乎伦理的人工智能仅仅是第一步，未来的目标是构建具有道德意识的人工智能。

伦理、安全与治理：人工智能发展的核心支柱

曾毅认为，伦理安全和治理是人工智能发展的核心能力，能够加速其稳健发展。他驳斥了那种认为投入精力进行人工智能安全研究会阻碍发展的观点，强调人工智能治理决定了其发展方向和行为边界。缺乏伦理安全治理框架的人工智能，就像一辆没有方向盘的汽车，无法预知其前进的方向，令人难以安心使用。

人工智能伦理体系：风险防范与价值塑造并重

在谈到人工智能伦理体系时，曾毅指出，通过分析全球人工智能风险案例，发现美国占比超过60%，中国位居第二。当前人工智能发展中已经出现了虚假信息、偏见歧视、危害身心、滥用恶用以及隐私侵权等风险。这些风险不仅对个人和社会造成潜在危害，也对人工智能技术的健康发展构成了威胁。

“在研发人工智能大模型的时候，首先要规避掉潜在的风险，这是负面伦理风险的防范，但更重要的是人工智能研发要符合核心的价值观念。”曾毅强调。

在伦理风险防范方面，人工智能的伦理和安全存在高度的交互关系。不安全的人工智能模型是不合乎伦理的，而不合乎伦理的人工智能系统在研发、应用和部署过程中也存在安全隐患。曾毅团队在评估的基础上研发的“零度人工伦理自动评估平台”对当前最常用的大模型进行评估，结果显示并非所有大模型在伦理合乎度上表现良好。部分模型在年龄偏见、网络暴力、医疗建议等方面存在明显的潜在问题，且无论国内外模型，在伦理风险防范上都有提升空间。这表明，人工智能伦理风险的防范是一个持续不断的过程，需要不断地进行评估和改进。

在正向价值的塑造方面，不同国家的社会伦理由各自的文化支撑，中文社会价值与其他国家存在一定的差异。将中国社会价值体系的12个关键词拆解成50个维度，发现现有中文语料库对中文价值体系的覆盖仅为20%-40%。为了解决这个问题，曾毅团队设计了更完善的中文社会价值规则体系及语料库，覆盖25万条规则。这为人工智能更好地理解和应用中国社会价值奠定了基础。

实验表明，国外大模型与中国社会价值的一致性存在差距，国内的DeepSeek、豆包等大模型表现较好。西方社会价值语料库与中文价值在法律法规相关方面及价值观上存在诸多冲突。这表明，在人工智能的研发和应用中，需要充分考虑不同文化和社会价值的差异，以确保其符合当地的伦理规范和价值观念。

人工智能安全：攻防的动态平衡

曾毅提出了一个有趣的现象：并非后发布的人工智能大模型就比前面的更安全，实际上很多最近发布的大模型在安全性上并无显著优势，甚至不如以前的。在对国内外56款人工智能大模型的评价中都显现出这一特征。这表明，人工智能安全并非一个自然演进的过程，而是需要持续投入和关注的领域。

人工智能安全护栏能够帮助提升模型的安全性，但无法保证绝对安全。即使是最强大的安全护栏，也不能解决所有安全问题。曾毅团队研发的“灵御人工智能大模型安全攻防评估平台”统计显示，不存在能突破所有防御的攻击算法，也不存在能防住所有攻击的防御算法。这揭示了人工智能安全攻防的动态平衡，需要不断地进行攻防演练，以提升人工智能系统的安全性。

目前，可信人工智能、安全的人工智能还只是愿景，并非现状。人工智能模型不仅存在可能的伦理风险和安全隐患，还存在操纵佯攻、虚张声势、策略性欺骗等缺陷，这些都源于人类行为。“人工智能是人的一面镜子”，是人类缺陷被人工智能学到并用来对付人类的表现，这是亟需解决的问题。

人工智能的未来：从合乎伦理到有道德

曾毅认为，未来人工智能发展应将安全作为不可违背、无法删除的第一性原理，从安全护栏发展到模型自身安全性成为第一性原理，这才是真正推进安全可信人工智能的道路。这意味着，人工智能的安全不应仅仅依赖于外部的安全措施，而应内化于人工智能系统的设计和开发过程中。

曾毅引用王阳明心学来理解当代人工智能，认为现在的人工智能训练前是前无善无恶的，但当它接触人类数据后就变得有善有恶，却无法区分善恶，它能处理信息但不会真正思考，更做不到为善去恶。这表明，人工智能的道德发展需要超越简单的数据处理，而需要具备真正的思考和判断能力。

“未来，要从合乎伦理的人工智能发展到有道德的人工智能。”曾毅指出，有道德的人工智能应拥有自我视角，能基于此学习思考，拥有认知与情感共情产生利他的行为，产生道德的直觉，最终利用道德的直觉和推理产生道德的决策。这需要人工智能具备自我意识、情感理解和道德推理能力。

曾毅团队的实验显示，其智能体在模拟环境中，凭借自我感知、经验等，在没有强化学习帮助的情况下，能演化出类道德行为，如类似“司马光砸缸”的救人行为。这表明，人工智能具备发展道德行为的潜力。未来不仅要教人工智能分辨对错，更要帮助其从合乎伦理发展到有道德。

曾毅在演讲的最后强调，高水平的伦理安全治理能够护航人工智能高质量稳健发展。当前人工智能仍会犯错，人们需要有智慧地选择使用人工智能的时机和场景。他认为，不必使人工智能无时不在，负责任、稳健地发展，适度使用，才能让人工智能扬帆远航。

人工智能的未来发展之路，需要伦理、安全与治理的保驾护航。只有在确保人工智能安全可信的前提下，才能充分发挥其潜力，为人类社会带来福祉。