在社交媒体上遇到异常礼貌的回复时,你可能需要多看一眼。这可能是AI模型试图(但未能成功)融入人群的表现。
研究发现:AI难以完美模仿人类
近日,苏黎世大学、阿姆斯特丹大学、杜克大学和纽约大学的研究人员发布了一项研究,揭示了AI模型在社交媒体对话中仍然容易被与人类区分开来,其中过于友好的情感语调成为最持久的暴露特征。这项研究在Twitter/X、Bluesky和Reddit上测试了九个开源模型,研究人员开发的分类器能够以70%至80%的准确率检测出AI生成的回复。
研究引入了作者所称的"计算图灵测试",用于评估AI模型在多大程度上接近人类语言。该框架不依赖于关于文本是否听起来真实的主观人类判断,而是使用自动分类器和语言分析来识别区分机器生成与人类创作内容的特定特征。
"即使在校准后,大型语言模型的输出仍然明显区别于人类文本,特别是在情感语调和情感表达方面,"研究人员写道。由苏黎世大学的Nicolò Pagan领导的团队测试了各种优化策略,从简单的提示到微调,但发现更深层次的情感线索仍然存在,这些线索可靠地表明特定的网络文本交互是由AI聊天机器人而非人类创作的。
毒性特征:AI的致命弱点
在研究中,研究人员测试了九个大型语言模型:Llama 3.1 8B、Llama 3.1 8B Instruct、Llama 3.1 70B、Mistral 7B v0.1、Mistral 7B Instruct v0.2、Qwen 2.5 7B Instruct、Gemma 3 4B Instruct、DeepSeek-R1-Distill-Llama-8B和Apertus-8B-2509。

当被提示生成对真实社交媒体帖子的回复时,AI模型难以匹配人类社交媒体帖子中常见的随意负面情绪和自发性情感表达,毒性评分在所有三个平台上均低于真实的人类回复。
为了弥补这一缺陷,研究人员尝试了优化策略(包括提供写作示例和上下文检索),这些策略减少了句子长度或词数等结构差异,但情感语调的变化仍然存在。"我们的全面校准测试挑战了更复杂的优化必然产生更类人输出的假设,"研究人员总结道。
出人意料的研究发现
研究还揭示了一个意外发现:经过额外训练以遵循用户指令并表现得有帮助的指令微调模型,在模仿人类方面实际上比其基础版本表现更差。像Llama 3.1 8B和Mistral 7B v0.1这样的模型在没有指令微调的情况下实现了更好的人类模仿,产生的分类准确率在75%至85%之间。
更令人惊讶的是,扩大模型规模并没有带来优势。700亿参数的Llama 3.1的表现与或低于较小的80亿参数模型相当,这挑战了更大模型可能产生更真实感交流的假设。
研究人员发现了一个根本性的矛盾:当AI模型被调整为通过匹配人类写作风格来避免检测时,它们偏离了人类对同一帖子的实际回应(其与实际人类响应的语义相似度得分从各平台的中位数约0.18-0.34下降到0.16-0.28)。相反,当优化以匹配人类响应的内容时,AI文本变得更容易被识别为人工的。

平台差异与优化策略
平台差异也在AI模仿用户的能力方面显现出来。研究人员的分类器以最低的准确率检测出AI生成的Twitter/X回复(意味着更好的模仿能力),其次是Bluesky,而Reddit的文本最容易与人类文本区分开来。研究人员认为这种模式反映了每个平台独特的对话风格以及每个平台的数据在模型原始训练中出现的频率。
在研究中,用于减少可检测性的简单优化技术比复杂技术表现得更好。提供用户过去帖子的实际示例或检索相关上下文 consistently 使AI文本更难与人类写作区分开来,而像给AI用户提供用户个性描述和微调模型等复杂方法对真实性的产生可忽略或负面影响。
研究意义与未来展望
这些尚未经过同行评审的研究结果可能对AI发展和社交媒体真实性产生影响。尽管有各种优化策略,但研究表明,当前模型在捕捉自发性情感表达方面仍然面临持续的局限性,检测率远高于偶然水平。作者得出结论,风格类人性和语义准确性代表当前架构中"竞争而非对齐的目标",这表明尽管有人性化的努力,AI生成的文本仍然明显是人工的。

当研究人员继续尝试使AI模型听起来更人性化时,社交媒体上的实际人类不断证明,真实性通常意味着混乱、矛盾和偶尔的不愉快。这并不意味着AI模型不能潜在地模拟这种输出,只是这比研究人员预期的要困难得多。
结论:AI模仿的局限性
这项研究揭示了AI在模仿人类行为方面的根本局限性,特别是在情感表达和真实性方面。随着AI技术的不断发展,理解这些局限性对于开发更自然、更可信的AI系统至关重要。同时,这也提醒我们在与AI互动时保持警惕,认识到当前AI在表达真实人类情感方面的不足。









