在2024年Google AI概述灾难性发布之后,世界范围内对AI驱动的搜索结果与传统搜索引擎生成的链接列表之间的差异有了广泛认识。现在,一项新研究帮助量化了这一差异,表明AI搜索引擎倾向于引用不太受欢迎的网站,这些网站甚至不会出现在传统Google搜索的前100个链接中。
研究发现:AI搜索与传统搜索的显著差异
德国鲁尔大学和马克斯·普朗克软件系统研究所的研究人员在预印本论文《Characterizing Web Search in The Age of Generative AI》中,比较了Google搜索引擎的传统链接结果与其AI概述和Gemini-2.5-Flash。研究人员还研究了GPT-4o的网络搜索模式以及独立的"带搜索工具的GPT-4o",后者仅在大型语言模型(LLM)认为需要查找预训练数据以外的信息时才会搜索网络。
研究人员从多个来源获取测试查询,包括提交给ChatGPT的特定问题(WildChat数据集中)、AllSide上列出的普遍政治主题以及100个搜索量最大的亚马逊产品列表中的产品。
总体而言,生成式搜索工具结果中引用的来源往往来自比传统搜索前10名更不受欢迎的网站,这是通过域名追踪器Tranco衡量的。AI引擎引用的来源比传统Google搜索链接的来源更有可能落在Tranco追踪的前1000名和前100万名域名之外。特别是Gemini搜索显示出引用不受欢迎域名的倾向,在所有结果中,中位数来源落在Tranco前1000名之外。

大多数AI概述引用的来源并未出现在同一查询的前10名Google链接结果中。
信息源分布:AI搜索的独特偏好
AI驱动的搜索引擎引用的来源往往不会出现在任何接近相同有机Google搜索结果的前列。例如,Google AI概述引用的53%的来源并未出现在同一查询的前10名Google链接中,40%的来源甚至没有进入前100名Google链接。
这些差异并不一定意味着AI生成的结果更"差"。研究人员发现,基于GPT的搜索更有可能引用公司实体和百科全书作为信息来源,而几乎从不引用社交媒体网站。

Google Gemini搜索特别倾向于引用低受欢迎度域名。
概念覆盖与信息压缩:AI搜索的双面性
基于LLM的分析工具发现,AI驱动的搜索结果往往覆盖与传统的前10个链接相似数量的可识别"概念",表明结果在细节、多样性和新颖性方面处于相似水平。同时,研究人员发现"生成式引擎倾向于压缩信息,有时省略了传统搜索保留的次要或模糊方面"。对于更模糊的搜索术语(例如同名不同人的名字),"有机搜索结果提供更好的覆盖范围"。
AI搜索的优势:内部知识与外部信息的融合
AI搜索引擎的一个明显优势是能够将预训练的"内部知识"与从引用网站收集的数据融合在一起。这对于带搜索工具的GPT-4o尤其明显,它通常不引用任何网络来源,而是仅基于其训练提供直接响应。
然而,这种对预训练数据的依赖在搜索最新信息时可能成为限制。对于从Google 9月15日趋势查询列表中提取的搜索术语,研究人员发现带搜索工具的GPT-4o通常回复"能否请您提供更多信息"之类的信息,而不是实际搜索网络获取最新信息。
评估挑战:需要新的评价方法
虽然研究人员没有确定基于AI的搜索引擎整体上比传统搜索引擎链接"更好"或"更差",但他们确实敦促未来研究"新的评估方法,共同考虑生成式搜索系统中的来源多样性、概念覆盖范围和合成行为"。
这一研究揭示了AI搜索与传统搜索之间的根本差异,反映了AI系统在信息获取和处理上的独特策略。随着AI搜索技术的不断发展,理解这些差异及其对信息获取方式的影响将成为用户、开发者和研究人员共同关注的重点。
未来展望:AI搜索的发展方向
AI搜索引擎偏爱非主流信息源的现象,可能代表了信息获取方式的重要转变。传统搜索引擎长期以来依赖于链接权威性和流行度,而AI搜索似乎更注重内容的相关性和多样性。这种转变可能带来更全面的信息覆盖,但也可能面临信息质量和可靠性的挑战。
未来的研究需要探索如何在保持信息多样性的同时,确保AI搜索结果的准确性和权威性。这可能涉及改进AI系统评估信息源可靠性的方法,以及开发更有效的算法来平衡不同来源的信息。
用户视角:如何适应AI搜索的新特性
对于普通用户而言,了解AI搜索的这些特性有助于更有效地利用这些工具。用户可能需要培养批判性思维能力,学会评估AI生成结果中的信息来源,并理解AI搜索可能存在的局限性,特别是在处理最新信息或高度专业化主题时。
同时,用户也可以利用AI搜索的独特优势,探索传统搜索中可能被忽视的非主流资源,从而获得更全面、更多元化的信息视角。
技术挑战:平衡多样性与可靠性
AI搜索引擎面临的重大挑战是如何在信息多样性和可靠性之间取得平衡。虽然引用非主流来源可以增加信息的多样性,但也可能导致信息质量参差不齐。未来的技术发展需要探索更有效的信息源评估机制,以及更智能的信息整合方法,以确保AI搜索结果既全面又可靠。
此外,AI搜索还需要解决对预训练数据的过度依赖问题,特别是在处理时效性信息时的局限性。这可能需要改进AI系统的实时搜索能力,以及更有效地整合最新信息的方法。
行业影响:搜索生态系统的变革
AI搜索的这些特性正在重塑整个搜索生态系统。传统搜索引擎可能需要适应这一变化,考虑如何整合AI生成元素,同时保持其传统的优势。同时,内容创作者和网站所有者也需要调整策略,以适应AI搜索可能带来的流量分配变化。
这种变革还可能影响信息消费方式,推动用户更主动地探索多元化信息来源,而非仅仅依赖传统搜索中的热门资源。
结论:AI搜索的深度探索
AI搜索引擎对非主流信息源的偏好反映了信息获取方式的潜在转变。这一现象既带来了机遇,也带来了挑战。通过深入理解AI搜索的工作原理和特性,我们可以更好地利用这些工具,同时发展更有效的评估方法,以确保信息获取的质量和可靠性。
随着AI技术的不断发展,搜索领域将继续经历创新和变革。理解这些变化并适应它们,将帮助用户、开发者和研究人员共同推动信息检索技术的进步,为用户提供更丰富、更准确的信息体验。









