AI爬虫遭遇新闻网站封锁:一项跨国调查

in hive-180932 •  last month 

【由Microsoft Copilot绘制】

作者:Richard Fletcher博士

研究要点

本报告分析了十个国家主要新闻网站对人工智能(AI)爬虫的封锁情况。OpenAI(ChatGPT的开发者)和谷歌(Gemini,前身为Bard的开发者)等公司使用爬虫从网站收集数据,用于训练大型语言模型(LLMs)。这些爬虫还可以实时检索网站信息以回应用户查询。然而,如果网站选择阻止这些爬虫(且未达成其他协议),这些活动将被禁止,这可能影响AI模型的质量及其获取网络信息的能力。

我们的主要发现如下:

  1. 截至2023年底,在十个国家最受欢迎的新闻网站中,48%阻止了OpenAI的爬虫,24%阻止了谷歌的AI爬虫。
  2. 几乎所有(97%)阻止谷歌AI爬虫的网站也同时阻止了OpenAI的爬虫。
  3. 各国阻止OpenAI爬虫的比例差异显著,从美国的79%到墨西哥和波兰的20%不等。对谷歌AI爬虫的阻止率则从德国的60%到波兰和西班牙的7%不等。
  4. 2023年内,没有网站在决定阻止后改变立场。
  5. 在线新闻覆盖范围较大的媒体略微更倾向于阻止AI爬虫。
  6. 各类新闻媒体都有阻止行为,但传统印刷媒体的网站比广播公司或纯数字媒体更可能采取阻止措施。
  7. 与其他研究相比,新闻出版商似乎比一般热门网站更倾向于阻止AI爬虫。

背景介绍

网络爬虫(也称为"蜘蛛"或"机器人")是自动浏览网页并系统收集数据的程序。它们有多种用途,例如搜索引擎利用爬虫收集的数据建立网页索引,以快速响应搜索请求。

AI公司如OpenAI也使用爬虫从网络收集数据来训练他们的模型。LLMs需要海量数据训练才能有效运作,而互联网是高质量文本和音视频数据的重要来源。例如,《华盛顿邮报》记者团队与艾伦人工智能研究所的研究人员分析谷歌的C4数据集(用于训练某些LLMs)时发现,广义的"新闻和媒体"类别——包括新闻出版商、维基百科、Scribd、Goodreads等——占据了13%的数据量。训练完成后,像GPT这样的LLMs可以通过ChatGPT等界面产生输出并回答用户问题。虽然模型不需要持续联网就能运作,但它们可以与网络连接,实时检索网站信息,将其作为输出的一部分。这样,LLMs可以成为传统搜索方式的替代品。

然而,新闻出版商可能出于各种原因不愿让AI公司使用他们的内容。例如,《纽约时报》等媒体认为,他们的内容被用于训练AI模型应该得到经济补偿。此外,如果人们开始使用AI获取最新新闻,出版商可能担心不准确的输出(或"幻觉")会被误认为是他们的观点,或者用户不会被引导回出版商的网站,从而影响他们的收益。还有一些出版商可能并不担心这些潜在风险,甚至积极希望被纳入AI系统,因为他们希望当人们使用生成式AI进行新闻相关查询时,能够看到他们的报道。少数出版商,如Axel Springer,已经与OpenAI等公司达成协议,允许AI用他们网站的新闻回应用户查询。与此同时,全球的新闻出版商正在尝试使用AI工具,探索是否能创造新的用户体验、提高效率并降低成本。

如果出版商不希望AI公司访问他们的在线内容,他们可以选择阻止AI爬虫。出版商可以通过网站的robots.txt文件指示爬虫远离(尽管遵守与否是自愿的)。OpenAI在2023年8月7日发布最新爬虫时,提供了如何阻止这些爬虫的说明,给予出版商选择退出的权利。谷歌也于2023年9月28日采取了类似措施。

追踪哪些出版商选择阻止AI爬虫,能让我们了解在AI可能改变信息格局的时代,出版商与AI公司之间的关系。这也有助于我们预测未来AI模型在处理新闻时的表现,以及AI作为公众获取新闻的工具有多大潜力。

为了追踪有多少网站阻止了主要的AI爬虫,我们通过Internet Archive的Wayback Machine检查了这些网站在2023年每天的robots.txt文件存档。我们的研究对象是根据2023年路透社新闻研究所数字新闻报告,在巴西、丹麦、德国、印度、墨西哥、挪威、波兰、西班牙、英国和美国这十个国家使用最广泛的15个在线新闻来源。

先前研究

我们并非首个进行此类研究的团队。Originality.ai(一家开发AI和剽窃检测工具的公司)目前正在追踪全球1000个最受欢迎网站中阻止AI爬虫的比例。截至撰写本文时,他们发现约三分之一的网站阻止OpenAI,五分之一阻止Common Crawl,十分之一阻止谷歌。然而,该追踪器并不专注于新闻出版商,还包括了一些几乎没有理由阻止AI爬虫的网站类别(如电子商务网站)。

记者Ben Welsh每天自动检查1,156个新闻出版商的robots.txt文件,查看它们是否阻止OpenAI、谷歌AI和Common Crawl,并在其网站上公布结果。目前的数据显示,约50%的追踪新闻网站阻止OpenAI,约40%阻止谷歌AI和Common Crawl。这表明新闻网站比一般热门网站更倾向于阻止AI爬虫。但需要注意的是,约75%的检查站点来自美国,这可能会影响结果的代表性。此外,不同类型的新闻出版商之间在阻止行为上是否存在系统性差异尚不清楚。

研究结果

国别差异

我们调查了十个国家最受欢迎的15个在线新闻来源,发现截至2023年底,48%的顶级新闻网站阻止了OpenAI的爬虫。约一半数量(24%)阻止了谷歌的AI爬虫。

这些总体数字掩盖了各国之间的巨大差异。阻止OpenAI的顶级在线新闻网站比例从美国的79%到墨西哥和波兰的仅20%不等。对于谷歌,阻止其AI爬虫的比例从德国的60%到波兰和西班牙的7%不等。总体而言,发达国家的媒体比发展中国家更倾向于阻止AI爬虫。有趣的是,这些数据与一些评估国家AI能力和准备程度的指数(如Tortoise和Oxford Insights发布的指数)相一致,这些指数都将美国排在首位。

除德国外(对OpenAI和谷歌的阻止率均为60%),每个国家阻止OpenAI爬虫的顶级新闻网站都多于阻止谷歌的。此外,几乎所有阻止谷歌AI的网站也阻止了OpenAI(97%)。这可能是因为ChatGPT比Bard/Gemini更受关注和广泛使用,或者因为OpenAI的爬虫先于谷歌发布。但也可能是出版商对阻止谷歌更为谨慎,担心这可能影响他们在搜索结果中的排名——尽管搜索和AI使用不同的爬虫。

(Unsupported https://datawrapper.dwcdn.net/GDkOg/3/)
(Unsupported https://datawrapper.dwcdn.net/RiSh1/3/)
### 时间趋势

从时间数据来看,大多数国家的一些出版商在OpenAI爬虫发布后立即开始阻止,但西班牙、墨西哥和波兰的出版商反应较晚。对谷歌AI的阻止情况类似,但在墨西哥和波兰,没有证据表明任何顶级新闻网站特意针对谷歌爬虫的发布采取了阻止措施。这些国家的一些出版商事实上阻止了谷歌AI爬虫,但这仅仅是因为他们长期以来的政策是阻止所有网络爬虫,因此在爬虫甚至还未发布时,阻止比例就已经不为零。

在2023年期间,没有网站在决定阻止后改变立场。墨西哥数据中出现的下降趋势是由于Wayback Machine数据缺失,而非网站解除阻止。然而,如果更多出版商与AI公司达成协议,或者如果阻止带来的弊大于利,我们可能会在未来看到这一趋势的逆转。

出版商差异

从出版商类型来看,我们发现一些类别的出版商比其他类别更倾向于阻止AI爬虫。首先,根据路透社新闻研究所2023年数字新闻报告,在线覆盖范围较大的媒体略微更可能采取阻止措施。在在线新闻覆盖率达20%或以上的媒体中,32%在2023年底阻止了谷歌AI爬虫。相比之下,覆盖率低于10%的媒体中,只有22%采取了阻止措施。对于OpenAI,这种差异较小。

按媒体类型分类时,我们发现更显著的差异。我们将媒体分为三类:传统印刷出版物(如《纽约时报》和《明镜周刊》等报纸和杂志)、广播电视机构(如BBC和CNN),以及纯数字媒体(包括HuffPost和Yahoo!)。到2023年底,超过半数(57%)的传统印刷出版物网站阻止了OpenAI的爬虫,相比之下,广播电视机构为48%,纯数字媒体约为三分之一(31%)。对谷歌的阻止模式类似,传统印刷媒体更可能采取阻止措施(32%),而广播电视机构(19%)和纯数字媒体(17%)的比例较低。

(Unsupported https://datawrapper.dwcdn.net/GDkOg/3/)
(Unsupported https://datawrapper.dwcdn.net/GDkOg/3/)

结论

本研究表明,截至2023年底,十个调查国家中约有半数最受欢迎的新闻网站阻止了OpenAI和谷歌的AI爬虫。值得注意的是,采取阻止措施的主要是传统印刷媒体和覆盖范围较大的媒体。这意味着新一代AI模型在训练时可能较少使用来自报纸和杂志出版商的新闻内容,以及那些被公众广泛使用的媒体内容。这可能会影响AI在处理新闻时的输出质量和相关性,无论是模型本身还是它们从网络检索信息的能力。

然而,重要的是要认识到,这只是2023年底情况的一个快照。AI领域发展迅速,情况可能会迅速变化,即使在短期内也是如此。特别是随着一些出版商寻求与AI公司达成协议,以及新产品不断开发,我们可能会看到这一格局的变化。

研究方法说明

  1. 本研究中的"15个使用最广泛的在线新闻来源"列表基于2023年路透社数字新闻报告,但我们排除了"本地或地区报纸在线版"等通用选项,用下一个覆盖率最高的在线来源替代。一些国家的列表包括国际或非本国来源(如美国的BBC)和新闻聚合器(如Yahoo! News和MSN),因为它们在多个国家都是使用最广泛的在线新闻来源之一。印度的数据仅考虑英语人口中使用最广泛的15个在线新闻来源。
  2. 我们将阻止"GPTBot"、"ChatGPT-User"或所有爬虫的网站计为阻止OpenAI的爬虫。阻止"Google-Extended"或所有爬虫的网站则被计为阻止谷歌AI。除美国《华盛顿邮报》外,所有网站都有2023年12月的数据。
  3. 时间趋势数据按月分析和呈现,以应对Wayback Machine中的数据缺失或错误。我们收集每个月每天的所有数据,使用最常出现的文件来代表该月。如果整个月的数据都缺失,可能会导致趋势线出现下降,如墨西哥的情况所示。

这项研究为我们理解新闻媒体与AI技术之间的复杂关系提供了重要见解。随着AI技术继续发展,新闻出版商如何平衡保护自身利益与适应新技术环境将是一个值得持续关注的话题。未来的研究可能需要探讨这些阻止策略对新闻传播、AI模型性能以及公众获取信息方式的长期影响。

Authors get paid when people like you upvote their post.
If you enjoyed what you read here, create your account today and start earning FREE STEEM!
Sort Order:  

Upvoted! Thank you for supporting witness @jswit.