防止内容被抓取训练AI:百度百科屏蔽谷歌/必应等搜索引擎

快科技 2024-08-22 11:53:59新闻资讯
290

8月22日消息,据报道,近日百度百科开始屏蔽谷歌和必应等大多数搜索引擎,预计是为了阻止这些搜索引擎和其他爬虫,未经授权抓取百度百科的内容用于训练AI。

百度百科的robots.txt文件显示,目前仅有百度搜索、搜狗搜索、中国搜索(Chinaso)、YYSpider和宜搜搜索(EasouSpider)等少数几个搜索引擎被允许抓取其内容。

百度百科.png

谷歌搜索、必应搜索、微软MSN、UC浏览器的Yisouspider以及其他一切搜索引擎爬虫均被明确禁止抓取百度百科的内容。

虽然360搜索没有在封禁列表中单独列出,但百度百科的策略是禁止一切非白名单爬虫抓取,所以360搜索和其他搜索引擎也都是被屏蔽的。

不过百度百科这种做法其实也只是防君子不防小人,肯定还有很多爬虫通过各种方式继续抓取内容然后拿去训练AI。

百度百科 谷歌 必应 搜索引擎
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

​谷歌内部测试新搜索 “AI 模式”,基于Gemini 2.0 技术
谷歌搜索正在进行一项新功能的内部测试,该功能被称为 “AI 模式”,旨在为用户提供一个可以提出更开放式和探索性问题的 “持久性空间”。这一新体验基于谷歌的 Gemini2.0技术...
2025-02-06 新闻资讯
177

站长工具网:搜索引擎是如何判断网站内容质量的?
随着互联网的飞速发展,搜索引擎已经成为人们获取信息的主要工具之一。对于网站运营者来说,了解搜索引擎如何判断网站内容的质量至关重要。高质量的内容不仅能吸引更多的用户...
2025-01-20 站长之家
266

今日头条搜索排名怎么做?头条搜索引擎网站排名优化方法详解
随着互联网的快速发展,搜索引擎优化(SEO)已经成为企业获取流量和提升品牌影响力的重要手段。今日头条作为国内领先的资讯平台,其搜索功能也逐渐成为企业推广的重要渠道。本文...
2025-01-19 站长之家
287

InfAlign:谷歌DeepMind推出的提升语言模型推理对齐能力的机器学习框架
随着人工智能技术的不断发展,生成式语言模型在各个领域的应用日益广泛。然而,这些模型在从训练到实际应用的过程中面临着诸多挑战。其中,如何在推理阶段使模型达到最佳表现...
2025-01-03 新闻资讯
199

个人站长如何友好转载文章而不受搜索引擎惩罚?
​在自媒体和网络内容创作的时代,个人站长在运营网站时,常常需要转载一些有价值的文章来丰富网站内容,吸引更多的读者和搜索引擎的青睐。然而,转载文章涉及到版权和原创性...
2025-01-03 站长之家
261

网站一次性发布大量文章是否会被搜索引擎视为采集?
在网站运营和内容优化的过程中,许多网站管理员和SEO从业者常常面临一个关键问题:一次性发布大量文章是否会被搜索引擎视为采集?这个问题不仅关乎网站的权重和排名,还涉及到...
2025-01-02 站长之家
241