当前位置:首页 > 网络安全 > 正文内容

如何拦截Google和Bing访问您的网站?

a811625534年前 (2022-07-15)网络安全33

google每天至少使用一次googlebot抓取工具来抓取网页并将其编入索引。通常,抓取基于您在Google Search ConSOLe中提交的。但是,与普通内容网站相比,新闻网站的抓取频率可能会发生变化并且速度会更快。同样,Bing也使用Bingbot爬虫来爬取页面。一方面,网站管理员希望Google和Bing立即索引他们的页面,另一方面,在某些情况下,您必须阻止这些爬虫来停止爬取整个网站或您网站上的某些页面。

在本文中,我们将解释如何屏蔽Googlebot和Bingbot,屏蔽爬虫后会发生什么以及出现爬取问题的常见原因。

拦截Googlebot和Bingbot

根据您需要的严重程度,有多种 *** 可以阻止您的网页访问Google和Bing。

1. 使用Robots.txt进行拦截

阻止爬虫的更流行和最常见的 *** 是在中使用指令。例如,插入以下行将拦截Google和Bing访问您网站上的页面。

User-agent: Googlebot
Disallow: /your-page-url
User-agent: Bingbot
Disallow:  /your-page-url

尽管Google和Bing遵循robots.txt文件,但如果被阻止的页面是从另一篇已编入索引的文章链接的,它就不起作用。它可以来自您的网站,也可以来自您无法控制的外部网站。

2. 使用.htaccess来阻止

虽然不常见,但有些人更喜欢来阻止爬虫。这类似于拦截Googlebot和Bingbot的IP地址,从而阻止对上述页面或目录的完全访问。

RewriteEngine On
RewriteCond %{REQUEst_URI} ^/your-page-url
RewriteRule ^(.*)$ - [F,L]

3. 拦截Googlebot和Bingbot IP地址

上述 *** 的问题是您需要具有服务器访问权限才能编辑文件。此外,您在编辑robots.txt和.htaccess文件时也可能会出错。另一种有效的选择是使用阻止Googlebot和Bingbot IP地址。和为爬虫提供更新后的IP地址,您可以将其用于阻止目的。这些IP地址采用json格式,您需要从中提取IP范围并使用。请记住,这些是用于Googlebot和Bingbot搜索爬虫,而不是用于其他目的,例如AdSense爬虫或microsoft广告爬虫。

使用主机面板

如果您有服务器访问权限,则可以使用主机面板中提供的IP Blocker工具。例如,HostGator在其cPanel的“SECURITY”部分下提供了一个名为IP Deny Manager的“IP Blocker”应用程序。

HostGator cPanel中的IP拦截器

您可以在所有cPanel托管公司中找到类似的工具,例如Bluehost。单击IP Blocker应用程序并提供Googlebot或Bingbot的IP范围以拦 *** 问。例如,您可以使用以下 *** 之一提供Googlebot IP地址:

  • 使用jsON文件中给出的CIDR格式,如 66.249.64.0/27。
  • 隐含的IP范围,如 66.249.66.0-255
  • 通配符范围如 66.249.*.*
  • 只需输入googlebot.com,因为大多数Goolgebot用户 *** 都来自此主机名。

在cPanel中拦截Googlebot和Bingbot

通常,拦截一个或几个IP地址就足以拦 *** 问。但是,您可以使用通配符或主机名来阻止整个访问。

使用WordPress插件

否则,如果您使用的是WordPress之类的内容管理系统,那么您有很多可以拦截来自站点管理员面板的机器人和IP地址,而无需访问托管帐户。例如,允许您监控网站的实时流量。您可以根据用户 *** 名称找到Googlebot和 Bingbot IP地址,并在管理面板中单击几下即可阻止。

在SiteGround安全插件中拦截IP

这些是有效的 *** ,尤其是当您想拦截Google和Bing访问您的整个网站时。

您还可以使用,通过插件的蜘蛛拦截功能来对Google和Bing蜘蛛进行拦截,您可以通过IP或者蜘蛛名进行快速拦截。

该插件同时还具备网站搜索引擎蜘蛛爬取数据统计,页面爬取日志查看,蜘蛛访问路径等功能,属于WordPress站长必不可少的SEO辅助插件。

4. 隐藏授权页面

这对于通过设置权限来限制搜索引擎对页面的访问非常有用。例如,银行会员网站将个性化内容隐藏在登录授权后面,这样搜索引擎就无法访问这些内容。基于内容的机密性,您可能需要应用防火墙、阻止用户配置文件等。强烈建议聘请开发人员并在所需目录级别正确设置限制,以便Google不会抓取禁止部分。

控制爬行速率或爬行频率

如果您发现Googlebot和Bingbot对服务器资源的消耗较高,您可以控制抓取速度或抓取频率。抓取速度是Googlebot或Bingbot每秒发出的从您的网站获取内容的请求数。对于高流量网站,控制爬虫程序的爬取速度对于调整服务器资源至关重要。详细了解。

但是,Google会自动使用优化的抓取速度从您的网站抓取内容。您可以从Google Search Console帐户查看此内容。如果您对当前的抓取频率不满意,请向Google提出特殊要求。新的抓取速度将在接下来的90天内有效,并在该期限后重置为优化设置。详细了解。

拦截Googlebot和Bingbot时会发生什么?

当您阻止页面或站点URL时,您将分别在Google Search Console和Bing网站管理员工具中看到不同类型的错误。以下是您会在Search Console帐户中注意到的一些常见错误:

  • 当您使用robots.txt指令时,URL被Robots.txt阻止。
  • 带有类似“提交的URL似乎是一个软404”的404错误消息 。
  • 部分抓取或页面没有内容错误。

如果管理您网站的人错误地阻止了您网站上的页面,您可以检查“覆盖范围”部分下的Google Search Console错误并修复它们。

但是,在拦截IP或使用.htaccess *** 时,您可能不会发现问题。简单的 *** 是使用Google Search Console中的URL检查工具、Google PageSpeed Insights或移动友好的测试工具来测试是否可以抓取实时页面。当Googlebot被阻止访问该页面时,您将看到错误和呈现的空白页面。

小结

您可以使用上述 *** 之一来拦截Googlebot和Bingbot抓取您的网站。但是,请确保在阻止您网站的特定页面或部分时避免错误。特别是,拦截IP地址是最危险的操作,它会将您的网页从Google搜索中完全删除。您可能需要重新提交页面并等待重新索引,这可能会导致流量下降,从而导致收入下降。因此,如果您不确定如何拦截Googlebot和Bingbot,请与您的托管公司联系。或者,聘请开发人员进行自定义开发工作,例如将机密内容隐藏在授权后面。

扫描二维码推送至手机访问。

版权声明:本文由2345好导航站长资讯发布,如需转载请注明出处。

本文链接:http://www.2345hao.cn/blog/index.php/post/4636.html

分享给朋友:

“如何拦截Google和Bing访问您的网站?” 的相关文章

WordPress如何阻止网站启用谷歌FLoC追踪技术

WordPress如何阻止网站启用谷歌FLoC追踪技术

FLoC受到电子前沿基金会(EFF)的批评,而基于Chromium内核开发的Brave、Vivaldi和Microsoft Edge等浏览器厂商则完全拒绝了FLoC,这些厂商认为FLoC作为一种隐私保护技术存在争议。 那么WordPress网站如果要从网站的层面阻止启用谷歌最新的FLoC追踪技术,...

WordPress与GDPR合规性

WordPress与GDPR合规性

您可能听说过网络上正在讨论的“GDPR”一词。这仍然是一个非常热门的话题,尤其是在新闻中发生的所有数据泄露和安全问题。简而言之,GDPR是一项旨在让公民重新控制其个人数据的隐私法。毫无疑问,GDPR正在影响整个互联网处理数据的方式。可怕的是截止日期是去年(2018年5月25日),许多关于GDPR...

如何修改WordPress最大上传文件大小限制

如何修改WordPress最大上传文件大小限制

较低的WordPress上传限制可阻止您上传大文件,插件和主题。如果您要建立一个拥有大量多媒体资源的网站,那这将是一个很大的障碍。在这种情况下,有必要增加WordPress或服务器(或两者)中的最大上传大小。 也经常在WordPress交流群里看到站长咨询关于WordPress上传文件大小限制...

当您的WordPress网站被黑时该怎么办

当您的WordPress网站被黑时该怎么办

WordPress网站被黑。如果它发生在你身上,很容易恐慌。在这篇文章中,我将帮助您确定您的网站是否被黑客入侵,指导您完成清理网站的步骤并帮助您提高网站的安全性。 最后,我将为您提供一些提示,以防止您的WordPress网站将来再次被黑客入侵。...

WordPress遭遇蛮力攻击的8种对应措施

WordPress遭遇蛮力攻击的8种对应措施

蛮力攻击是通过试错法尝试解锁受密码保护的网页的方法。劫机者使用复杂的机器人来猜测登录、注册和其他页面表单上的用户名和密码,并试图接管该网站。机器人不断尝试猜测凭据并在您的服务器上施加大量负载。 因此,即使您不是从安全角度考虑,也必须阻止这些机器人/用户以减少托管服务器上的负载。在本文中,让我们...

WordPress去中心化:区块链作为数据主权和安全的解决方案

WordPress去中心化:区块链作为数据主权和安全的解决方案

区块链技术的应用范围远不止加密货币和 NFT。它正在通过去中心化改变各个行业的数据存储和管理。 区块链的基本原理是将数据记录在安全、透明且不可篡改的账本中。每笔交易都经过加密保护,并与链中的前一笔交易相关联。没有中央机构来认证数据安全性——相反,由于数据分布在多个节点上,因此透明度可确保完整性...