生活

<p>今天,Google宣布他们将不再使用Googlebot-News抓取新闻网站,而是使用Googlebot抓取新闻网站,Googlebot是一个抓取网站进行网络搜索的机器人</p><p>但是,您仍然可以通过在robots.txt中禁用Googlebot-News或使用元漫游器代码来阻止您的内容在Google新闻中编入索引</p><p>似乎令人困惑</p><p>一方面,它根本不存在</p><p>如果您希望Google在网络搜索和新闻(如果您是Google新闻发布商)中为您的内容编制索引,那么您无需执行任何操作</p><p> Google将一如既往地继续抓取,但如果您查看服务器日志,则只会看到Googlebot的条目,而不是Googlebot和Googlebot-News的条目</p><p>如果您希望将自己的内容保留在Google新闻之外,则可以继续使用robots.txt(或meta robots标记)中的Disallow指令来阻止Googlebot-News</p><p>尽管Google现在会抓取Googlebot而不是Googlebot-News,但他们仍然会尊重Googleb0t-News robots.txt指令</p><p>但是,您不能再禁止Googlebot并允许其他专业Googlebot使用Googlebot-News,尽管您可以在此更改之前使用</p><p>另一方面,如果您使用数据来了解网站的抓取方式并进行改进,则此更改会使事情变得更加混乱</p><p>例如,如果您发现自己的新闻报道未在Google新闻中编入索引,并且您在Google网站站长工具中检查了针对新闻的抓取错误,但未发现任何问题,则无法再检查服务器日志以查看是否存在正在为新闻索引抓取这些文章</p><p>您可以查看页面是否正在被抓取,但是这种不那么精细的洞察力使得解决问题变得更加困难</p><p>在此示例中,您可能正在生成特定于新闻的Sitemap,并且该生成过程可能缺少特定URL</p><p>您以前可以查看服务器日志,查看Googlebot-News是否抓取特定网址而不抓取其他网址,然后检查未抓取的网址是否在Sitemap中</p><p>现在,所有服务器日志都会告诉您Google是否正在抓取网址</p><p>如果他们被抓取进行网络搜索而不是新闻,则该细节现在已丢失</p><p>您也会失去对网络搜索的精细洞察力</p><p>如果您要追踪为什么网站上的特定网页未编入索引,您可以先查看服务器日志以查看它们是否正在被抓取,但现在看起来就像它们一样,即使它们仅被抓取到Google新闻</p><p>您仍然可以从Google网站管理员工具获取特定于新闻和特定于网络的抓取错误,因此仍然可以获得一些洞察力</p><p>在粒度方面,Google告诉我,robots.txt报告限制的Google网站管理员工具网址仅包含阻止网络搜索的网页,而不包括从Google新闻屏蔽的网址</p><p>但是,听起来您似乎无法查看Google尝试抓取的网址列表,但由于Googlebot-News被阻止,但不幸的是,Google网站管理员工具中的robots.txt分析工具不允许您进行测试Google新闻中阻止的网址与网络搜索分开</p><p>因此,很难确定您是否意外阻止了Google新闻中的索引编制网址</p><p>这种变化对我来说似乎有点退步</p><p> Google新闻首次推出时,Googlebot抓取了网络搜索和新闻,新闻发布商要求提供新闻专用机器人</p><p>当然,最重要的原因是能够阻止和允许Google新闻中的内容与网络搜索分开,并且该功能仍然存在</p><p>然而,可用的细粒度洞察也是有用的,不幸的是现在将丢失</p><p>本文中表达的观点是客座作者的观点,