Web浏览器中加载的每个页面都有一个包含在404页面的特征

为解决此问题,谷歌注意到404页面的特征,并尝试辨别是否是真的404页面。在某些情况下,该页面实际上并没有丢失,但是某些特征触发了谷歌将其归类为丢失的页面。这些特征包括页面上的内容很少或残缺,以及网站上的相似页面太多。链接到曾经存在但现在已经缺失的页面。当页面不再存在时,您有两个选择:包括网站外链,它们可能会转到您的网站上曾经存在的页面。更有效的方法是将所有内容放到一页上,并列举可用选项。

在 Web 浏览器中加载的每个页面都有一个包含在 HTTP 标头中的响应代码,该响应代码可能在网页本身上可见也可能不可见。服务器提供许多不同的响应代码来传达页面的加载状态。404 响应代码是最常见的代码之一。

通常,400 到 499 之间的任何代码都表示该页面未加载。404 响应代码是唯一具有特定含义的代码 – 页面实际上已经消失了。

1. 什么是软 404 错误?

软 404 错误不是发送到 Web 浏览器的官方响应代码。这只是谷歌在索引页面时添加到页面的标签。当 抓取页面时,会仔细分配资源,以确保不会在丢失的页面上浪费时间。

但是,有些服务器配置不正确,并且当它们应该显示 404 响应代码时,缺少的页面加载了 200 代码。即使网页说没有找到该页面,但看不见的HTTP头仍然显示200代码,那么该页面可能被索引,这对来说是一种资源浪费。

为了解决这个问题, 注意到 404 页面的特征,并试图辨别它是否是真正的 404 页面。换句话说,谷歌知道如果它看起来像 404 并且行为像 404,那么它可能是一个真正的 404 页面。

可能被误认为是软 404

在某些情况下,该页面实际上并没有丢失,但某些特征触发 将其归类为丢失页面。这些特征包括页面上的内容很少或不完整,以及网站上的相似页面太多。

这些特征也类似于 算法 ( ) 试图解决的问题。 更新将稀疏和重复的内容视为负面排名因素。因此,修复这些问题将有助于避免软 404 和 问题。

404错误有两个主要原因:

◇ 将用户引导至不存在的页面的链接错误。

◇ 链接到曾经存在但现在丢失的页面。

2. 404 错误代码

如果 404 错误的原因是链接错误,则只需修复链接即可。这项任务的难点在于找到网站上所有损坏的链接。对于拥有数千或数百万页面的大型复杂网站来说,这可能更具挑战性。在这种情况下,爬虫工具就派上用场了。你可以试试 Xenu、Frog 或类似的东西。

不存在的页面

当页面不再存在时,您有两种选择:

◇ 如果页面被误删,请恢复。

◇ 301重定向到最近的相关页面。

首先,您必须找到网站上的所有链接错误。与查找大型网站链接中的所有错误类似,您可以使用抓取工具。但是,爬网工具可能找不到孤立页面,这些页面在导航链接或任何页面链接中的任何地方都找不到。

孤立页面可能是网站的一部分,在网站重新设计后,指向该页面的链接消失了,但来自其他网站的外部链接可能仍链接到它们。

3. 谷歌控制台

当 爬虫抓取页面时, 控制台会报告 404 页面。包括指向您网站的反向链接,这些反向链接可能会转到您网站上曾经存在的页面。

谷歌分析报告

默认情况下,您不会在 中找到缺失页面报告。但是,您可以通过多种方式跟踪它们。一种方法是创建自定义报告并将页面标题为“错误 404 – 找不到页面”的页面分段。

在 中查找孤立页面的另一种方法是创建自定义内容分组并将所有 404 页面分组到一个内容组中。

4. “站点:”运算符

例如,在搜索引擎中搜索“site:”将列出所有已编入索引的页面。然后你可以单独检查页面是否正常加载或者页面是否为404页面。

为了大规模地做到这一点,您还可以使用一些工具。由于一个搜索引擎只会给您一个子集,因此在多个搜索引擎上运行这些工具可以提供更大的列表。并进行批量 404 检查。

5. 如何修复软 404 错误

抓取工具不会检测到软 404 错误,因为它实际上不是 404 错误。但是你可以发现爬虫工具的其他问题。例如:

◇ 内容稀少:一些爬虫不仅会报告内容低的页面,还会报告总字数。在这里,您可以根据内容的字数对 URL 进行排序。首先从字数最少的页面开始,然后评估页面的内容是否足够。

◇ 内容重复:一些爬虫工具足够复杂,可以识别同质页面内容的百分比。如果主要内容与许多其他页面几乎相同,您应该调查这些页面并确定重复内容的原因。

除了爬虫,您还可以使用 控制台检查网页内容是否存在爬虫错误,以查找带有软 404 的页面。

爬取整个网站以查找导致软 404 的原因可让您在 检测到问题之前纠正问题。大多数时候,解决方案似乎是常识。这可能包括一些简单的事情,例如充实页面内容或用新内容替换重复的内容。

在此过程中,需要考虑以下几点:

◇ 合并页面:有时候,页面的主题过于具体导致内容稀少,让你无语。如果主题相关,则将多个薄页合并为一个。这不仅解决了内容稀疏的问题,还解决了重复内容的问题。

例如,电子商务网站可能对每种鞋码和颜色都有不同的 URL。这会留下很多内容稀疏且相似的页面。一种更有效的方法是将所有内容放在一个页面上并列举可用的选项。

◇ 查找导致重复内容的技术问题:即使使用最简单的网络爬虫工具,您仍然可以通过查看 URL 找到重复内容问题。这包括 www 或非 www URL、http 以及带有或不带有 .html、带有或不带有跟踪参数等的内容。

以相同的方式处理 404 错误和软 404 错误

软 404 并不是真正的 404,但如果这些页面没有及时修复, 会将它们删除。定期抓取您的网站以查看是否有任何 404 或软 404 是个好主意。爬虫应该是您的 SEO 工具库的重要组成部分。

希望以上内容能解答大家对 404 错误的疑惑。更多详情请关注以上内容~

免责声明:本文来自网络用户投稿,不代表本站观点和立场。如有侵权请发送邮件至tzanseo@163.com告知本站删除,本站不负任何责任及承诺。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。

发表评论

登录后才能评论