|
Post by account_disabled on Dec 30, 2023 4:09:05 GMT
将其传递给您甚至不希望被索引的动态 URL。 有一些方法可以克服这个问题: 选项1 将“nofollow”标签添加到任何多面导航链接。 这将最大限度地减少爬网程序发现不必要的 URL,从而减少多面导航可能出现的潜在爆炸性爬网空间。 选项2 添加“noindex”标签以通知机器人哪些页面不包含在索引中。 这将从索引中删除页面,但仍然会浪费爬行预算和稀释链接资产。 选项3 使用 robots.txt 禁止。对于带有不必要参数的 URL,请包含 robots.txt 不允许的目录。这可以让所有搜索引擎自由地抓取您希望机器人抓取的 URL。 例如:我们可以在 robots 文件中禁止价格低于 100 美元。 不允许: *?prefn1=priceRank&prefv1=%240%20-%20%24100 选项4 规范标签 手机号码数据 允许您指示 Google 一组页面有一个首选版本。使用此方法可以将链接资产合并到所选的首选页面中。然而,爬行预算仍然会被浪费。 #2. 会话标识符/现场重复内容 同样,URL 参数(例如会话 ID 或跟踪 ID)或使用 GET 方法发送信息的表单将创建同一 URL 的许多唯一实例。 反过来,这些动态 URL 可能会导致网站上出现重复内容问题,并耗尽大量爬网预算,尽管事实上这些资产都不是唯一的。 #3。软404 当 Web 服务器响应 200 OK HTTP 状态代码(而不是 404 Not Found)时,即使页面不存在,也会发生“软 404”。 在这种情况下,Googlebot 将尝试抓取该页面,用完分配的预算,而不是继续抓取实际的现有网址。 被黑的页面 不幸的是,黑客攻击中包含的被黑页面可能会增加爬虫可能尝试访问的 URL 列表。如果您的网站遭到黑客攻击,请从网站中删除这些页面并向 Googlebot 提供 404 Not Found 响应代码。 看到被黑的页面对谷歌来说并不是什么新鲜事,搜索引擎会立即将它们从索引中删除。但当然,只有当你向它提供 404 时,它才会这样做。 #5。无限空间和代理 无限空间是 Googlebot 将尝试抓取的近乎无穷无尽的网址列表。无限空间可以通过多种方式出现 - 但最常见的是通过站点搜索自动生成的 URL。
|
|