什么是网页快照?
  • 网页快照,英文名叫WebCache,网页缓存。搜狗在收录网页时,对网页进行备份,存在自己的服务器缓存里,当用户在搜索引擎中点击“网页快照”链接时,搜狗将搜狗Spider系统当时所抓取并保存的网页内容展现出来,称为“网页快照”。
  • 互联网上的网页并不是一成不变的,而是不断增加、删除、改动。因此,搜狗网页数据库中的网页也需要及时更新,既把互联网上网页重新复制一遍。
  • 如果你在你的网站上删除一张网页,那么搜狗数据库中的复制品-网页快照并不会立刻被删除,而是要过一段才会被删除。
内容变更/快照内容错误怎么办?
  • 如果网页内容(无论是内容还是网页标题或者其他信息)已经更改或者发现搜狗网页快照与您的网页内容不一致,在我们下次抓取网站并刷新索引前,网页快照仍然会包含原有的内容。因而这些内容仍然会出现在搜索结果中,您可以申请更新快照(http://fankui.help.sogou.com/index.php/web/web/index?type=2)来告知搜狗更新快照信息。
从搜狗永久删除内容如何操作?

    情况一网页已不存在

  • 如果网页已不存在,请确保服务器返回 404(未找到)。这样可让搜狗知道该网页已不存在,无需再在搜索结果中显示。
  • 情况二网页仍存在

  • 请使用 robots.txt 阻止 sogou spider 进行抓取。请注意,在通常情况下,即使您已通过 robots.txt 禁止抓取某个网址,但如果我们在其他网站中发现该网址,仍会将相应网页编入索引。这里需要说明一点,如果页面变死链了,并且设置了robots.txt,那么搜狗的spider就不会再来更新,也就不知道这个页面变死链。
  • 情况三删除非 HTML 格式的文件

  • 如果要从搜索结果中删除非 HTML 格式的文件(例如可下载的 PDF),则您或网站站长应确保从服务器中删除该文件。
我想从搜索结果中删除整个网站或某个目录的内容?

    情况一您是网站拥有者

  • 如果您是网站拥有者,则需要在验证网站所有权后申请删除整个网站或目录。
  • 为确保永久删除您的目录或网站,请使用 robots.txt 阻止抓取工具访问该目录(如果要删除的是网站,则应阻止抓取工具访问您的整个网站)。我们建议您在请求删除目录前或请求删除后不久执行该操作。否则,您的内容稍后可能会重新显示在搜索结果中。仅返回 404 HTTP 状态代码还不够,因为可能出现这样一种情况:即某个目录返回了 404 状态代码,却仍然分发其中的文件。通过使用 robots.txt 禁止抓取目录,可确保将目录的所有子项也一并排除。
  • 完成上述某步操作后,您就可以发出删除请求,从搜索结果中删除相应目录及其所有内容。删除 https://www.example.com 的同时还会删除 http://www.example.com,以及http://example.com 和 https://example.com。
  • 情况二您不是网站拥有者

  • 如果您不是网站拥有者,请通过网站联系网站管理员,要求他通过以上步骤进行删除。搜狗没有权利控制互联网中的内容。
有用:36 阅读:5229
提交失败 关闭

您好,站点本周已提交抓取诊断200次,达到每周抓取诊断上限,已无剩余次数。请下周再提交,合理利用抓取诊断次数,谢谢您的配合!