这几天有跟朋友在讨论,关于谷歌搜索引擎不收录网站内容的问题,以及相应的一些解决方案。那今天这篇文章就简单的梳理一下相关的逻辑,并分享一点我们自己的做法。
首先是怎么收录的问题,即要不要手动提交申请收录。
其实谷歌搜索引擎爬虫是会定期光顾网站内容的,并且在网站的站点地图上,有一个 LastMod 字段是能够记录网站最新内容的更新时间的。所以理论上是不需要我们再单独手动,在谷歌站长工具里面提交我们的收录申请。
但是按照我们自己的经验,被动等待这种方式,最快也需要 2-3 天才能被爬虫发现并收录,远不及主动提交方式来得快(最快 2-3 小时)。
所以处于收录速度与数据统计便利的角度出发,还是建议在内容上线后采用手动提交的方式,去请求内容收录。不过要注意的是,大部分谷歌站长账户的请求数量是有限制的(每天 10 条左右)。
但是无论是采用主动还是被动的收录方式,都会存在一个问题,即网站的内容不被谷歌搜索引擎收录。比如下图便是我的一个新站数据,记录着链接不被收录的原因。
像“redirect error”,“noindex”这种技术类的问题是很好解决的,难的就是这种“currently not indexd”问题,根本不知道从哪里下嘴。
因为从我们站长的角度出发,都是采用相同手段写的文章,也都是相同时间段提交的内容,但就是会存在有几个内容不被收录的概率。要么是“Discovered(已经发现内容)”不被收录,要么是“Crawled(已经抓取内容)”不被收录。
其实针对这些问题,去阅读官方指导手册,根本看不出门道来。手册里面大多都是一个指导性的官话,要么内容重复,要么内容质量低下。
让我们自查自纠的话,很难下手。
那这里分享两个我们团队在用的,解决这类问题的两个小方法。
方法一是“等”,其实有时候那些“Discovered - currently not indexd”问题,可能是因为分配给网站的爬虫抓取资源有限,导致没有更多的爬虫去处理这块内容。
那针对这种问题,我们可以先等几天看看谷歌搜索引擎是不是会收录。按照我自己的经验,基本上等几天再重新手动提交一遍收录,就能解决问题。另外还可以使用内链的方式去做这种内容的收录,逻辑就是在新内容里加一条内链了,比较简单。
但是对于“Crawled - currently not indexd”问题,再次提交收录基本没用。因为从技术角度出发,这个阶段谷歌搜索引擎已经抓取了你的内容,只不过因为内容质量可能存在问题,导致最终没有收录。
所以要么你花大量精力去更改内容,使其符合谷歌搜索引擎的标准(说实话这个标准没办法量化,挺虚无缥缈的)。也正是基于此点,这种直接修改内容的方式,我基本很少使用。
所以如果可以的话,考虑下修改文章的标题并修改文章的链接地址信息,将那条不收录的内容包装成一个“新”内容,再去请求收录,80% 的概率能通过,就是这么魔幻。
以上,一点关于收录问题的分享。