搜狐首页 科技 法医秦明

手机搜狐

SOHU.COM

一个纯采集站长的SEO、采集、运维总结

我是一个纯采集站长,下面的这些总结,有些是关于关于SEO,有些是关于采集和运维,都是很基础的个人见解,仅作分享,请自辨好坏是非,实践出真知。

原创好还是采集好?

当然是原创好,因为是这么说的,谁叫人家是裁判。

为什么我原创了很多文章,还是不收录?收录了没排名?

一个搜索引擎,它的核心价值是要为用户提供他/她最需要的结果。搜索引擎是有统计网民需求的,对于网民需求量小或者几乎没有需求的内容,即使你是原创也可能被搜索引擎忽略,因为它不想浪费资源在无意义的内容上。

对网民需求量大的内容,收录应该会比较多、比较快,但是,正因为收录多,即使你是原创,也可能很难挤进排名。

搜索引擎统计网民需求以什么来标识?

关键词。每一个人搜索一个关键词时,就表明他/她对这个词相关的内容有需求。而且,使用搜索引擎的人,通常是有问答需求、检索查询需求。当然搜索引擎内部肯定有非常庞大的分析系统,对这些需求进行精确的定位,详见百度指数。比如搜索的关键词是“手机”,很有可能是想要买手机或者查某款的价格,也可能只是想要下载漂亮的壁纸。但是,如果是想要壁纸,就会有更精确的关键词“手机壁纸”,以下拉框或者相关搜索的形式呈现出来。

既然原创好,为什么要采集?

1. 虽然原创好,但只要方法适当,采集的效果并不会比原创差多少,甚至比没掌握到方法的那些原创好很多。

2. 精力有限,原创很难保证长期大量更新,如果请个编辑,投入产出比可能是负数。

市面上采集器那么多,应该用哪个好?

每个采集器都有它的独特之处,所谓存在即合理。请根据自己的需求来选择即可。我的采集器是自己开发的,开发的过程中考虑了以下几方面,使用其他采集器的也可作参考:

1. 直接提供已分类的海量关键词,这些关键词都是百度已经统计的有网民需求的词(有百度指数),或者是这些词的长尾词,来自百度下拉框或相关搜索。

2. 直接按关键词采集,智能分析网页正文进行抓取,不需要自己写采集规则。

3. 抓取到的正文经过规范的标签清理,段落全部以

标签呈现,乱码一律去除。

4. 根据采集到的内容自动配图,图片一定是与该内容相关度非常高的。以这种方式代替伪原创,既不影响可读性,又使文章图文并茂,做到比原创所提供的信息更丰富。

5. 正文内容中的关键词自动加粗,也可自定义要插入的关键词。但没有做句子重排、段落重排等影响可读性的所谓“伪原创”功能。

精选