查看: 1220|回复: 1

[搜索优化SEO] 关于网站重复内容:常见的起因和主要解决方法

[复制链接]
发表于 2010-12-16 15:20 | 显示全部楼层 |阅读模式
像谷歌等搜索引擎有一个问题。他们称之为“重复内容”。你的内容展示在网站各个不同页面,他们不知道该展示那个地址。尤其是当人们链接到你所有的不同版本的内容时,这个重复内容会更严重。这篇文章旨在让你了解造成重复内容的不同原因,然后找出各个的解决之道。

重复内容原因

1、误解URL概念

2、session ID‘s

3、URL 跟踪参数

4、内容搜刮&内容聚合

5、参数顺序

6、评论分页

7、打印页面

8、www vs. 无www

概念上的解决方法 “canonical”标签

1、识别重复内容

2、谷歌网站管理员工具

3、搜索指令查询title

解决重复内容的实践操作

1、避免重复内容

2、301重定向

4、使用rel=“canonical”标签

5、链接链向原始内容

总结:重复内容是可以解决的也应该解决

你可以把重复内容比作你站在你一个十字路口,道路标志上有两个不同方向都指向同一个目的地,究竟该走哪一条路?更有甚者在当你的目的地不一样时,情况会更糟糕。作为一个读者,不会管内容从哪里来,但是搜索引擎不得不挑选一个展示在搜索结果中,因为他们不想把同样的内容展示两次。

比方说,关于关键词X的内容展示在http://www.example.com/keyword-x/这个URL上,同样的内容也出现在http://www.example.com/article-category/keyword-x/上,这种情况可不是虚构的哦,在很多cms系统中都存在这个问题。比如你的文章已经被一些网友收藏转载了,一些人链向你的第一个URL,一些人链向你的第二个URL。这时重复内容问题就来啦。如果所有关于这个关键字的链接都指向一个URL的话,关键词在首页的几率也会高很多。

重复内容起因

有很多因素可以导致重复内容。绝大部分都是技术上的,一个人决定把同样的内容放在两个不同的地方,并不指出原始出处这种情况不是很常见,绝大部分人都会觉得不舒服。技术上的理由也是很充分。它产生的绝大部分原因是程序员没有站在浏览器或者用户角度,也没管搜索引擎蜘蛛,只是按照程序员的思维。假设之前提到的那篇文章它出现在http://www.example.com/keyword-x/ 和 http://www.example.com/article-category/keyword-x/? 如果你问程序员,他会说它是仅出现一次啊。

误解URL的概念

那么程序员都疯了吗?不,没有,他只是再说另一种语言。你看到的整个网站可能都是数据库驱动的。在那个数据库里面,只有一篇文章,网站程序允许数据库中的一篇文章可以通过不同的URL访问得到。因为在程序员眼里,唯一的标志是数据库中的文章只有唯一的ID,而不是URL。对于搜索引擎,URL才是一篇文章的唯一识别符。如果你这样跟你的程序员说,他才会意思到问题原因,接着他会像与我共事的大部分程序员一样,想搜索引擎愚蠢在哪里以及为什么他不能解决这个问题。如此他又走向另一个错误的思维。

Session ID

你常想着去追踪你的访问者的轨迹,比如存储他们在购物车购买的物品。要做到这一点,你必须给他们一个session(会话)。一个session会话基本上是访客在你网站所做的简短历史,可能包含内容比如购物车里面的物品。为了保持访客从点击一个网页到另一个网页的会话session,需要存储子某个地方。最常见的解决方法是cookies,然而搜索引擎通常不会存储cookies。

在这一点上发生了什么,一些网站系统在URL中使用session ID来返回。在这一点上每个网站上的内部链接都会被追加上session ID,而session ID又是唯一的,这样产生了新的URL,因此重复内容产生了。

使用追踪和排序的URL参数

另一个引起重复内容的原因是URL参数的使用,虽然参数不会改变页面内容,比如在跟踪链接里面。你会看到 http://www.example.com/keyword-x/ 和 http://www.example.com/keyword-x/?source=rss等对搜索引擎来说都不是同样的URL。后者可能是允许你跟踪来源,它可能会使你的排名变得有点困难,一个非常不好的负面效果。

这个不仅适用于跟踪参数,它还适用每一个你加在URL后面的参数不会改变你网页上的实际内容。涉及到参数会改变网页上产品的顺序或者展示另外一个sidebar这些都会导致重复内容。

内容搜刮和内容聚合

虽然引起重复内容的绝大部分原因在于你自己,或者至少是你网站的过失,有时是其他网站有没有经你同意使用你的内容。他们并不总是链向你的原始内容,搜索引擎也不知道就会不得不处理你的同样文章的另外版本。

你的网站越来越流行,遇到的搜刮也越来越多,问题也会越来越严重。

参数顺序

另一个较常见的原因就是cms不会使用简洁干净的URL,而是使用比如 /?id=1&cat=2,这里的ID指示文章,cat指示分类。在大部分的建站系统中,这个URL /?cat=2&id=1 也将会渲染同样的内容,但是对搜索引擎来说他们就是完全不同的。

评论分页

在wordpress系统或者其他程序里面会有一个评论分页的选项。这将会导致文章内容在 文章本身的URL 还有文章的URL+/comment-page-1/, /comment-page-2/ 等的重复。

打印页面

如果你的cms会产打印页面而且从你的文章页面还有链接,在绝大部分情况下谷歌会发现这些页面,除非你特别阻止他们。谷歌该展示那一个版本?一个有广告和周边内容的页面或者一个只有你文章的页面。

WWW vs. non-WWW

这是一个最老的问题了,但是当两个版本都可以访问时,有时搜索引擎还是会混淆WWW vs. non-WWW重复内容。

一个不常见的情形还有就是http vs https 重复内容。

概念上的解决方法 “canonical”标签

正如上面确定的,不同的URL产生同样的内容会导致重复内容是一个问题,但是它可以被解决的。人类在发表文章时通常可以很容易地告诉你某个文章的正确的URL应该是什么。搞笑的是有时你问同一公司的3个人会得到3个不同的答案。

总结:重复内容是可以解决的也应该解决

在这些情形中问题需要解决,因为在最后只能有一个URL。文章正确的URL可以被搜索引擎命名的Canonical。

识别重复内容

你可能不知道你网站上是否有重复内容。就让我来给你一些方法。

谷歌网站管理员工具

谷歌网站管理员工具是一个很好的识别重复内容的工具。如果你转到谷歌网站管理员工具查看你的网站,检查诊断——》HTML建议,你就看到这样的


如果页面有重复的title或者重复描述的话,那里几乎没有什么好事情。点击它会显示那些URL有重复标题或者描述将帮助你识别出问题。问题是如果你有一篇文章关于“keyword -X”显示在两个分类里面,他们的title可能会不一样。比如他们的标题会是“Keyword X - Category X - Example Site” 和 “Keyword X - Category Y - Example Site”。 谷歌不会把他们作为重复标题,但是你可以通过搜索找到他们。

查找title或者其他片段

有几个搜索运算符在这种情况下是非常有帮助的。如果你想找到你网站上包含你的关键字“X”文章的所有URL,你可以输入在谷歌搜索框中输入以下指令:

site:example.com intitle:"Keyword X”

复制代码

谷歌将会展示你在example.com上所有页面包含那个关键词的。你搜索title部分的关键词越具体,也越容易找到重复内容并清除他们。你也可以使用同样的方法来识别别人网站上有没有你的重复内容。比如说,你文章的完整title是Keyword X - why it is awesome,你可以搜索
intitle:"Keyword X - why it is awesome”

复制代码

谷歌会返回所有网站上包含这个title的。有时你也可以搜索你文章中的一两个句子,因为有些内容搜刮 的人可能会改掉你的title。在某些情况下,当你搜索的时候,谷歌可以会在结果最后显示如下的提示:


这就是一个信号说谷歌已经删除了重复的数据结果。这显然是不好的,你可以继续点击进去查看其他的结果来看是否有助于你解决这些问题。
温馨提示:
1、本内容转载于网络,版权归原作者所有!
2、本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
3、本内容若侵犯到你的版权利益,请联系我们,会尽快给予删除处理!
 楼主| 发表于 2010-12-16 15:21 | 显示全部楼层
此帖仅作者可见

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

客服QQ/微信
1178013856 周一至周日:09:00 - 22:00
十五年老品牌,学习网上创业赚钱,首先爱赚会,值得信赖!
爱赚会 版权所有!

本站内容均转载于互联网,并不代表爱赚会立场!
拒绝任何人以任何形式在本站发表与中华人民共和国法律相抵触的言论!

小黑屋|广告服务|加入vip|APP下载|手机版| 爱赚会

GMT+8, 2024-11-14 01:12 , Processed in 0.125249 second(s), 34 queries .

快速回复 返回顶部 返回列表