所谓搜索引擎优化(Search Engine Optimization,SEO),也就是针对各种搜索引擎的检索特点,让网页设计适合搜索引擎的检索原则(即搜索引擎友好),从而获得搜索引擎收录并在排名中靠前的各种行为。如对于基于META标签检索的搜索引擎,在META标签中设置有效的关键词和网站描述,对于以网页内容相关性为主的蜘蛛型搜索引擎,则通过在网页中增加关键词的密度,或者专门为搜索引擎设计一个便于检索的页面(如sitemap.htm、roberts.txt)。搜索引擎优化(SEO)是搜索引擎营销的常见形式之一。
一个对搜索引擎友好的网站,应该方便搜索引擎检索信息,并且返回的检索信息让用户看起来有吸引力,这样才能达到搜索引擎营销的目的。为了说明什么是网站对搜索引擎友好,我们不妨看看对搜索引擎不友好的网站有哪些特征:
· 网页中大量采用图片或者Flash等Rich Media形式,没有可以检索的文本信息;
· 网页没有标题,或者标题中没有包含有效的关键词;
· 网页正文中有效关键词比较少;
· 网站导航系统让搜索引擎“看不懂”;
· 大量动态网页让搜索引擎无法检索;
· 没有被其他已经被搜索引擎收录的网站提供的链接;
· 网站中充斥大量欺骗搜索引擎的垃圾信息,如“过渡页”、“桥页”、颜色与背景色相同的文字等;
· 网站中含有许多错误的链接。
当然,搜索引擎友好的网站正好和上述特征相反,是依靠适合搜索引擎的方式来设计网站,注重每个细节问题的专业性,以真实的信息和有效的表达方式赢得搜索引擎的青睐,从而获得更好的搜索引擎营销效果。
搜索引擎排名规则有一些普遍规律,但不同的搜索引擎又有一些不同的特点和不同的排名规则,需要进行针对性搜索引擎优化——SEO(即所谓Google优化、百度优化、Yahoo优化等)。
搜索引擎的宗旨在于提取互联网中质量最好的内容提供给用户,任何有利于帮助用户获得相对公正,优质内容的策略都是搜索引擎追求目标。PageRank是一个非常好的策略,但是并非所有策略都是基于非常复杂的算法。
从搜索引擎看来什么是互联网中“好”的内容呢?SEO工作应该从何开展呢?
- 首先:互联网大约是8G个网页,而且以每天2M的速度增长的。其中80%以上是动态网页,而占总量20%的静态网页就是一个相对比较简单的过滤规则。
- 其次:用户友好(User friendly)也是很重要的方面,搜索引擎利用算法帮助提升这些优质网站,包括:通过CSS将内容和表现分离:较少的javascript和frame结构,spider本身也很难深入抓取这些网页:Javascript和frame结构大部分是广告。
- 标题明确:无标题,重复标题或者标题SPAM(类似于:游戏游戏游戏游戏游戏游戏这样的标题)进行过滤或降低得分页面大小:因为页面过大会导致用户下载缓慢,所以很多引擎只计算页面大小在100k以内的网页。
- 链接引用:不仅需要有链接链入,也需要帮助用户找到其他更有价值的内容;
- 文件类型:PDF和DOC等专业文档和来自edu,gov等非赢利网站的内容;
- 链入网站的文字:所有用户不可见的因素全部被忽略。此外:用户搜索的行为本身也被搜索引擎记录,可能对目标网站的主题相关度有帮助。
参考资料:
最全面的SEO工具就是搜索引擎本身
SEO的五大技术难题
百度的关键字排名主要分加种:
收费的不用说是老大了,但网页上总要有特定关键字才好些
第一是知名网站
第二是联盟成员
第三是非盈利网站
如果这几类网站都有某个关键字
刚按类别,相同类别的优先
如果大家都是一样,则视网页更新先后,百度会把后更新的排在前面。
此外,如果你被百度收录的所有页都在某个关键字,也会排得更前些。
这是最基本的方面,总的来说,用适当的关键字就行了。
这只是大体的情况,并不是什么绝对规则,还有一点最重要的是:标题完全匹配某个关键字或长标题靠前的的优先,这一点是最重要的。
比如
“Yes165激情笑话--偷拍美女走光图搞笑恐怖两性”
这里“走光图”被重视,实际就是如此,至于按时间优先,我是在分析其它网站时得出的一般结论,当然这个关键字是有其它因素的,我这里讨论的是一般网页而言。
解析两个观点:
一、“长标题靠前”从SEO的角度看为:如果你的标题有很多关键字,则前面的关键字被重视,后面的忽略
二、我这里说的规律并不是叫大家想法作弊,而是假如你做好了一个很好的主页,如何让用户更方便的找到你之意!
参考资料:
搜索引擎优化(SEO)——面向百度
http://www.baidu.com/search/guide.html
目前中文网站在整个互联网中的影响还比较小,这主要是由于中文网站总体的水平(技术上,内容上)都还相对落后造成的,最主要的表现有:
行业知识:
不知道搜索引擎对吸引的新用户的重要性,在搜索引擎优化(SEO)及排名服务中追求“傻瓜相关”,购买一些其实没有太多实际意义的行业关键词。其实能够用户输入的关键词越多,真对性越强,价值越高。用户能够直接定位到产品具体内容页比到网站首页有价值的多;
发布技术:
网站的网页进入Google的索引量非常小,动态网页仍是主要发布机制,缺乏将动态页面链接表现成静态页面的机制;
页面设计:
页面标题重复,关键词不突出,过渡使用JavaScript脚本/图片/Flash等不适合搜索引擎索引的非文本形式;
无法量化的东西是不可管理的,以上根本的原因往往是网站自身缺乏日志统计分析造成。
其实大部分网站只要通过一些简单的策略还是可以让网站自身的水平在互联网中有一个真实的体现,网站结构设计中面向搜索引擎优化(SEO)的注意事项包括:
- 链接引用的重要性;
- 如何突出关键词:网页标题、主题的设计;
- 页面及站点结构设计注意事项;
- 站点访问统计的重要性等;
- Google的站点设计指南(注意:本网站设计本身就利用了其中一些方法)。
什么是PageRank:Google等新一带搜索引擎的优势之一在于不仅索引量很大,而且还将最好的结果排在搜索结果的最前面,具体的原理可以参考Google 的秘密 - PageRank 徹底解説一文,PageRank简单的说类似于科技论文中的引用机制:谁的论文被引用次数多,谁就是权威。在互联网上PageRank就是基于网页中相互链接关系的分析得出的。
此外,从计算方法角度阐述PageRank机制还有这篇文章:http://pr.efactory.de/里面有更详细的PageRank算法说明和各种清晰的小型个案分析
链接就是一切
在互联网的海洋中,最重要的就是互联互通,不被其他网站引用的网站就是“信息孤岛”。“酒好也怕巷子深”,也许这话说起来有点像垃圾邮件广告,但事实就是这样。所以如果做网站的目的不是孤芳自赏,做好搜索引擎优化就需要积极的推广自己的网站。
通过针对搜索引擎优化(SEO)后,自己需要注意以下几个方面:
- 以量取胜:不一定加入大型网站的分类目录才是网站推广,来自其他网站的任何反相链接都是有用的网站推广比较经典的方式就是加入比较大型门户网站的分类目录,比如:Yahoo!,dmoz.org等。其实这里有一个误区:不一定非要加入大型网站的分类目录才是网站推广,因为现在搜索引擎已经不再只是网站目录的索引,而是更全面的网页索引,所以无论来自其他网站任何地方的反相链接都是非常有价值的,哪怕是出现在新闻报道,论坛,邮件列表归档中。Blogger(Weblog的简称)们也许最深刻地理解了“链接就是一切”这句话的含义,由于Blog的内容之间有大量的相互链接,因此最经常被引用的 Blog页面在搜索引擎中的排名往往比一些大型商业网站的页面还要高。而wiki这样的文档管理系统更加突出了良好引用的特征。
- 以质取胜:被PageRank高的网站引用能更快地提高PageRank数量只是关键因素之一,来自PageRank高的页面的链接还能更快的提高被链接目标的PageRank,我只是将一些文章投稿在了ZDNet中国上,由于页面上有文章出处链接,相应网页和网站整体的PageRank过了一段时间后就有了很大的提升。有时候被什么样的网站引用有时候比引用次数多更重要。这里我要特别感谢的是,当时ZDNet中国是唯一遵循了我的版权声明的要求表明了文章出处,并且有反相链接的网站。
按照这个原则:能够名列Yahoo!和DMOZ这样的大型权威目录的头2层是非常有价值的。
- 了解搜索引擎的"价值观",从深层次做搜索引擎优化:Lucene简介这篇文章被Jakarta.apache.org的lucene项目引用以后,这篇文章就成为了所有页面中PageRank最高的页面,而Google支持的一些项目,比如:Folding@Home,让我一直怀疑他们对政府,教育和非盈利组织的站点有特别加分,毕竟.org .edu才代表了互联网的实质:分权和共享。
但更合理的解释是:.org很多都是开放技术平台的开发者,他们会在首页这样的地方加入Powered By Apache, Power by FreeBSD之类的链接表示对其他开源平台的尊重,所以象Apache, PHP, FreeBSD这样的开源站点在Google中都有非常高的PageRank。而在.edu这些站点中,很多都是学术性比较强的文档,以超链接形式标明参考文献的出处已经成为一种习惯,而这也无疑正是PageRank最好的依据。注意,不要通过Link Farm提高自身的站点排名:Google会惩罚那些主动链接到Link Farm站点以提高自身排名站点,相应站点的页面将不会被收入到索引中。但如果你的页面被别的Link Farm链接了也不必担心,因为这种被动的链接是不会被惩罚的。
- 不要吝啬给其他网站的链接:如果一个网页只有大量的进入链接,而缺乏导出链接,也会被搜索引擎认为是没有价值的站点。保证你的网站能够帮助搜索引擎更准确地判断哪些是对用户最有价值的信息,也就是说如果你的网站只有外部反向链接而没有导出链接的话,也会对你的网站在搜索结果中的表现带来负面影响。当然网站中连一个导出链接都没有的情况非常罕见,除非你是刻意这么做。正常情况下大家都会自然地在网页中加上一些其他网站的链接,带领访问者去到我们认为重要或能够提供更多有价值信息的地方,另外在推广自己网站之前也许首先需要了解自己网站目前在一些搜索引擎中的知名度,原理非常简单,可以参考如何评价网站的人气一文。
搜索引擎优化(SEO)的链接策略只是手段,如何突出内容、如何针对搜索引擎优化的关键字设计、让需要相关信息的用户能够尽快的找到你的网站才是目的,PageRank高并不代表像Yahoo!这样的门户站点就能在所有搜索结果中排名靠前,因为搜索引擎的结果是搜索关键词在页面中的匹配度和页面的PageRank相结合的排名结果。因此第二个要点:如何突出关键词。
如何突出关键词:面向主题(Theme)的关键词匹配
Theme Engine正在逐步超过PR,成为结果排序中更主要的因素,可以比较一下以下现象:
为什么查“新闻”,“汽车”之类的文字,各种门户网站的首页不在第一位?要知道他们的页面中都有相应频道的链接文字的一篇新闻页面中,搜索引擎如何不通过模板匹配,自动将新闻的主体和页面中的页头,栏目导航条,页尾等部分的内容区分开的?其实以上问题都可以归结为网页内容摘要的提取策略和关键词在其中的命中。首先将能够描述一个页面内容的分成以下几种类型:链入文字描述:inbound link text
http://www.searchenginedictionary.com/terms-inbound-link.shtml
HTML页面标题:title 好标题一般会将页面中最重要的关键词放在最前面,比如:ABC-10型吸尘器 - XX家电城,HTML内容主体:content text,链出文字:outbound link text
如果按照以下规则:
一个页面中关键词命中权重:链入文字 > HTML标题文字 > HTML页面主体内容 >> 出链文字,以上现象就比较好解释了。
链入文字是页面上看不见的,但链入文字对被链接页面有巨大的作用,搜索引擎优化同样需要争取更多更关键的链入文字:现代搜索引擎在关键词匹配的过程中,匹配的过程不只看当前页面的内容摘要:很大程度上,不只看这个网页自己说自己有什么内容,还要看别人如何链接时,如何描述你的网站别人怎么称呼你,比你自己说自己更重要。比如查:“世界卫生组织”,返回结果中有 http://www.who.int/ 而这个页面中是没有中文的,之所以能匹配上,是因为很多链接它的中文网站使用了:世界卫生组织,所以,这个页面中不存在的中文关键词也成为了页面摘要的一部分。这样一想,就可以知道链出链接的文字其实是为被链接的子频道首页或者内容详情页服务的。在搜索引擎优化过程中必须注意链出文字对自身页面的关键词密度只有负面的影响,这也是Google建议一个页面中链接不要超过100个的原因:他根本不索引100个链接以后的内容。按照以上规则,搜索引擎将一篇新闻详情页中的新闻内容提取出来就是把页面上所有带HTTP链接的文字都去掉,就是新闻的内容部分了,更精确一些可以通过取最长文本段落等策略实现;而很多网站首页或频道首页中几乎全部都是链接,经过搜索引擎分析的结果就是:什么内容也没有,能够被命中的关键词仅仅是别人链接你用的“网站首页”和频道标题Title中的站点名称等的几个关键词,而页面中其他的文字则远远不如相应子频道和具体内容页面的匹配度高,而搜索引擎能够通过以上规则,让用户更快的直接定位到有具体内容的内容详情页面。因此希望通过一个首页,尽可能多的命中所有希望推广的关键词是不可能的。让网页尽可能多的进入搜索引擎的索引,然后把握好整个网站的主题风格是非常重要的,让网站的主题关键词能够比较均匀的按照金字塔模式分布到页面内容中。充分体会这些将极大的帮助我们做好搜索引擎优化(SEO)工作。