2008年10月16日

动态网址与静态网址

在跟网络管理员沟通时经常会出现这种情形,一些广为传播的理念可能在过去是正确的,但是可能已不再切合目前的情况了。当我们最近在跟几个朋友谈及关于网址的结构时就碰到这种情况。其中一个朋友很担心动态网址的使用,甚至认为“搜索引擎无法处理动态网址”。另外一个朋友觉得动态网址对搜索引擎来说完全不是问题,那些都是过去的事了。还有一个甚至说他从来都搞不懂动态网址和静态网址相比有什么区别。对于我们来说,这一刻使我们决定要好好研究一下动态网址和静态网址这个话题。首先,让我们来界定一下我们要谈论的主题:

什么是静态网址?
一个静态网址,顾名思义,就是一个不会发生变化的网址,它通常不包含任何网址参数。例如:http://www.example.com/archive/january.htm。您可以在搜索框里输入 filetype:html 在谷歌上搜索静态网址。更新此种类型网址的页面会比较耗费时间,尤其是当信息量增长很快时,因为每一个单独的页面都必须更改编译代码。这也是为什么网站管理员们在处理大型的、经常更新的网站,像在线购物网站、论坛社区、博客或者是内容管理系统时,会使用动态网址的原因。

什么是动态网址?
如果一个网站的内容存储于一个数据库,并且根据要求来显示页面,这时就可以使用动态网址。在这种情况下,网站提供的内容基本上是基于模板形式的。通常情况下,一个动态网址看起来像这样:http://code.google.com/p/google-checkout-php-sample-code/issues/detail?id=31。您可以通过寻找像? = & 这样的符号识别出动态网址。动态网址有一个缺陷是不同的网址可以拥有相同的内容。这样导致不同的用户可能链向含有不同参数的网址,但是这些网址却都含有相同的内容。这也是为什么网络管理员有时候想要将这些动态网址重写成静态网址的原因之一。

我是不是应该让我的动态网址看起来是静态的呢?
在处理动态网址时,希望您能了解以下几点事实:

 

  1. 要正确地生成和维护从动态网址到静态化网址的重写转变实际上是一件很难的事情。
  2. 将原始的动态网址提供给我们会比较安全,请让我们来处理诸如探测和避开那些有问题的参数的事情。
  3. 如果您想重写网址,请去掉那些不必要的参数,同时请保持它动态网址的样子。
  4. 如果您想提供一个静态网址代替动态网址,那么您应该切实地生成相应的静态内容。

静态和动态网址,Googlebot对于哪一个识别得更好呢?
我们碰到过很多网站管理员,像我们的朋友那样,认为静态或者看起来是静态的网址对于网站的索引和排名是有优势的。这种看法是基于这样一个假设,即认为搜索引擎在抓取和分析含有会话标识(session ID)和来源追踪器(source tracker)的网址时是有问题的。然而,事实是,谷歌在这两个方面都有了相当的进展。就点击率来说,静态网址可能略微有些优势,因为用户可以很容易地读懂这个网址。但是,就索引和排名来说,使用数据库驱动网站并不意味着明显的劣势。相比较将参数隐藏以使他们看起来是静态的网址来说,我们更希望网站将动态的网址直接提供给搜索引擎。

现在,让我们来看一些有关动态网址的广为传播的看法,并且来纠正一些蒙蔽网站管理员的假说。:)

传说:“动态网址不能被抓取。”
事实:我们可以抓取动态网址并且解释不同的参数。如果您为了让网址看起来像是静态的,而隐藏那些可以给谷歌提供有价值信息的参数,这样做反而会给该网址的抓取和排名带来麻烦。我们的建议是:请不要将一个动态网址改换格式以使其看起来是静态的。尽可能地使用静态网址来显示静态内容是可取的,但在您决定展示动态内容的情况下,请不要将参数隐藏起来从而使他们看起来像是静态的,因为这样做会删除掉那些有助于我们分析网址的有用信息。

传说:“动态网址的参数要少于3个。”
事实:对于参数的数量是没有限制的。但是,一个好的经验是不要让您的网址太长(这个适用于所有的网址,不论是静态的还是动态的)。您可以去掉一些对于Googlebot来说不重要的参数,给用户一个好看一点的动态网址。如果您不能确定可以去掉哪些参数,我们建议您将动态网址中所有的参数都提供给我们,我们的系统会弄明白哪一些是不重要的。将参数隐藏起来会影响我们正确地分析您的网址,我们也就不能识别这些参数,一些重要信息可能也因此丢失了。

下面一些是我们认为您可能会存在疑问的一些问题。

这是否意味着我应该完全避免重写动态网址?
这是我们的建议,除非您能确保您只是去掉多余的参数,或能够把所有有可能有不良影响的参数完整地删除。如果您把自己的动态网址任意修改使其看起来像是静态的,您要清楚这样做是有风险的,有可能会导致有些信息不能被正常地编译和识别。如果您想给您的网站再增加一个静态的版本,请您一定要提供一个真正意义上的静态的内容,比如生成那些可以通过网站相应路径而获取的文件。如果您仅仅是修改了动态网址的表现形式,而没有真正提供静态的内容,那么您有可能适得其反。请直接把标准的动态URL提供给我们,我们会自动找出那些冗余的参数。

你能给我举一个例子么?
如果您有一个像下面这样标准格式的动态网址:foo?key1=value&key2=value2,我们建议您不用改动它,谷歌会决定哪些参数可以去掉;或者您可以为用户去掉那些不必要的参数。不过要慎重,仅仅去掉那些不重要的参数。这里有一个含有多个参数的动态网址的例子:

www.example.com/article/bin/answer.foo?language=en&answer=3&sid=98971298178906&query=URL
 

  • language=en – 标明这篇文章的语言
  • answer=3 – 这篇文章含有数字3
  • sid=8971298178906 – 会话标识代码是8971298178906
  • query=URL – 使这篇文章被找到的查询是[URL]

并不是所有的参数都提供额外的信息。所以将这个网址重写为www.example.com/article/bin/answer.foo?language=en&answer=3 可能不会引起任何问题,因为所有不相关的参数都去掉了。

下面是一些经过认为修改而看起来像是静态网址的例子。相比较没有重写、直接提供动态网址来说,这些网址可能会引起更多抓取方面的问题。
 

  • www.example.com/article/bin/answer.foo/en/3/98971298178906/URL
  • www.example.com/article/bin/answer.foo/language=en/answer=3/ sid=98971298178906/query=URL
  • www.example.com/article/bin/answer.foo/language/en/answer/3/sid/ 98971298178906/query/URL
  • www.example.com/article/bin/answer.foo/en,3,98971298178906,URL

如果您将动态网址重写成如上所述的示例的话,可能会导致我们很多不必要的抓取,因为这些网址中都含有会话标识(sid)和查询(query)参数的可变值,这无形中生成了很多看起来不同的URL,而他们包含的内容却是相同的。这些格式让我们很难理解通过这个网址返回的实际内容和参数URL以及98971298178906是无关的。不过,下面这个重写的例子却将所有无关的参数都去掉了:
 

  • www.example.com/article/bin/answer.foo/en/3

尽管我们可以正确地处理这个网址,我们还是不鼓励您使用这样的重写。因为它很难维护,而且一旦一个新的参数被加到原始的动态网址,那么这个网址就需要马上更新。不这样做的话就会再次导致生成一个隐藏了参数的貌似静态网址的URL。所以最好的解决方法是通常将动态网址保持他们原来的样子。或者,如果您去掉不相关的参数,请记住一定要保持这个网址是动态的:
 

  • www.example.com/article/bin/answer.foo?language=en&answer=3

我们希望这篇文章能够对您和我们的朋友有帮助,使围绕动态网址的各种推测清晰化。如果您有更多的问题的话,欢迎加入我们的网站管理员支持论坛进行讨论。

  • » 阅读全文...
  • 2008年06月8日

    关于伪静态和真静态

    一、伪静态的用处

    有些用户觉得,伪静态和真静态实际被收录量会相差很大,其实不然,从你个人角度,你去判断一下一个帖子到底是真静态还是伪静态?估计很难看得出,因为所谓静态的意思,就是地址中不带问号,不带问号的就是静态,管他是真的还是伪的?搜索引擎看得出吗?所以说,其实不论是真的还是伪的,其实对于搜索引擎来说都是一样的,搜索引擎没有说,你这个是伪的,我不收录你。

    追根究底来说,为什么搜索引擎会不收录带问号的网址?因为搜索引擎怕由于问号而进入死循环,称为“搜索机器人陷阱(Spidertraps)”(以前动网就有这样一个漏洞,蜘蛛进去出不来了),所以很多时候带问号的地址搜索引擎是不会进去的,伪静态对于搜索引擎来说,其实就是静态,因为地址中没有带问号,所以没有真静态比伪静态收录得多的说法。

    二、为什么选择伪静态?

    有很多用户说:真静态不好吗?为什么不用真静态?访问起来不是更快吗?负载不是更好吗?等等等等。。。。。。

    在这里,其实只用一个问题来回答:为什么选择MYSQL?很多用户大概不明白为什么那么多大型论坛都选择了MYSQL数据库作为储存机制,大概大部分都是想:“因为DZ用了MYSQL,所以就是MYSQL”。[separator]

    其实不然,试想DZ为什么会在那么多论坛程序并存的日子生存下来并笑傲江湖,很大原因是因为DZ用了MYSQL。试想如果大C当年改的程序是一个文本论坛,那还会有DZ的今天吗?或者从另一个角度问,为什么那么多大型网站都选择了MYSQL而不是文本作为储存机制?

    所谓文本论坛,实际就跟真静态的说法差不多了,将数据储存在空间上面,大量读写硬盘,等等。。。。。。

    为什么这种写法会被淘汰呢?我相信答案不会是老师所说的:“Discuz!目前有 2129867 篇帖子,存储成html的话大约是 20799M,也就是 20G左右。这当中还不计算由于磁盘存储机制造成的空间浪费(100个 1k的文件占用的空间可能会是200K)。”

    这种说法从我个人观点来看,这个理由不能给用户不使用真静态充分的理由。然而,另一个理由却是值得我们注意思考的,也是为什么绝大多数站都不选择生成静态:

    删除、更新这些html内容会导致大量的磁盘io操作以及大量的磁盘碎片。

    正如上面的说法,在实际当中确实会导致大量的磁盘I/O操作(input/output),大量进行I/O操作带来的后果可想而知,会产生大量的磁盘碎片甚至会导致硬盘出现坏道。

    所以对于生成静态而言,还不如去用文本论坛,可以更好的解决你们的需求。(副W就是做文本论坛出生的,当时的名字为ofstar,后因发展困难转为MYSQL,而PW生成静态页面也就是PW以前文本方式稍加改进用于吸引用户眼球的噘头)

    当然,如果大家记忆力好的话,应该可以记得PW4的时候PW论坛不能访问很长一段时间,后来恢复到一段时间前的数据,官方的说法是被人攻击而导致硬盘损坏,其实这种说法是比较不可信的,相对于是被攻击导致硬盘损坏还是大量I/O操作而产生的后果,我个人更倾向于后者。

    当然,如果大家比较关注5d6d的话,应该知道前几天有一天时间5d6d无法访问,根据非官方消息是因为硬盘坏了,而损坏的原因我想当然是因为大量 用户大量进行I/O操作了,试想,我们一个论坛,进行磁盘I/O操作的仅为管理员进行更新缓存时进行的,而5d6d每一个会员就是一个管理员,试想下对磁 盘是多大的考验?所以我并不奇怪5d6d的硬盘坏了。

    当然,也许在读这篇文章的很多朋友都有使用过BT,也听说过BT对硬盘很伤,不能开多,而所谓伤害,和这里指的都是同一样东西,大量I/O导致磁盘出现碎片甚至出现磁盘坏道。

    这里都是说些很实际的例子来说明问题了。

    三、伪静态的坏处

    当然犹如一篇文章的作者所说的:"如果流量稍大一些使用伪静态就出现CPU使用超负荷,我的同时在线300多人就挂了,而不使用伪静态的时候同时在线超500人都不挂,我的ISS数是1000。”

    确实是这样的,由于伪静态是用正则判断而不是真实地址,分辨到底显示哪个页面的责任也由直接指定转由CPU来判断了,所以CPU占有量的上升,确实是伪静态最大的弊病。

    四、我们应该选择伪静态还是真静态?

    我们来总结一下:

    1、使用真静态和假静态对SEO来说没有什么区别
    2、使用真静态可能将导致硬盘损坏并将影响论坛性能
    3、使用伪静态将占用一定量的CPU占有率,大量使用将导致CPU超负荷
    4、最重要的一点,我们要静态是为了SEO

    所以:
    1、使用真静态的方法可以直接排除了,因为无论怎么生成,对硬盘来说都是很伤的。
    2、既然真伪静态的效果一样,我们就可以选择伪静态了。
    3、但是伪静态大量使用会照成CPU超负荷。
    4、所以我们只要不大量使用就可以了。
    5、既然静态只是给SEO看的,我们只需要伪静态给SEO就行了,不需要给用户使用。
    6、所以我们只要在专门提供给SEO爬的Archiver中使用伪静态就可以了。
    7、谢谢大家耐心看我写的文章。
    8、有何不解的地方或是有不同的看法欢迎提出。

    五、关于伪静态和真静态的评论

    真正的静态化和伪静态还是有本质的区别的。为浏览用户处理一个纯粹htm和一个调用多个数据的php在CPU的使用率方面明显前者少。记得原来有个 人说html下载硬盘读写频繁,他这么说好像读取数据库不用读写磁盘似的,何况还有一大堆缓存的零散php也是放在硬盘的,这些读取不用磁盘操作么?可 笑。

    读取单个htm+图片Flash等附件就可以实现的目的,何苦要读数据库又要读php缓存文件又要重新整合数据输出再+图片 Flash等附件这么大费周章呢?CMS首页不需要很多的互动的,论坛那一套不应该拿到这里来用,相反应该更多考虑的是:美观!兼容!信息的直观!性能! 还有稳定!

  • » 阅读全文...
  • 2008年04月29日

    浅谈CMS系统的SEO优化

    CMS系统促进着Web2.0的发展,根据权威机构的调查,一个网站80%左右的流量都是来源于搜索引擎的,所以一个网站到底做的好与坏不在于网站建设者的认知,而是在于相关关键词在搜索引擎中的排名和被搜索引擎收录的网页数量,以此来衡量网站的价值。在这个网络信息成爆炸式增长的时代,搜索引擎成为了人们查找信息的主要来源之一,而CMS作为一个内容发布和管理的系统,就更应注重其文章或内容在SEO方面的特性,从而提升网站的价值。
    从开发语言的选择来说,用ASP开发的CMS有:动易、风讯等,用PHP开发的CMS有:DedeCmsSupeSite、帝国CMS等。开发语言及运行平台的选择非常重要,因为我们要考虑到网站运行的安全性、负载能力、易用性、可扩展性等等,在这里我只从SEO角度探索下优秀CMS系统应该具备的一些元素,而非从系统的设计、表现、功能等方面进行评价,因为每一款CMS系统都有其自身的特点和应用的领域。

    我大致的总结了一下CMS系统的SEO优化主要集中在以下5个方面:
    1、实现全站URL的静态化
    虽然目前搜索引擎的能力已经有了很大的提升,动态参数小于3的动态网页,蜘蛛都可以顺利抓取,但是我们还是应该尽可能的为搜索引擎提供更好的搜索环境。目前CMS系统实现URL静态化的方法可以使用MVC三层架构,通过Rewrite技术实现了URL伪静态。在这方面PHP开发的各CMS系统都已经做的非常好了,但是希望可以实现自定义URL生成规则,甚至包括后缀名,这样将更能在URL中突出KeyWord,提高网页的权重。

    2、采用CSS+DIV对网站页面进行重构
    采用了CSS+DIV的网页在搜索引擎优化方面的优势要强于传统采用Table编写的网页(当然,这里并不是说明采用Table编写的网页就不能获得好的排名)。但是对于以内容为主的CMS系统来说采用CSS+DIV的模式可以将文章的内容放到更加靠前的位置,便于蜘蛛更快的找到它所需的内容。而且从网页浏览速度上考虑,采用CSS+DIV重构的页面容量要比Table编码的页面文件容量小得多,前者一般只有后者的1/2大小。遗憾的是目前还不是所有的CMS系统都采用了这种模式。

    3、网站根据频道的不同设置各自的<META>内容
    网站首页、频道页、栏目页、内容页可以自定义<META>或者通过设定好的系统参数实现自定义<META>的内容规则。针对不同的二级频道分别在<META>中设置相应的内容,可以体现二级频道的分类性。目前国内大多数的CMS系统对于这一块的实现都比较差,在他们的二级频道中KeyWordDescription都是相同的,这是严重违背SEO原则的。希望今后可以得到开发团队的重视。

    4、对文章页面的KeyWordsDescription内容进行完善
    这里提到的KeyWordDescription与第三条是不同的,这里我主要指的是文章页面的KeyWordDescription。最好的办法是根据文章发布时生成的TAG来自动生成关键词,所以KEYWORD部分就可以直接调用具体文章的关键词即刻。而描述可以自动截取每篇文章正文的前100个汉字放入Description中。这样一来文章无论是KeyWord还是Description都能很好的结合起来,大大提高的内容的相关度。

    5、加强搜索引擎对论坛页面的索引效率,使网站实现立体化
    就是在每个话题的具体帖子下面出现了一个与之内容相关的帖子导航。也可以为文章建立多个关键词(即TAG),并在文章内容下面列出,当用户点击这些关键词,自动进入该关键词的搜索页面;还可以在文章内容下面提供相关文章列表(自定义规则显示规则,譬如,按哪个关键词、是按相关度来展示还是按时间展示等)。在内容页中显示本类下的TOP10、推荐文章,并建立一个随机内容区域,用来展示本类下的文章。

    还有一些其他需要注意的地方,比如:应该根据整站逻辑结构来设定面包屑导航,URL指向相应目录而非文件;按整站、频道、分类甚至文章提供RSS源;系统自动根据设定的栏目名称、URL根据逻辑结构生成HTML格式、XML格式的网站地图,并可以时实更新,XML地图自动提交给Google Sitemap
    相信随着市场竞争的越趋激烈,以及站长们对SEO的关注,只有将SEO优化做的更好、更到位的CMS系统才会有更好的远景,更大的市场。

  • » 阅读全文...
  • 2008年04月3日

    如何使用robots.txt—来自GOOGLE的权威资料




    这可是GOOGLE的,相信你通过学习其中的知识能对你网站的排名及收录有很大的帮助。

    robots.txt 文件对抓取网络的搜索引擎漫游器(称为漫游器)进行限制。这些漫游器是自动的,在它们访问网页前会查看是否存在限制其访问特定网页的 robots.txt 文件。如果你想保护网站上的某些内容不被搜索引擎收入的话,robots.txt 是一个简单有效的工具。这里简单介绍一下怎么使用它。

    如何放置 Robots.txt 文件

    robots.txt 自身是一个文本文件。它必须位于域名的根目录中并 被命名为"robots.txt"。位于子目录中的 robots.txt 文件无效,因为漫游器只在域名的根目录中查找此文件。例如,http://www.example.com/robots.txt 是有效位置,http://www.example.com/mysite/robots.txt 则不是。

    这里举一个robots.txt的例子:

    User-agent: *

    Disallow: /cgi-bin/

    Disallow: /tmp/

    Disallow: /~name/

    使用 robots.txt 文件拦截或删除整个网站

    要从搜索引擎中删除您的网站,并防止所有漫游器在以后抓取您的网站,请将以下 robots.txt 文件放入您服务器的根目录:

    User-agent: *
    Disallow: /

    要只从 Google 中删除您的网站,并只是防止 Googlebot 将来抓取您的网站,请将以下 robots.txt 文件放入您服务器的根目录:

    User-agent: Googlebot
    Disallow: /

    每 个端口都应有自己的 robots.txt 文件。尤其是您通过 http 和 https 托管内容的时候,这些协议都需要有各自的 robots.txt 文件。例如,要让 Googlebot 只为所有的 http 网页而不为 https 网页编制索引,应使用下面的 robots.txt 文件。

    对于 http 协议 (http://yourserver.com/robots.txt):

    User-agent: *
    Allow: /

    对于 https 协议 (https://yourserver.com/robots.txt):

    User-agent: *
    Disallow: /

    允许所有的漫游器访问您的网页

    User-agent: *
    Disallow:

    (另一种方法: 建立一个空的 "/robots.txt" 文件, 或者不使用robot.txt。)

    使用 robots.txt 文件拦截或删除网页

    您 可以使用 robots.txt 文件来阻止 Googlebot 抓取您网站上的网页。 例如,如果您正在手动创建 robots.txt 文件以阻止 Googlebot 抓取某一特定目录下(例如,private)的所有网页,可使用以下 robots.txt 条目:

    User-agent: Googlebot
    Disallow: /private

    要阻止 Googlebot 抓取特定文件类型(例如,.gif)的所有文件,可使用以下 robots.txt 条目:

    User-agent: Googlebot
    Disallow: /*.gif$

    要阻止 Googlebot 抓取所有包含 ? 的网址(具体地说,这种网址以您的域名开头,后接任意字符串,然后是问号,而后又是任意字符串),可使用以下条目:

    User-agent: Googlebot
    Disallow: /*?

    尽 管我们不抓取被 robots.txt 拦截的网页内容或为其编制索引,但如果我们在网络上的其他网页中发现这些内容,我们仍然会抓取其网址并编制索引。因此,网页网址及其他公开的信息,例如指 向该网站的链接中的定位文字,有可能会出现在 Google 搜索结果中。不过,您网页上的内容不会被抓取、编制索引和显示。

    作为网站管理员工具的一部分,Google提供了robots.txt分析工具 。它可以按照 Googlebot 读取 robots.txt 文件的相同方式读取该文件,并且可为 Google user-agents(如 Googlebot)提供结果。我们强烈建议您使用它。 在创建一个 robots.txt 文件之前,有必要考虑一下哪些内容可以被用户搜得到,而哪些则不应该被搜得到。 这样的话,通过合理地使用 robots.txt , 搜索引擎在把用户带到您网站的同时,又能保证隐私信息不被收录。

    学习了这么多,快去试试吧。

  • » 阅读全文...
  • 2008年01月12日

    URL网址规范化问题

    网址URL规范化(URL canonicalization)是近一年来在Google搜索结果中出现的一个很大的问题。它指的是搜索引擎挑选最好的URL网址作为真正网址的过程。举例来说,下面这几个URL一般来说指的是同一个文件或网页:
    http://www.seosem.cn
    http://seosem.cn
    http://www.seosem.cn/default.asp
    http://seosem.cn/default.asp
    但是从技术上来讲,这几个URL网址都是不同的。虽然在绝大部分情况下,这些网址所返回的都是相同的文件,也就是你的主页。但是从技术上来说,主机完全可以对这几个网址返回不同的内容。
    当搜索引擎要规范化网址时,搜索引擎需要从这些选择当中挑一个最好的代表。一般来说,你的主页应该是固定的,只有一个。但是有的时候,在很多网站上站长在链接回主页时,所使用的URL并不是唯一的。很可能在你的网站上,一会连到URL http://www.seosem.cn,一会儿连到URL http://www.seosem.cn/default.asp
    虽然这不会给访客造成什么麻烦,因为这些网址都是同一个文件,但是对Google来说却是造成了困惑,哪一个网址是你真正的主页呢?如果在你的网站上,不同的版本网址都大量出现,那么这两个URL可能都会被Google收录进数据库,这时就会造成复制内容网页。
    所谓复制内容网页,指的是两个或多个网页的内容是相同或大部分相似的。很多时候,复制网页有可能是作弊手段。就算不是作弊手段的时候,搜索引擎通常也只会挑出其中一个返回搜索结果,而把其他的复制网页都排在最后面,以至于根本找不到。
    当你的网站出现网址URL规范化问题的时候,就有可能造成被怀疑为复制网页,因而影响搜索引擎结果排名。
    从Google的角度来说,他们正在发展所谓大爸爸数据中心基本架构,来解决包括URL规范化的问题。但谁知道能不能解决呢?
    从站长的角度来考虑,你应该做两件事:
    1)你的网站内部在链接到其他网页,尤其是主页时,只使用一种URL。不管是包含www或不包含www,你要由始至终只使用一个版本。这样搜索引擎也就明白哪一个是规范化的主页网址。
    2)但是你没办法控制别的网站用哪一个网址连向你的主页。所以你应该在你的主机服务器上,把所有有可能成为主页网址的URL,做301重定向到你所选择的主页网址版本。也就是说,从下面这几个网址
    http://seosem.cn
    http://www.seosem.cn/default.asp
    http://seosem.cn/default.asp
    都要做301重定向到这个网址
    http://www.seosem.cn
    很重要的一点是,如果你的网站出现了URL规范化的问题,千万不能使用Google的网址删除反馈表,来要求删除其中的一个网址版本。比如说,你所要的是带有www的版本
    http://www.seosem.cn
    你千万不能到Google的网站上填表,要求没有www的主页网址
    http://seosem.cn
    被删除掉。因为那样做的话,你整个的域名有可能被删除6个月。
    当然,除了包含www和不包含www的两个版本以外,还有其他类型的URL规范化问题。比如有的时候,搜索引擎会去掉或加上网址尾端最后的斜线。有的时候会尝试把大写字母换成小写字母,有的时候可能尝试去掉会话ID(session ID)等等,这些都有可能造成网址规范化问题。

  • » 阅读全文...
  • 2008年01月11日

    避免在网站设计中使用框架页

    最近,我和一位客户讨论一个内部使用的网络应用软件,会议进行得很顺利,直到他提及框架页的使用。他选择框架页作为站点的版面设计,因为他要取代现有的VB程序。但是目前,框架页的使用难以令人满意,虽然我已经不记得最后一次编写使用框架页的程序的时间了,但我却记得使用框架页的那段艰难时光。在这篇文章中,我将向您解释为什么要避免使用框架页而考虑其它的设计方案。

     

     

    基本概念

    中.国站长站

     

    在很多年前首次引入的时候,框架页曾经是一个很酷的概念。我还记得在横幅、导航和站点内容部分分别使用单独的框架页。即使您不熟悉框架页的概念也没有关系,其概念并不复杂,基本上,HTML框架页允许您将浏览器窗口划分为单独的空间或框架。

     

     

    还有框架的HTML元素主要用于基于框架的版面设计,框架元素定义了单独的空间或框架集,这些框架页包含在框架元素中,框架元素的行与列的属性定义了框架页的版面效果。列表A中的HTML代码创建了一个示例框架集,网络开发区的文档将载入到左边的框架页,而同时Download.com网站将被载入到右边的框架页。 Www.Chinaz.com

    以下为引用的内容:
    <html>
    <head>
    <title>Frames</title>
    </head>
    <frameset cols="400, *">
    <frame name="left" src="http://www.webjx.com/htmldata/2007-10-15/1192417401.html" SCROLLING="yes" NORESIZE>
    <frame name="right" src="http://www.webjx.com/" SCROLLING="yes" NORESIZE>
    <noframes><body>
    This appears if frames aren't supported.
    </body>
    </noframes>
    </frameset>
    </html>


    列表A Www^Chinaz^com

    每个框架页的SCROLLING属性决定了用户是否能在该框架页中使用滚动条;NORESIZE属性则说明了该框架页不能被重新设定大小,因而其宽度是静态的;而noframes元素则提供了在不支持框架的浏览器中的显示效果;在框架页上除了这些之外就没有其它的选项了,您可以参考相关的HTML资源来获取更多信息。

     

     

    在上个例子中,将两个网站载入到框架页中并不是最实际的应用,框架页通常用于将浏览窗格放置在左侧或着顶端,而内容放置在右侧或者底部,通过设定框架页的宽度(或者高度)并载入所需要的页面,这一功能很容易实现。框架页的概念很简单,但是大部分网络开发人员都蔑视这一功能。

     

     

    缺陷

     

     

    近来,框架页的使用难以令网络开发社区感到满意,实际上,在XHTML 1.1规范中,已经不再支持框架页了,它已经被XFrames所取代。所以这是放弃使用框架页的一个原因,但目前被支持的标准怎么样呢?以下列出了框架页没有被广泛使用的原因: 站长.站

    很多网络开发人员从哲理的角度讨论了框架页,它们认为框架页的使用违反了互联网的基本概念,因为这将造成大量的独立页面无法被链接。
    虽然大部分网络浏览器可以依照设计显示出框架页,但是对于非传统的浏览器平台,比如手机、掌上设备等,却没有实现此功能,即使基于框架页的设计方法是有用的,但在这些平台上却造成了混乱。 
     

    搜索引擎在处理使用框架页管理的网站时会遇到麻烦,很多搜索引擎,比如Google,会跳过框架页内容而对没有框架的内容进行索引。
    对于预先定义的基于框架页的区域,编写代码和页面设计都可能成为问题,如果页面布局设计得很糟糕,在单独浏览这些页面的时候,就会造成麻烦。

     

     

    对于用户而言,使用框架页站点的浏览体验可能令人恼怒。在将站点加入收藏夹时,通常会收录整个框架集而相关内容却被忽略了,因此用户很难找到所需的内容。另外一个问题是打印,不过好在大部分浏览器都允许用户选择打印整个框架集或者单独的框架页。

    框架页还导致了很多可及性(accessibility)问题,含有框架页的视觉布局很难转换到非视觉化的浏览器中,一个好的准则是在所有的页面元素上提供文字说明,并附加对不支持框架页的浏览器的说明。一份在线指导提供了更多的细节。

     

     

    替代设计

     

     

    框架页是在CSS出现之前引入到互联网的,现在,CSS可以作为替代框架页的设计方案,上文中的例子可以使用CSS重新编写,列表B展示了使用CSS的代码。

     

     

    以下为引用的内容:
    <!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML//EN">
    <html>
    <head>
    <title>Two columns with CSS</title>
    <style>
    #left {
    width: 400px;
    float: left;
    margin-left: -1px;
    padding: 5px;
    background: yellow;
    }
    #right {
    padding: 5px;
    margin-left: 405px;
    background: lightgrey;
    }
    </style>
    </head>
    <body>
    <div id="left">
    Left area
    </div>
    <div id="right">
    Right area
    </div>
    </body>
    </html>


    列表B 中.国.站长站

    在这个简单的例子中,为了说明CSS的作用,我还对每个div加上颜色进行区分,您可以使用CSS来创建更加强壮的页面布局。雅虎的用户界面库提供了一个很棒的例子,您还可以使用AJAX来改进数据的载入,这也是通常使用框架页的原因之一(当然框架页不需要如此频繁地刷新)。 中.国.站长站

    另外一个表示选择

     

     

    在网络开发者的眼中,框架页已经是历史的遗迹了,但它确实曾经像现在的CSS一样为人们提供了更好的选择,我希望听到您对框架页的意见,请在文章讨论区分享您的想法和经验。

     

     

    正如您所思考的一样,我将会劝说我的客户使用含有CSS的页面设计方案。

  • » 阅读全文...
  • 2008年01月9日

    seo(4)

        给大家发一个案例:希望好好学习!
         案例:泊头市通明除尘设备有限公司网址:http://www.tmccsb.cn/
        关键字:除尘器,除尘布袋,除尘框架,卸料器
        效果:四个关键字在百度都是自然排名第一。
        解释:何为自然排名?
                     答:就是通过纯自然的手段把关键字排名作上去,百度分为两种排名方式:自然排名和竞价排名。自然排名后面标 注:百度快照。竞价排名标注:推广。

  • » 阅读全文...
  • 2008年01月6日

    了解百度收录过程,让你的网站一小时收录

       最近百度似乎在做一些更新调整,很多站长抱怨百度收录困难!甚至在寻找了大量链接后百度都不收录你的站,是不是百度真的不愿意收录新站呢?可能确实做了一些调整,但是应该是站长方法不对。下面我给大家讲讲搜索引擎收录过程,并且用一个案例来说明怎么让百度更快的收录你的网站。

      搜索引擎收录过程:
         1、抓取网页每个独立的搜索引擎都有自己的网页抓取程序(spider)。Spider顺着网页中的超链接,连续地抓取网页。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。

      2、处理网页搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分析超链接、计算网页的重要度。

      3、提供检索服务用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。

      这是摘自<<搜索引擎系统学习与开发实践总结>>的一段总结:首先蜘蛛读取抓取站点的URL列表,取出一个站点URL,将其放入未访问的URL列表(UVURL列表)中,如果UVURL不为空刚从中取出一个URL判断是否已经访问过,若没有访问过则读取此网页,并进行超链分析及内容分析,并将些页存入文档数据库,并将些URL放入已访问URL列表(VURL列表),直到UVRL为空为止,此时再抓取其他站点,依次循环直到所有的站点URL列表都抓取完为止。

      如何更快被百度收录:先给大家看个成功案例(),当天建立的网页当天被收录。另外还有几个案例,我不一一截图了,最快有个域名我当天晚上7点多才注册的,更晚些时候就被收录了,我给大家一个方法,大家可以按照此方法做:就像我的网站www.schooldv.cn 17号提交上去的, 18号早上就已经收录了` 1. 建立一个单页面,从百度百科找一段关于网站关键词的介绍,再去其他地方找另外一种介绍。如网站做SEO,就找SEO在百科的解释,再去维基百科找找seo的介绍,二者结合拼凑成一个单页面;2. 单页面命名为index.htm或者default.htm,成为网站的首页。再去百度的登录入口去登录一次你的网站:http://www.baidu.com/search/url_submit.html 3. 无需任何外部链接,最多两天后你将在搜索引擎看到你的网站在当天就被收录了!比如 你27日登录的,虽然百度可能27日就收录了你的站,但是你可能需要再过一两天才能看到被收录。

      4. 以上方法我已经测试了数十个域名,屡试不爽!收录后再改版你的网站吧最后给大家一些收录的建议:
                  1. 收录前就把首页title的关键词定义好,避免更改关键词太快,引起搜索引擎反感
                  2. 主动去登录你的网站,而不需要急着去找任何外部链接(新站的目标是被收录)

              3. 安装好搜索引擎工具条
                  4. 单页面文件不要太长太大,100K以内最好
         5.  随时关注收录情况,去搜索新站的网址或者site一下

  • » 阅读全文...
  • 2007年12月25日

    seo点滴(3)

    发软文的时候有讲究:比如你可以把你做的站都包括在内容里面。然后在代码里做一个文字连接。这个时候你不用 去想文字是否流畅,语言是否生动啦。
    因为搜索引擎是机器人,机器人是无法识别这些的,他只会按照原则和算法 去抓取。所以我们只要组织好文字说明和连接,然后就可以了。最后你就可以直接去各大网站复制粘贴就行了。当然这东西是越多越好,搜索引擎会把他当做外部链接来看待,当然这只是数量上的优势,此外还得注意质量上的 优势。还有需要注意的一点就是:在做标题的时候要把把关键字包含在里面,这样权重会大大的增加。

  • » 阅读全文...
  • 2007年12月21日

    seo点滴(2)

    今天有得出点经验:
    首页布置关键字的时候很有讲究,因为首页相对整个网站来说是权重最大的。所以布置关键字的时候一定要合理;
    一般在标题中要出现关键字,如果关键字叫多的话,可用-隔开,关键字一定要放到标题内容前面。
    META标签description描述中尽量要每个关键字出现两次为好。
    再就是keywords中要不关键字全部放里面。

    1. 关键字多的情况下。可为关键字设置一个单独的页面,用关键字的汉字拼音做域名,这样做的好处是直接利用根目录做引子,权重比起单独的一个页面来说要高很多。
    例如:<http://www.xx.com/pinyin> 此页中须注意一下几点:(1)标题中要包含关键字(2)meta标签描述要合理。关键字设置好。(3)代码要简洁。(4)单页要尽量和网站本身结合起来,要有适当的内部链接,不要只是单独的一个页面

  • » 阅读全文...