第六章 基于搜索引擎友好的网站设计

上一章 目录 下一章
网页设计师一般在设计网页的时候,考虑更多的是如何让网页具有视觉冲击效果,从而让用户对网站有深刻的访问印象,这并没错。但是,如果互联网用户不能很容易的找到这个站点,就算网页的视觉效果再好,他们的工作也是徒劳的。所以,我们在规划设计一个网页的时候,也应该为网站的营销拓展做好工作。在前面章节,大家应该已经了解到搜索引擎优化的营销推广优势,所以设计一个既受访问用户喜欢又能迎合搜索引擎喜好的网站就十分重要了。
第一节 域名策略
域名的选取在整个搜索引擎优化工作过程中是一个很重要的环节。选择一个好的域名,
并期望它为 SEO 效果提供尽可能最大的辅助作用,这无疑是每个搜索引擎优化工作人员都
看到的。
小提示:在开始本节之前,大家可以事先阅读本章附录部分的域名基本知识。
一、不同后缀的域名在搜索引擎中的权重
一般来说,权威专业的站点更能获得搜索引擎的喜爱。由于.edu 和.gov 后缀的域名并不是任何人都能注册,需要注册单位出示相关机构证明材料才可注册,这两类的站点上发布的信息具有权威和原创的特性,所以我们会经常发现教育和政府的站点更能在搜索引擎中获得好的关键词排名。
像 Google 那样的对全球网页进行索引的搜索引擎,当用户查询的时候,它会把与用户所处域和使用语言等信息匹配的搜索结果展示给用户,而不会出现 Google 向一个中文本土搜索用户返回其他非中文国家的网页信息。基于以上分析,有很多的观点认为,带有.cn后缀的域名在中文搜索引擎里更加具有搜索结果展示优势。
二、域名基本常识
互联网上的域名就相当于我们现实生活中的门牌号码一样,可以在纷繁芜杂的网络世界里准确无误把我们指引到我们要访问的站点。在互联网发展之初并没有域名,有的只是
IP 址。IP 址就是一组类似这样的数字,如:162.105.203.245。由于当时互联网主要应用在科研领域,使用者非常少,所以记忆这样的数字并不是非常困难。但是随着时间的推移,
连入互联网的电脑越来越多,需要记忆的 IP 址也越来越多,记忆这些数字串变得越来越
困难,于是域名应运而生。域名就是对应于IP 址的用于在互联网上标识机器的有意义的
字符串。例如CNNIC 的域名www.xiaoshuodaquan.com.cn,比起IP 址而言就更形象也更容易记忆。
为了便于大家进一步了解域名的实质,有必要在这里谈谈域名的体系结构。从
www.xiaoshuodaquan.com.cn 这个域名来看,它是由几个不同的部分组成的,这几个部分彼此之间具有层次关系。其中最后的.cn 是域名的第一层,.net 是第二层,.cnnic 是真正的域名,处在第三层,当然还可以有第四层,如:www.xiaoshuodaquan.com.cn,至此我们可以看出域名从后到前的层次结构类似于一个倒立的树型结构。其中第一层的.cn 叫做理顶级域名。
目前互联网上的域名体系**有三类顶级域名:一是理顶级域名,共有243 个国家和区的代码。例如.CN 代表中国,.JP 代表日本,.UK 代表英国等等,另一类是类别顶级域名,共有7 个:.COM (公司),.NET (网络机构),.ORG (组织机构),.EDU (美国教育),.GOV(美国政府部门),.ARPA (美**方),.INT (国际组织)。由于互联网最初是在美国发展起来的,所以最初的域名体系也主要供美国使用,所以.GOV,.EDU,.ARPA 虽然都是顶级域名,但却是美国使用的。只有.COM,.NET,.ORG 成了供全球使用的顶级域名。相对于理顶级域名来说,这些顶级域名都是根据不同的类别来区分的,所以称之为类别顶级域名。
随着互联网的不断发展,新的顶级域名也根据实际需要不断被扩充到现有的域名体系中来。
新增加的顶级域名是.BIZ (商业),.COOP (合作公司),.INFO (信息行业),.AERO (航空业),.PRO (专业人士),.MUSEUM (博物馆行业),.NAME (个人)。
在这些顶级域名下,还可以再根据需要定义次一级的域名,如在我国的顶级域名.CN 下 又设立了.COM,.NET,.ORG,.GOV,.EDU 以及我国各个行政区划的字母代表如.BJ 表
北京,.SH 代表上海等等。
1、组织域名
com : Commercial organizations,商业组织、公司
edu : Educational institutions,教研机构
gov : Governmental entities,政府部门
int : International organizations,国际组织
mil : Military (U.S),美**部
net : Network operations and service centers,网络服务商
org : Other organizations,非盈利组织
biz : business, 企业站点
name :个人网站
info : information,信息类网站
2、国家和区域名
ad : Andorra,安道尔
ae : United Arab Emirates,阿联酋
af : Afghanistan,阿富汗
ag : Antigua and Barbuda,安提瓜和巴布达
ai : Anguilla,安格拉
al : Albania,阿尔巴尼亚
am : Armenia,亚美尼亚
an : Netherlands Antilles,荷兰属
ao : Angola,安哥拉
aq : Antarctica,南极洲
ar : Argentina,阿根廷
as : American Samoa,东萨摩亚
at : Austria,奥利
au : Australia,澳大利亚
aw : Aruba,阿鲁巴
az : Azerbaijan,阿塞拜疆
ba : Bosnia Hercegovina,波黑
bb : Barbados,巴巴多斯
bd : Bangladesh,孟加拉国
be : Belgium,比利时
bf : Burkina Faso,布基纳法索
bg : Bulgaria,保加利亚
bh : Bahrain,巴林
bi : Burundi,布隆迪
bj : Benin,贝宁
bm : Bermuda,百慕大
bn : Brunei Darussalam,文莱达鲁萨兰国
bo : Bolivia,玻利维亚
br : Brazil,巴西
bs : Bahamas,巴哈马
bt : Bhutan,不丹
bv : Bouvet Island,布韦群岛
bw : Botswana,伯兹瓦纳
by : Belarus,白俄罗斯
bz : Belize,伯利兹
ca : Canada,加拿大
cc : Cocos Islands,科科斯群岛
cf : Central African Republic,中非共和国
cg : Congo,刚果
ch : Switzerland,瑞士
ci : Ivory Coast,象牙海岸
ck : Cook Islands,库克群岛
cl : Chile,智利
cm : Cameroon,喀麦隆
cn : China,中国
co : Colombia,哥伦比亚
cq : Equatorial Guinea,赤道几内亚
cr : Costa Rica,哥斯达黎加
cu : Cuba,古巴
cv : Cape Verde,佛得角
cx : Christmas Island,圣诞岛(英属)
cy : Cyprus,塞浦路斯
cz : Czech Republic,捷克共和国
de : Germany,德国
dj : Djibouti,吉布提
dk : Denmark,丹麦
dm : Dominica,多米尼加联邦
do : Dominican Republic,多米尼加共和国
dz : Algeria,阿尔及利亚
ec : Ecuador,厄瓜多尔
ee : Estonia,爱沙尼亚
eg : Egypt,埃及
eh : Western Sahara,西萨摩亚
es : Spain,西班牙
et : Ethiopia,埃塞俄比亚
ev : El Salvador,萨尔瓦多
fi : Finland,芬兰
fj : Fiji,斐济
fk : Falkland Islands,福克兰群岛
fm : Micronesia,密克罗尼西亚
fo : Faroe Islands,法罗群岛
fr : France,法国
ga : Gobon,加蓬
gb : Great Britain (UK ),大不列颠联合王国
gd : Grenada,格林纳达
ge : Georgia,格鲁吉亚
gf : French Guiana,法属圭亚那
gh : Ghana,加纳
gi : Gibraltar,直布罗陀
gl : Greenland,格陵兰群岛
gm : Gambia,冈比亚
gn : Guynea,几内亚
gp : Guadeloupe,瓜德罗普岛(法属)
gr : Greece,希腊
gt : Guatemala,危马拉
gu : Guam,关岛
gw : Guinea-Bissau,几内亚比绍
gy : Guyana,圭亚那
hk : Hong Kong,香港
hm : Heard McDonald Isl.
hn : Honduras,宏都拉斯
hr : Croatia,克罗蒂亚
ht : Haiti,海
hu : Hungary,匈牙利
id : Indonesia,印度尼西亚
ie : Ireland,爱尔兰共和国
il : Israel,以色列
in : India,印度
io : British Indian Ocean Territory,英属印度洋领
iq : Iraq,伊拉克
ir : Iran,伊朗
is : Iceland,冰岛
it : Italy,意大利
jm : Jamaica,牙买加
jo : Jordan,约旦
jp : Japan,日本
ke : Kenya,肯尼亚
kg : Kyrgyzstan,吉尔吉斯斯坦
kh : Cambodia,柬埔塞
ki : Kiribati,基里巴斯
km : Comoros,科摩罗
kn : St. Kitts & Nevis,圣茨和尼维斯
kp : Korea-North,北朝鲜
kr : Korea-South,南朝鲜
kw : Kuwait,科威特
ky : Cayman Islands,开曼群岛(英属)
kz : Kazakhstan,哈萨克斯坦
la : Lao People's Republic,老挝人民共和国
lb : Lebanon,黎巴嫩
lc : St. Lucia,圣露西亚岛
li : Liechtenstein,列支敦士登
lk : Sri Lanka,斯里兰卡
lr : Liberia,利比里亚
ls : Lesotho,莱索托
lt : Lithuania,立陶宛
lu : Luxembourg,卢森堡
lv : Latvia,拉脱维亚
ly : Libya,利比亚
ma : Morocco,摩洛哥
mc : Monaco,摩纳哥
md : Moldova,摩尔多瓦
mg : Madagascar,马达加斯加
mh : Marshall Islands,马绍尔群岛
ml : Mali,马里
mm : Myanmar,缅甸
mn : Mongolia,蒙古
mo : Macau,澳门
mp : Northern Mariana Islands,北马里亚纳群岛
mq : Martinique,马提尼克岛(法属)
mr : Mauritania,毛里塔尼亚
ms : Montserrat,蒙塞拉特岛
mt : Malta,马尔他
mv : Maldives,马尔代夫
mw : Malawi,马拉维
mx : Mexico,墨西哥
my : Malaysia,马来西亚
mz : Mozambique,莫桑比克
na : Namibia,纳米比亚
nc : New Caledonia,新喀里多尼亚
ne : Niger,尼日尔
nf : Norfolk Island,诺福克岛
ng : Nigeria,尼日利亚
ni : Nicaragua,尼加拉瓜
nl : Netherlands,荷兰
no : Norway,挪威
np : Nepal,尼泊尔
nr : Nauru,瑙鲁
nt : Neutral Zone,中立区
nu : Niue,纽埃
nz : New Zealand,新西兰
om : Oman,阿曼
pa : Panama,巴拿马
pe : Peru,秘鲁 pf : French Polynesia,法属玻利尼西亚
pg : Papua New Guinea,巴布亚新几内亚
ph : Philippines,菲律宾
pk : Pakistan,巴基斯坦
pl : Poland,波兰
pm : St. Pierre
pn : Pitcairn Island,皮特克恩岛
pr : Puerto Rico,波多黎各
pt : Portugal,葡萄牙
pw : Palau,帕劳
py : Paraguay,巴拉圭
qa : Qatar,卡塔尔
re : Reunion Island,留尼汪岛(法属)
ro : Romania,罗马尼亚
ru : Russian Federation,俄罗斯联邦
rw : Rwanda,卢旺达
sa : Saudi Arabia,沙特阿拉伯
sb : Solomon Islands,所罗门群岛
sc : Seychelles,塞舌尔
sd : Sudan,苏旦
se : Sweden,瑞典
sg : Singapore,新加坡
sh : St. Helena,海伦娜
si : Slovenia,斯洛文尼亚
sj : Svalbard & Jan Mayen,斯瓦尔巴特和扬马延岛
sk : Slovakia,斯洛伐克
sl : Sierra Leone,塞拉利昂
sm : San Marino,圣马力诺
sn : Senegal,塞内加尔
so : Somalia,索马里
sr : Suriname,苏里南
st : Sao Tome & Principe,圣多美和普林西比
su : USSR,苏联
sy : Syrian Arab Republic,叙利亚
sz : Swaziland,斯威士兰
tc : Turks & amp;Caicos Islands , 特克斯群岛与凯科斯群岛
td : Chad,乍得
tf : French Southern Territories,法属南半球领
tg : Togo,多哥
th : Thailand,泰国
tj : Tajikistan,塔吉克斯坦
tk : tokelau,托克劳群岛
tm : Turkmenistan,土库曼斯坦
tn : Tunisia,突尼斯
to : Tonga,汤加
tp : East Timor,东帝汶
tr : Turkey,土耳其
tt: Trinidad Tobago,特立尼和多巴哥
tv : Tuvalu,图瓦鲁
tw : Taiwan,台湾
tz : Tanzania,坦桑尼亚
ua : Ukrainian SSR,乌克兰
ug : Uganda,乌干达
uk : United Kingdom,英国
us :United States,美国
uy :Uruguay,乌拉圭
va : Vatican City State,梵冈
vc : St. Vincent,圣文森特和格林纳丁斯
ve : Venezuela,委内瑞拉
vg : Virgin Islands,维京群岛
vn : Vietnam,越南
vu : Vanuatu,瓦努阿图
wf : Wallis & Fortuna Is. , 瓦利斯和富图纳群岛
ws : Samoa,东萨摩亚
ye : Yemen,也门
yu : Yugoslavia,南斯拉夫
za : South Africa,南非
zm : Zambia,赞比亚
zr : Zaire,扎伊尔
zw : Zimbabwe,津巴布韦
三、域名的关键词策略
域名的词干可由英文字母、阿拉伯数字和中横线组合构成,搜索引擎会因域名词干字符
组合方式的不同而对其有不同的理解。接下来,我们将会通过一个具体实例来说明这个问题。
这里有两个域名:www.xiaoshuodaquan.com 和 www.xiaoshuodaquan.com ,它们有什么不同?在我们看来这两个域名的词干都可以理解为“made in china”英文词组的意思。但是,搜索引擎不比我们人脑,它只会根据已经设置好的程式来对以上域名进行识别。通常情况下,搜索引擎会把一个“-”当然一个空格来看待,所以我们也就明白了它会如何去理解上面的两个域名的词干了。搜索引擎会认为 Madeinchina 是一个单词,而 made-in-china 则会被其认为是“made in china”的词组。
基于以上分析,如果域名中包含关键词,或者以复合关键词作为域名的时候,我们最好用“-”来使其分隔开来。
特别说明,以上的域名的关键词策略主要应用于英文语种的 SEO。
四、中文站点的域名的拼音策略
由于中文语言的特点,拼音字母仅是为汉字的发音提供辅助作用,所以它们并不经常出现在我们的常用书写中。有人曾经提出过这么一种观点,即是域名词干由中文关键词的字母全拼构成会在搜索引擎排名中具有竞争优势。我们并不认同这种观点,通过对用户的搜索行为分析,可以发现如下事实:用户一般在中英文输入法切换错误的情况下,才会出现使用关键词的拼音形式在搜索引擎中进行查询,被搜索网页的域名的词干与用户查询拼音关键词极其匹配,这些网站能排在前面也就是理所当然了。
而有些站点,在其规划构建之初,网站所有者为了考虑访问用户对域名的记忆,会启用由中文目标关键词的字母全拼构成的域名。通常情况下,域名所有者一旦注册此类型的域名,就说明其对网站的内容定位相当明确,随着时间的推移,其网站能在搜索引擎中获得好的排名表现也并不是很难理解的。
至于域名中应该如何部署关键词,这个问题将会在后面的章节中有所阐述。
五、谨防注册一个遭受搜索引擎惩罚过的域名
域名的注册费用不再像前几年那么高得让人犹豫了,所以很多 SEO 从业人员或网站管
理员往往会注册大量的域名来做网站群。一旦这些网站因违反了搜索引擎的相关规则而被搜
索引擎惩罚了,域名所有人将会立即抛弃这些被惩罚了的域名。
如果一不小心注册了一个被搜索引擎惩罚过了的域名,这会为你的网站登录搜索引擎付出不少时间成本。一般来说,等搜索引擎刷新被惩罚域名所有人的信息后,它把该域名视为一个新域名,并对其站点网页进行重新索引,但是谁也不知道这个过程需要多少时间。
那么,我们怎样才知道一个域名是否已经遭受搜索引擎惩罚了呢?
首先,我们可以使用site 命令在主流搜索引擎中查询,来获取该域名在搜索引擎中的相关数据。比如,你想注册域名 www.xiaoshuodaquan.com,那么针对该域名的 site 命令查询形式就为:site:www.xiaoshuodaquan.com。
如果该域名在搜索引擎尚未存在收录数据,则有两种对该域名进行判断的可能:
上图是查询域名www.xiaoshuodaquan.com的历史网页的结果,我们看到,这个域名 2005 年 4 月已经被使用,到 2006 年5月停止使用了。浩维互动的一个客户正是在 2007年又注册并使用了这个域名,结果百度始终没有收录其网页,最后不得不更换域名。
通过浩维互动的检查发现,www.xiaoshuodaquan.com这个域名曾经用来做过垃圾站点,被百度惩罚后还在网上公开销售过,显然已经被百度列入了黑名单了。而客户也因为这个域名的原因,白白浪费了将近两个月的时间。
当然,以上的判断仅仅是从实际操作经验中总结而来,对于大部分的域名判断是准确的,在
这里提出来仅供参考。
第二节 空间策略
如何确保的你的网页存放空间被搜索引擎认为是“安全”的,而不会被其视为有悖相关规则?这里所指出的安全包括两个方面,即是空间运行的稳定性和其所处的环境。
一、安全元素一:稳定性
你必须确保你所购买的主机运行稳定,这样才会确保搜索引擎机器人对你网站进行索引的过程十分顺利。如果,搜索引擎机器人在对一个网站进行爬行的时候,正值该网站空间所在的服务器宕机,那么搜索引擎机器人将不会带回任何关于该网站的最新信息,如果搜索引擎蜘蛛连续好几次都不能获取该网站的信息的话,搜索引擎就视为该网站不可用,就会清除其索引数据。
所以在购买空间的时候一定要选择一个口碑好的服务商,这会为你的网站的稳定运行提供强大的保障。许多企业为了贪图一时的便宜而去使用免费空间,这种做法是不可取的。免费空间提供商不会承诺任何有保证的服务,诸如确保空间的稳定运行、网站数据备份和相关应急响应等,一旦出现事故,将会对网站造成致命的打击。
二、安全元素二:良好的共处环境
一般来说,大部分企业所使用的空间应该称之为虚拟主机,也叫共享主机(关于虚拟主机的知识附录中有说明)。根据共享主机的特点,我们知道,大部分企业的空间是和其他很多网站的空间公用同一个独立IP,那么我们可以形象的称这个IP 下所有的网站都处在一个共处环境。
当你的网站准备入驻这个共处环境的时候,你应该有事先对这个环境有一个充分的考虑分析,从而来决定你的网站跟同一个IP 下的网站呆在一起是否有风险。

哪我们该如何来评估你将购买的空间是否有风险呢?
首先,请确保你的网站不要和哪些发布有违反基本社会伦理道德信息(诸如反动和色情
等)的网站共处。因为搜索引擎已经在其相关条款中明确指出,它们不会对这些类型的网站
进行收录,如果同一个 IP 下存在有大量的这样不受欢迎的站点的话,搜索引擎可能要求搜
索引擎机器人不会对该 IP 下的所有网站进行爬行索引,如果你的网站身处其中的话,结果
可想而知。查询同一个IP 下的站点工具:
http://whois.webhosting.info/www.xiaoshuodaquan.com
其次,你的网站也不应该选择那些有搜索引擎排名作弊前科或嫌疑的网站为伍。由于一些网站的所有者怀有急功近利的心态,他们往往会采用一些搜索引擎排名作弊手法以期能快速获得排名效果。搜索引擎对这种行为是十分痛恨的,因为这些作弊网站一般都不会向用户提供有价值的信息同时也干扰搜索引擎排名的公平性。搜索引擎一旦发现了这些网站的作弊行为,就会对其处以相应的惩罚,它们或被搜索引擎降权或被删除数据。如果同一个 IP 下
存在大量的有作弊行为的站点的话,该 IP 可能会被搜索引擎视为不友好,搜索引擎机器人
也将不会对该IP 下的所有站点进行索引,所以应该注意所启用的主机所属IP 下的其他站点是不是有大范围作弊嫌疑。
至于如何判断一个网站是否被搜索引擎惩罚,在域名策略部分有相关讲解内容。
三、本节附录
为最佳。而对于那些信息容量大的网站来说,如果不能把目录的级数控制在上面的最佳范围
的话,那则需要通过网站的逻辑结构来调整。
逻辑结构 根据内容的关联性,由超级链接构织成的网站结构。一个网站的逻辑结构如果构建合理,它就会为网站的访问用户查找信息提供便利,当然也会为用户提供更多可以参考的相关信息。由于逻辑结构最直接的表现形式为超级链接,势必可以使得搜索引擎机器人在网站上索引到更多的网页信息。
在网站扁平化原则下,逻辑结构部署所起到的作用就是通过内容的关联性把物理结构目录级数高的页面内容提升到物理结构目录级数低上来,具体的表现形式就是在目录级数低的页面上部署指向与其有内容关联性的目录级数高页面的超级链接。
第四节 站点导航设计
网站有一个清晰明了的导航结构,无论是对于用户还是搜索引擎都十分重要。用户可以通过优良的站点导航系统快速便捷找到他们所需要的信息,而搜索引擎则可以通过合理的导航对网站的页面进行高效索引。
导航的设计原则是以纯文本链接形式为最佳,同时也应在导航链接锚文本描述中部署核心关键词。以下,我们将来介绍一下大多数网站中不可或缺的导航种类。
栏目导航 展示网站的栏目设置情况,点击相应的链接可以抵达项目的栏目专题页面。
该导航为网站中最重要的导航设置,一般位于网页头部或者头部下方的左右侧位置。
辅助导航 处于每个页面的页眉或者页脚的位置,用来链接网站中一些重要的信息。例如:网站首页、关于我们、联系信息、**条款等。
历史导航 也被称为面包屑导航,它准确告诉访问者目前在网站的哪一个目录下,并说明网站的目录分类结构。通常是由一个首页链接开始,到浏览者当前所在部分结束。例如:“当前位置:首页 > 网络营销 > 搜索引擎营销”。
相关导航 当访问者在网站上阅读某一篇文章时,网页的下方常常会提供“相关文章”
的链接,通常是与该文处在相同栏目里的一些文章。也有的网站还会提供与其相同或相似主
题的网站链接。
网站图 它是为了方便浏览者对网站所有的资源和服务有一个整体的了解而设置的。当然,从 SEO 的角度来看,一个站点建立网站图是为了方便搜索引擎对站点重要网页进行索引。
网页设计师一般会采用HTML 文本、JPEG 或 GIF 静态图片、FLASH 动画等格式来设计网站导航,我们建议采用 HTML 文本来制作网站图为最佳,因为搜索引擎对纯文本链接的识别性最高。
第五节 IFRAME、JavaScript 和AJAX
搜索引擎都会在其帮助指南中明示,它们对 IFRAME、JavaScript 和AJAX 中的文字信 息不能进行有效索引,我们也称这几种网页组成部分为搜索引擎优化不友好元素。
一般网页的核心信息最好不要放置在这些不友好元素中,以防搜索引擎不能成功进行索引。这些核心信息包括带有该页面核心关键词的文本区域以及相关辅助信息,诸如重要导航,相关导航和文章正文。
而那些内容描述与核心信息的相关性相去甚远的信息就建议放置在 IFRAME 、
JavaScript、AJAX 中,因为它们会对核心信息起到干扰。可以放置于搜索引擎不友好因素中的信息包括网站尾部的辅助导航、版权信息和页面的广告信息等。
一、IFRAME
框架结构或称帧结构(Frame )网页表现为一个网页内的某一块保持固定,其它部分信息可以通过滚动条上下或左右移动显示。框架型网页的另一个表现是,深层页面的域名通常不会在URL 中体现出来,即使进入深层子页面,浏览器显示出来的URL 仍是主页的URL 。它的好处是:页面整体一致,更新方便。但大多搜索引擎无法识别框架,也没兴趣抓取其中内容。某些浏览器不支持框架页面。
如使用框架,必须在代码中使用“Noframes ”标签进行优化,把Noframe 标签看作一个
普通文本内容的主页。在<Noframe></Noframe>区域中包含指向frame 页的链接以及带有关
键词的描述文本。同时在框架以外的区域也出现关键词文本。这样搜索引擎才能正确索引到
框架内信息。
还有一个办法是采用iframe 即内联框架(Inner Frame)技术来避免Frame 带来的不便。所谓 iframe 也是框架的一种形式,它是相当于在主浏览器窗口内嵌一个子窗口,内容自动打开。Iframe 可以嵌在网页中的任意部分,也可以随意定义其大小,其代码显示为:<iframe src=xx width=x height=x scrolling=xx frameborder=x></frame>
对搜索引擎来说,iframe 中的文字是可见的,也可以跟踪到其中链接指向的页面,不过与用户所见不同的是,搜索引擎将 iframe 内容看成单独的一个网面内容,与被内嵌的页面无关。
二、JS
由于JS 的内容不能被大多数搜索引擎检索,所以做网站的SEO 时一般强调导航菜单等重要的代码部分尽量不使用JS。
部分网页左侧、右侧的相关文章、热门文章链接等,喜欢使用 JS 来调用。这又是一个JS 产生的问题。如果大面积的链接都使用JS,无疑将大大降低搜索引擎抓取收录的机会。
正常情况下,网页尽量以<html>作为代码开始端。但采用JavaScript 技术的网页往往在页面一开始就堆积大量java 代码,以致meta 及关键词迟迟不能出现,被推至页面底部,对搜索引擎很不友好。
两种方法改善:
将脚本移至页面底部大部分 java 代码可移到页面结束标签之上,从而不影响网站功能。
将 java 脚本置入一个.js 扩展名的文件 包含你的javascript 的.js 文件通常在网站访问者的浏览器中被缓存下来,使得下次访问速度加快,也使网站修改和维护更加方便。
三、AJAX
AJAX 是异步 JavaScript 和 XML 的缩写形式,是一种网站互动应用开发技术,其直接效果是用户无加载一次,网页也可以实现页面内容刷新,由此极大提升速度和用户体验。
不过AJAX 技术在搜索引擎优化方面被完全归入“糟糕”一类效果,因为搜索引擎不支持 JavaScript,而AJAX 是使用 JavaScript 发挥作用,因此搜索引擎机器人看不到 AJAX 发送的内容。比如,如果一个网站导航采用AJAX 技术制作,那么搜索引擎无法通过导航系统深入抓取该网站首页以外的其它链接页面,同样,如果网页内容由AJAX 生成,也无法为搜索引擎识别。
使用 AJAX 技术制作网站该如何兼顾用户体验的高效与搜索引擎优化呢?最简单的答案是确保导航与正文主体内容这两部分最核心的内容是 html 文件,这不仅有助于提升网站的搜索引擎可见度,还确保那些没有启用JavaScript 的用户也能看到导航条内容和链接。以国际品牌www.xiaoshuodaquan.com 为例,这个外观时尚新潮的网站制作几乎破坏了搜索引擎优化的所有规范,并且如果浏览器不支持JavaScript,则所见完全一片空白。
第六节 URL 设计
URL 其英文完整拼写是 Uniform Resource Locator,中文翻译意思为“统一资源定位系统”,也就是我们经常所说的网站址。面向访问用户和搜索引擎友好的URL 设计必须要考虑三个方面的要求:便于用户记忆、URL 静态化和部署关键词。
一、便于用户记忆
URL 的设计是否对于用户友好,这也是我们必须考虑的。我们会经常看到很多站点内容页面的URL 是一长串令人捉摸不透的数字和字母组合,很不便于用户记忆。
我们给出的设计便于记忆的URL 的建议是:根据访问用户的语言环境和文化素质情况而灵活采用英文或者汉语拼音,然后再加上有规律的数字组合来设计URL 。
二、URL 静态化
搜索引擎对静态的 URL 索引效率更高,这一点是在其对网站管理员的帮助指南里都有明确指出过。所以,在架构网站的时候采取静态页面架构或者实现动态URL 伪静态化无疑是对搜索引擎友好的方法。
一般来说,中小型网站由于其信息量不多,维护起来也比较方便,大多都采用静态HTML页面来构建。而对于大型网站来,由于信息量大,它们大都采用了CMS (Content Management System)来搭建网站,因为其架构安装和管理都比较方便。
但是,大部分的 CMS 系统开发商并没有考虑到 URL 静态化对于搜索引擎友好的重要性,这些系统生成的页面URL 都是带有参数变量的动态形式。
1、动态URL 的伪静态化处理
已经是动态URL 的站点如何实现URL 静态化呢?
实现方式主要有2 种:基于url rewrite 和基于path_info。
REWRITE。
当需要将news.asp?id=234 的映射成news/234.html 时,只需设置:
RewriteRule /news/ (d+ ).html /news.asp?id=$1 [N,I]
这样就把 /news/234.html 这样的请求映射成了 /news.asp?id=234
当有对/news/234.html 的请求时:web 服务器会把实际请求转发给/news.asp?id=234
而在IIS 也有相应的REWRITE 模块:比如ISAPI REWRITE 和IIS REWRITE,语法都是基于正则表达式,因此配置几乎和apache 的mod_rewrite 是相同的。
比对于某一个简单应用可以是:
RewriteRule /news/ (d+ ).html /news/news.php?id=$1 [N,I]
这样就把 http://www.xiaoshuodaquan.com/news/234.html
映射到了:http://www.xiaoshuodaquan.com/news/news.php?id=234
一个更通用的能够将所有的动态页面进行参数映射的表达式是:
把http://www.xiaoshuodaquan.com/foo.php?a=A&b=B&c=C
表现成http://www.xiaoshuodaquan.com/foo.php/a/A/b/B/c/C。
RewriteRule (.*?.php)(?[^/]* )?/ ([^/]*)/ ([^/]*)(.+?)?$1 (?2$2&:?)$3=$4?5$5: [N,I]
以下是针对phpBB 的一个Apache mod_rewrite 配置样例:
RewriteEngine On
RewriteRule /forum/topic_ (.+).html$ /forum/viewtopic.php?t=$1 [L]
RewriteRule /forum/forum_ (.+).html$ /forum/viewforum.php?f=$1 [L]
RewriteRule/forum/user_ (.+).html$ /forum/profile.php?mode=viewprofile&u=$1 [L]
这样设置后就可以通过topic_1234.html forum_2.html user_34.html 这样的链接访问原来的动态页面了。
通过URL REWRITE 还有一些好处:
注意:/myapp/servlet/Hello/foo 的getPathInfo ()返回的是/foo,而/myapp/dir/hello.jsp/foo的 getPathInfo ()将返回的 /hello.jsp,从这里你也可以知道 jsp 其实就是一个 Servlet 的 PATH_INFO 参数。ASP 不支持PATH_INFO。
PHP 中基于PATH_INFO 的参数解析的例子如下:
注意:参数按"/"分割,第一个参数是空的:从/param1/param2 中解析出$param1 $param2 这2 个参数。
if ( isset ($_SERVER["PATH_INFO"]) ) {
list ($nothing, $param1, $param2) = explode ('/', $_SERVER["PATH_INFO"]);
}
如何隐蔽应用:例如 .php 的扩展名:
在APACHE 中这样配置:
<FilesMatch "^app_name$">
ForceType application/x-httpd-php
</FilesMatch>
如何更像静态页面:app_name/my/app.html?
解析的PATH_INFO 参数的时候,把最后一个参数的最后 5 个字符“.html”截断即可。
注意:APACHE2 中缺省是不允许PATH_INFO 的,需要设置 AcceptPathInfo on
特别是针对使用虚拟主机用户,无权安装和配置 mod_rewrite的时候,PATH_INFO 往往就成了唯一的选择。
OK,这样以后看见类似于http://www.xiaoshuodaquan.com/article/234 这样的网页你就知道可能是 article/show.php?id=234 这个php 程序生成的动态网页,很多站点表面看上去可能有很多静态目录,其实很有可能都是使用 1,2 个程序实现的内容发布。比如很多WIKIWIKI 系统都使用了这个机制:整个系统就一个简单的 wiki 程序,而看上去的目录其实都是这个应用拿后面的址作为参数的查询结果。
利用基于MOD_REWRITE/PATH_INFO+CACHE 服务器的解决方案对原有的动态发
布系统进行改造,也可以大大降低旧有系统升级到新的内容管理系统的成本。并且方便了搜
索引擎收录入索引。
附:如何在IIS 上利用PHP 支持PATH_INFO
PHP 的ISAPI 模式安装备忘:只试成 php-4.2.3-Win32
解包目录
php-4.2.3-Win32.zip c:php
PHP.INI 初始化文件
复制:c:phpphp.ini-dist 到 c:winntphp.ini
配置文件关联
按照install.txt 中的说明配置文件关联
运行库文件
复制 c:phpphp4ts.dll 到 c:winntsystem32php4ts.dll
这样运行后:会发现php 把PATH_INFO 映射到了物理路径上
Warning: Unknown(C:CheDongDownloadsariadnewww est.phppath): failed to create stream:
No such file or directory in Unknown on line 0
Warning: Unknown (): Failed opening 'C:CheDongDownloadsariadnewww est.phppath' for inclusion (include_path='.;c:php4pear') in Unknown on line 0
安装ariadne 的PATCH
停止IIS 服务
net stop iisadmin
ftp://ftp.muze.nl/pub/ariadne/win/iis/php-4.2.3/php4isapi.dll
覆盖原有的c:phpsapiphp4isapi.dll
注:
ariadne 是一个基于PATH_INFO 的内容发布系统,
PHP 4.3.2 RC2 中CGI 模式的PATH_INFO 已经修正,照常安装即可。
2、不同具体情况下的URL 静态化抉择建议
并不是所有的动态URL 站点都需要进行URL 静态化处理,如果决策不当,会对站点某一个阶段带来流量的重创。一般来说,如果站点信息规模已经很庞大,并且搜索引擎对其收录效果也不是很差的情况下,就不需要 URL 伪静态化处理了。而那些站点信息量原本就少,搜索引擎收录效果也很差的站点,就必须要对其动态 URL 进行伪静态化处理。诸如国内的动网论坛,虽然没有做URL 的静态化处理,但是搜索引擎对其索引效率十分好。
三、URL 的关键词部署 在URL 里部署关键词的做法在英文语种的 SEO 工作中比较重视,这里简单谈一下如何来操作。
比如在http://www.xiaoshuodaquan.com 网站的SEO 专栏下有一个网页,这一网页主要是介绍 SEO书籍的,很多人可能会给它设定这么一个 URL:http://www.xiaoshuodaquan.com/01/1.html,或许也可能是这么一个URL:http://www.xiaoshuodaquan.com/a/a.html 。
如果这个URL 被 SEO 部署了关键词后,会是什么样的呢?下面就是你想要的答案:
http://www.xiaoshuodaquan.com/SEO/SEO-books.html 。
如果有人在搜索引擎中搜索“SEO book ”的时候,以上网站址中的关键词“SEO”
和“SEO books ”也被作为文本纳入了搜索引擎的文本分析中,增加了用户搜索的“SEO book ”的关键词密度,这种做法有助增强关键词的搜索引擎排名竞争优势。
Google 能识别URL 中的汉字UTF-8 编码。而百度
则不会识别,其显示出了乱码。
在前些年,这种做法确实能对网页的搜索引擎排名起到作用,像阿里巴巴的某些专题站点就这样操作过。如今这样的方式似乎并不奏效,因为我们再也看不到那种带有汉字关键词的URL 高居搜索结果榜首的局面了。
第七节 网页代码的编写
网页代码的编写是否简洁和具有逻辑性也是评估搜索引擎优化工作的一个重要指标。
一、遵循WEB 标准
建议广大网页设计师遵循国际互联网标准组织(W3C )所推荐的WEB 标准来编写网页源码,而不是继续沿用传统的TABLE 表格布局方式来制作网页。
Web 标准是一些规范的集合,是由W3C 和其他的标准化组织共同制定的,用它来创建和解释网页的基本内容。这些规范是专门为了那些在网上发布的可向后兼容的文档所设计
的,使其能够被大多数人所访问。
遵循WEB 标准来编写网页,可以从以下方面获益:
更简易的开发与维护 使用更具有语义和结构化的 HTML,将使得理解他人编写的代
码更为容易和快速。
与未来浏览器的兼容 使用已定义的标准和规范的代码,向后兼容的文本就消除了不能
被未来的浏览器识别的后患。
更快的网页下载、读取速度 更少的 HTML 代码带来的将是更小的文件和更快的下载
速度。如今的浏览器处于标准模式下比它在以前的兼容模式下拥有更快的网页读取速度。
更好的可访问性 语义化的 HTML(结构和表现相分离)让使用浏览器以及不同浏览
设备的读者都能很容易看到内容。
更高的搜索引擎排名 内容和表现的分离使内容成为一个文本的主体。与语义化的标记结合会提高你在搜索引擎中的排名。
更好的适应性 一个用语义化标记的文档可以很好适应于打印和其他的显示设备(像
掌上电脑和智能电话),这一切仅仅是通过链接不同的CSS 文件就可以完成。同样也可以仅
仅通过编辑单独的一个文件就完成跨站点般的表现上的转换。
Web 标准可以为网站的创建者节省时间与金钱,还可以为网站的浏览者提供一个更好的经历。如果想了解更多关于WEB 标准的知识,推荐访问站点:www.xiaoshuodaquan.com 。
二、代码的逻辑性
搜索引擎是通过分析网页源代码来分析页面文本信息的逻辑性,所以在编写网页代码的时候一定要尽可能使用合适的标签来体现文本表达的层次感,也即是让搜索引擎“看懂”哪些文本信息要重于其他部分。
1、标题标签
在 Html 代码中,标题的标签一共 6 个,它们的具体代码表现形式分别是:“<h1>标题1</h1>”、“<h2>标题2</h2>”、“<h3>标题3</h3>”、“<h4>标题4</h4>”、“<h5>标题5</h5>”和“<h6>标题6</h6>”,其中标题 1 的逻辑权重最大,其他的标题重要性随着h 后的数字增大而减小。在搜索引擎的文本分析中,标题的信息权重要比文章正文的大,所以我们尤其要注意内容标题的规划和书写。
一篇文章中可能会出现很多标题,诸如正文大标题、副标题、段落标题等。我们应该根据标题的逻辑重要性分配合适的标题标签,正文大标题应该是<h1>,副标题可是是<h2>,而段落标题则可分配<h3>,其他的就可以以此类推了。我们不建议所有的标题都采用<h1>标签,这样不能向搜索引擎阐述哪些标题应该比其他的标题更加重要,因而显得标题没有层次逻辑性。
2、强调标签
为了说明文章正文部分的某些字词或者句子的重要性,我们应该要通过 html 强调代码来标识它们,从而使其与其他部分的字词或者句子区分开来。
一般强调标签:<em>,Html 代码表现形式:“<em>强调的字词或句子</em>”,被<em>
标签包括了的字词或句子在网页中表现为斜体。
重点强调标签:<b>和<strong>,具体Html 代码表现形式:“<b>强调的字词或句子</b>”
和“<strong>强调的字词或句子</strong>”,被重点强调标签包括了字词或句子在网页中表现
为粗体。<b>主要侧重于表现视觉上的强调,而<strong>则是指语意上的强调。
以上所谈的两类标签表达的文本逻辑性权重很大,所以其配合表现的字词句段在搜索引擎的文本分析中占有极大的评估优势,这也就不难理解为什么很多的 SEO 对它们十分重视了。网页设计师在编写代码的时候应当尽量使用丰富多样的标签,让网页的文本信息具有逻辑性,从而让搜索引擎能更好的读“懂”网页中的信息。对于搜索引擎优化人员来说,在这些标签中部署关键词是一个不错的选择。
第八节 面向搜索引擎的文案写作指导
文案写作在搜索引擎优化技能中占有很大的份量,专业的搜索引擎优化人员必须具有很娴熟的文字写作能力。在本节,我们将会向你介绍如何来撰写针对搜索引擎的的文案。
一、网页标题 Title
通过下面的这张图片,可以看出Title 在网页浏览器和Html 源代码中的显示位置。
由于网页的Title 部分内容在搜索引擎的文本分析中占有很高的权重,所以网页Title 写作质量的好坏对页面的优化效果有很大的影响。
1、Title 的写作原则
描述要简练有力,总字符数建议不要超过 60,而且要有核心关键词出现。切记勿出现
堆积关键词的现象,Title 部分的行文描述一定要流畅。
的位置可以随意调换;如果两个部分的总字数超过30 的话,可以把网站简要描述部分的内
容放置于网站名称的前面。首页的Title 部分要部署核心关键词,但不可泛滥堆积关键词。
2、Description
Description 具体网页源码表现形式为:<meta name="description" content=" ">。
Description 告诉搜索引擎你的站点上的页面的主要内容。Description 的content 部分文字内容最好控制在 100 个字符左右,行文流畅。Description 部分的内容应该是具体页面主要展示信息的简洁而强有力的概述。
3、Robots
Robots 的具体网页源码表现形式为:<meta name="robots" content=" ">。
Robots 的 content 部分文字可以填写的内容为:all、none、index、noindex、follow 和nofollow 。对于Robots 的content 部分填充内容有如下说明解释:
分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录
指定的内容。
当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,
如果找到,搜索机器人就会按照该文件中的内容来确定访问的范围,如果该文件不存在,那
么搜索机器人就沿着链接抓取。
robots.txt 必须放置在一个站点的根目录下,而且文件名必须全部小写。
一般来说相应的网站就会拥有一个对应的robots.txt 文件,如:
http://www.w3.org/
http://www.w3.org/robots.txt
2、robots.txt 的语法
“robots.txt ”文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL 作为结束符),每一条记录的格式如下所示:
“<field>:<optionalspace><value><optionalspace>”。
在该文件中可以使用#进行注解,具体使用方法和 UNIX 中的惯例一样。该文件中的记录通常以一行或多行User-agent 开始,后面加上若干Disallow 行,详细情况如下:
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
D. 禁止某个搜索引擎的访问(下例中的BadBot )
User-agent: BadBot
Disallow: /
E. 只允许某个搜索引擎的访问(下例中的WebCrawler )
User-agent: WebCrawler
Disallow:
User-agent: *
Disallow: /
F. 常见搜索引擎机器人Robots 名字
表 6-8-1 常见搜索引擎机器人 Robots 名字
名 称 搜 索 引 擎
Baiduspider http://www.xiaoshuodaquan.com
Scooter http://www.xiaoshuodaquan.com
ia_archiver http://www.xiaoshuodaquan.com
Googlebot http://www.xiaoshuodaquan.com
FAST-WebCrawler http://www.xiaoshuodaquan.com
Slurp http://www.xiaoshuodaquan.com
MSNBOT http://www.xiaoshuodaquan.com
4、robots.txt 举例
下面是一些著名站点的robots.txt:
http://www.xiaoshuodaquan.com/robots.txt
http://www.xiaoshuodaquan.com/robots.txt
http://www.xiaoshuodaquan.com/robots.txt
http://www.xiaoshuodaquan.com/robots.txt
http://www.xiaoshuodaquan.com/robots.txt
5、常见robots.txt 错误
A. 颠倒了顺序
错误写成:
User-agent: *
Disallow: GoogleBot

正确的应该是:
User-agent: GoogleBot
Disallow: *
B. 把多个禁止命令放在一行中
例如错误写成:
Disallow: /css/ /cgi-bin/ /images/
正确的应该是:
Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images/
C. 行前有大量空格
例如写成:
Disallow: /cgi-bin/
尽管在标准没有谈到这个,但是这种方式很容易出问题。
D. 404 重定向到另外一个页面
当Robot 访问很多没有设置 robots.txt 文件的站点时,会被自动 404 重定向到另外 一个Html 页面。这时Robot 常常会以处理robots.txt 文件的方式处理这个Html 页面文 件。虽然一般这样没有什么问题,但是最好能放一个空白的 robots.txt 文件在站点根目 录下。
E. 采用大写。例如
USER-AGENT: EXCITE
DISALLOW:
虽然标准是没有大小写的,但是目录和文件名应该小写:
user-agent:GoogleBot
disallow:
F. 语法中只有Disallow,没有Allow

错误的写法是:
User-agent: Baiduspider
Disallow: /john/
allow: /jane/
G. 忘记了斜杠/

错误写作:
User-agent: Baiduspider
Disallow: css

正确的应该是:
User-agent: Baiduspider
Disallow: /css/
下面一个小工具专门检查 robots.txt 文件的有效性:
http://www.xiaoshuodaquan.com/cgi-bin/robotcheck.cgi
五、链接锚文本
什么是链接锚文本?举个例子解释说明一下:诸如,有一个网站做了个点石的友情链接,其具体代码表现为 <a href="http://www.xiaoshuodaquan.com">点石互动</a> ,其中“点石互动”即为该链接的锚文本。
1、链接锚文本(Anchor Text)描述在SEO 中有什么作用?
搜索引擎可以根据指向某一个网页链接的锚文本描述来判断该网页的内容属性,点石是一个搜索引擎优化研究团队,所以有很多指向点石的链接锚文本描述为“搜索引擎优化”,
这样会让搜索引擎根据属性投票来给点石在搜索引擎优化的自然排名方面有一个考虑,尤其
是这样的反向链接的质量和数量上升到一定层次时,这种排名优势也就越明显。
很多网站的锚文本的形式诸如以下形式:more、更多、阅读详细信息、点击这里等,这样的做法没办法让搜索引擎对某一个被链接的网页内容属性有一个好的判断,从而影响网页排名。
2、链接锚文本(Anchor Text)的优化
每个页面的内容都不同,因此我们在进行关键词策略部署的时候,就应该针对某一个目标页面有一个关键词考虑。一般来说一个页面的核心关键词在 1-3 个范围(范围太大,关键词的权重就有可能被稀释),所以我们一般在其他页面做指向该页面的链接的锚文本描述中就应该布置预先规划的核心关键词,而且锚文本描述的形式应尽量多样化。
六、Sitemap.xml
Sitemaps 协议使你能够告知搜索引擎网站中可供抓取的网址。最简便的方式就是,使用 Sitemaps 协议的 Sitemaps 就是列有某个网站所有网址的 XML 文件。此协议可高度扩展,因此可适用于各种大小的网站。它还能够使网站管理员提供有关每个网址的其他信息(上次更新的时间、更改的频率、与网站中其他网址相比它的重要性等),以便搜索引擎可以更智能抓取该网站。
Sitemaps 协议补充而不是取代搜索引擎已用来发现网址的基于抓取的机制。通过向搜索引擎提交一个 Sitemaps (或多个 Sitemaps ),可帮助搜索引擎更好抓取你的网站。
1、XML Sitemaps 语法格式
Sitemaps 协议格式由 XML 标记组成,Sitemaps 的所有数据数值应为实体转义过的,文件本身应为 UTF-8 编码的。
以下是只包含一个网址并使用所有可选标记的 Sitemaps 示例。可选标记为斜体。
<?xml version="1.0" encoding="UTF-8"?>
< urlset xmlns="http://www.xiaoshuodaquan.com/schemas/sitemap/0.84">
< url>
< loc>http://www.xiaoshuodaquan.com/</loc>
< lastmod>2005-01-01</lastmod>
< changefreq>monthly</changefreq>
< priority>0.8</priority>
</url>
</urlset>
Sitemaps 应:
一个网页的默认优先级为0.5。
请注意,你为页面指定的优先级不影响你的网址在搜索引擎的结果页的排名。搜索引擎在同一网站的不同网址之间进行选择时使用此信息,因此,你可以使用此标记来增加相对重要的网址在搜索索引中显示的可能性。
而且,请注意为你网站中的所有网址都指定高优先级对你没什么好处。由于优先级是相互关联的,只用于在你自己网站的网页之间进行选择;你网页的优先级不会与其他网站的页面优先级进行比较。
3、实体转义
Sitemaps 文件为 UTF-8 编码(通常在保存文件时可以做到)。对于所有的 XML 文件,任何数据数值(包括网址)都应对下表中列出的字符使用实体转义码。
表 6-8-3 实体转义
字 符 转 义 码
& 符号 & &
单引号 ' '
双引号 " "
大于 > >
小于 < <
此外,所有的网址(包括 Sitemaps 的网址)都应编码,以便它们所在的,以及网址转义的 Web 服务器识别。然而,如果使用任何脚本、工具或日志文件来生成网址(除了手动输入之外的任何方法),通常这部分已经替你完成了。如果提交了 Sitemaps 却收到 Google 无法找到某些网址的错误消息,请查看并确保你的网址遵循RFC-3986 URI 标准、RFC-3987IRI标准以及 XML 标准。
这是使用非 ASCII 字符(ü )以及要求实体转义的字符(&)的网址示例:
http://www.xiaoshuodaquan.com/ümlat.html&q=name
这是 ISO-8859-1 编码的(用于使用该编码的服务器上的托管)以及网址转义过的同一网址http://www.xiaoshuodaquan.com/%FCmlat.html&q=name
这是 UTF-8 编码(用于使用该编码的服务器上的托管)且网址转义过的同一网址:
http://www.xiaoshuodaquan.com/%C3%BCmlat.html&q=name
这是实体转义过的同一网址:
http://www.xiaoshuodaquan.com/%C3%BCmlat.html&q=name
4、XML Sitemaps 示例
下例显示了一个 XML 格式的 Sitemaps 。示例中的 Sitemaps 包含少数网址,每一个都用 <loc> XML 标记来识别。此示例中,为每个网址提供了一组不同的可选参数。
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.xiaoshuodaquan.com/schemas/sitemap/0.84">
<url>
<loc>http://www.xiaoshuodaquan.com/</loc>
<lastmod>2005-01-01</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
<url>
<loc>http://www.xiaoshuodaquan.com/catalog?item=12&desc=vacation_hawaii</loc>
<changefreq>weekly</changefreq>
</url>
<url>
<loc>http://www.xiaoshuodaquan.com/catalog?item=73&desc=vacation_new_zealand</loc>
<lastmod>2004-12-23</lastmod>
<changefreq>weekly</changefreq>
</url>
<url>
<loc>http://www.xiaoshuodaquan.com/catalog?item=74&desc=vacation_newfoundland</loc>
<lastmod>2004-12-23T18:00:15+00:00</lastmod>
<priority>0.3</priority>
</url>
<url>
<loc>http://www.xiaoshuodaquan.com/catalog?item=83&desc=vacation_usa</loc>
<lastmod>2004-11-23</lastmod>
</url>
</urlset>
你可以使用 gzip 压缩 Sitemaps 文件。压缩 Sitemaps 文件会降低对带宽的要求。请注意,未压缩的 Sitemaps 文件不得大于 10MB 。
5、使用 Sitemaps 索引文件(对多个 Sitemaps 文件进行分组)
你可以提供多个 Sitemaps 文件,但提供的每个 Sitemaps 文件包括的网址不得超过50,000 个,并且未压缩时不能大于 10MB (10,485,760)。这些限制条件有助于确保Web服务器不会因传输非常大的文件而遇到麻烦。
如果要列出超过 50,000 个网址,你需要创建多个 Sitemaps 文件。如果预计你的Sitemaps 网址数量会超过 50,000 个或大小超过 10MB,应考虑创建多个Sitemaps 文件。
如果你的确提供了多个 Sitemaps,你可以将其列在Sitemaps 索引文件中。Sitemaps 索引文件只能列出不超过 1,000 个 Sitemaps。
Sitemaps 索引文件的 XML 格式与 Sitemaps 文件的 XML 格式非常相似。Sitemaps索引文件使用以下 XML 标记:
http://www.xiaoshuodaquan.com/catalog/sitemap.gz 中,被认为有效的示例网址包括:
http://www.xiaoshuodaquan.com/catalog/show?item=23
http://www.xiaoshuodaquan.com/catalog/show?item=233&user=3453
http://www.xiaoshuodaquan.com/catalog/sitemap.gz 中被认为无效的网址包括:
http://www.xiaoshuodaquan.com/image/show?item=23
http://www.xiaoshuodaquan.com/image/show?item=233&user=3453
https://www.xiaoshuodaquan.com/catalog/page1.html
被认定为无效的网址将不再考虑。强烈建议将 Sitemaps 放置在Web 服务器的根目录处。 例如,如果Web 服务器位于www.xiaoshuodaquan.com,则Sitemaps 索引文件应位于
http://www.xiaoshuodaquan.com/sitemap.gz 。在某些情况下,你需要针对不同的路径创建对应的Sitemaps,
例如,如果在你的组织中,安全许可对应不同目录划分上传权限。
8、验证你的Sitemaps
Google使用XML架构定义可以出现在Sitemaps文件中的元素和属性。你可从以下链接下载此架构:
对于 Sitemaps: http://www.xiaoshuodaquan.com/schemas/sitemap/0.84/sitemap.xsd
对于 Sitemaps 索引文件:http://www.xiaoshuodaquan.com/schemas/sitemap/0.84/siteindex.xsd
有多种工具可帮助你根据此架构来验证你的 Sitemaps结构。在下面的每一个位置
你都可以找到XML相关的工具列表:
http://www.w3.org/XML/Schema#Tools
http://www.xiaoshuodaquan.com/pub/a/2000/12/13/schematools.html
为了根据某个架构验证你的Sitemaps 或 Sitemaps 索引文件,XML 文件需要有附加的标头。如果你使用的是Sitemaps生成器,这些标头已经包含其中。如果你使用不同的工具创建 Sitemaps,XML文件中的标头应如下例所示。
Sitemaps:
<?xml version='1.0' encoding='UTF-8'?>
<urlset xmlns="http://www.xiaoshuodaquan.com/schemas/sitemap/0.84"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.xiaoshuodaquan.com/schemas/sitemap/0.84
http://www.xiaoshuodaquan.com/schemas/sitemap/0.84/sitemap.xsd">
<url>
</url>
</urlset>
Sitemaps 索引文件:
<?xml version='1.0' encoding='UTF-8'?> <sitemapindex xmlns="http://www.xiaoshuodaquan.com/schemas/sitemap/0.84"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.xiaoshuodaquan.com/schemas/sitemap/0.84
http://www.xiaoshuodaquan.com/schemas/sitemap/0.84/siteindex.xsd">
<sitemap>
</sitemap>
</sitemapindex>
9、www.xiaoshuodaquan.com V1.5 使用教程
这是一款由国外编程人员开发的Google Sitemap 制作软件,通过该软件那些不懂XML
语法的人也很容易制作出xml 版本的Google Sitemap 和纯文本链接址。
该软件可运行于Windows 2000 / XP / 2003 平台,必须在.NET Framework 1.1 环境下安装,如果你的电脑没有安装.NET Framework 1.1,你可以到微软官方网站上下载 (http://www.xiaoshuodaquan.com/downloads/details.aspx?FamilyID=262D25E3-F589-4842-8157-034
D1E7CF3A3&displaylang=zh-cn; )。
www.xiaoshuodaquan.com V1.5软件可以到下面的网站址下载:
http://www.xiaoshuodaquan.com/download/google-sitemaps-builder.html
Google sitemaps Builder 软件的安装相当容易,这里就不做介绍了。接下来,主要来讲
解一下 Google sitemaps Builder 的使用方法。
安装完Google sitemaps Builder 软件后,点击任务栏里的“开始”,从“所有程序”里找到“www.xiaoshuodaquan.com”,运行该程序。当然,安装完Google sitemaps Builder 软件后,电脑的桌面会有其快捷方式,直接点击它可快速运行该软件。
然后点击“Extract Links”按钮,软件就会派出其机器人去目标网站上进行爬行,从而
捕获目标网站的链接信息。如果你要停止该软件的机器人爬行,可以点击“Cancel”按钮。
等Google sitemaps Builder 的机器人爬行完整个站点后,我们就可以轻松获取Google
sitemap 文件了。
在软件界面中点击“Map File”,然后会出现下面的界面:
当我们点击“File Options”部分的“Generate Google XML Map”按钮,我们就可以在
左侧窗口获得目标查询站点的网站图XML 源代码。我们可以用记事本创建一个文件
sitemap.xml,然后将获得的XML 源代码拷贝到xml 文件中然后保存,这样我们就得到了一个Google sitemap 文件了。
点击“Generate TXT Map”按钮,我们可以获得网站的所有网页址,我们可以把这些网页址制作成HTML 文件格式的网站图。
这款软件还有一个值得提出的功能,就是它可能帮助我们检查网站是否存在死链接。具体链接检查情况,我们可以点击软件界面上的“Stats”按钮来了解。如果你想了解你的网站上哪些URL 不可访问,可以点击“URLs with erros”按钮来查看。
接下来,你只需要向 Google 提交的制作好的 sitemap 文件了。
七、版权与**
国外的网站大部分都有版权和**保护的说明页面,而在国内大部分网站却很少见这样的说明页面。对版权和对用户**尊重的网站才可以获得用户的信任。
第九节 用户友好性检测
我们一般通过三个指标来检验一个网站是否对于用户友好,这三个指标分别是:链接的可用性、访问速度体验和查找信息的便捷度。
一、链接的可用性
试想,一个访问者来到你的网站,点击一个超级链接,却发现浏览器只返回一个错误
404 页面。如果网页中不可用链接数过多,应该可以想像会是什么结果。一个网站如何能让
访问者取得信任?最基本的一个原则就是确保网站的每个链接都可用。不要让访问者扫兴而
归,是你应该做的。
二、访问速度体验
让用户有一个愉悦的访问速度体验,这是一个很理智的做法。根据大量的调查数据表明,访问者能忍受的最大网页打开速度为 15 秒,如果你的网页打开速度能控制在 8 秒以内就最好不过了。但是,很多企业网站在这个方面却做得不尽如意。网页中充斥着大量的图片和FLASH 动画,虽然能给人以较好的视觉效果,但这却是影响网页打开速度的最大因素。
不要因为网页的访问速度慢,而把很多用户挡在门外。
三、查找信息的便捷度
你的网站便于用户使用么?访问者是否能在你的网站上快速便捷找到他们想要的信息
是检验网站可用性的检验标准。
我们可以通过做一个简单的实验来了解一下用户查找信息的便捷度: 找一个对你网站不是很熟悉的人来访问目标测试站点,让他在网站里找出一个指定信息的网页(当然,这个页面,那就说明网站的可用性极差。如果参与实验的人员通过5 次以上的点击才找到目标页面应该是网站中的具体内容页面)
书书网手机版 m.1pwx.com