1. 企司令SEO首页
  2. SEO教程

【SEO教程】网站自身优化(2)

SEO教程】网站自身优化

SEO优化教程中,关于网站自身(代码、结构、体验、返回码)有非常多的优化点,这里我一共例举了15个优化点。

此图像的alt属性为空;文件名为advertising-alphabet-business-communication-270637-1024x680.jpg

1、网站稳定性高和网站错误少

搜索引擎不喜欢不稳定的网站,蜘蛛无法爬取网站中的任何内容,对于用户而言用户使用体验也差,如果百度将你的网站给你排到首页了,但是实际使用中用户却无法打开你的网站,对于用户而言使用体验会比较差。因此搜索引擎会大幅降低网站稳定性不高的网站排名。

2.使用正确的状态返回码

百度爬虫在进行抓取和处理时,是根据http协议规范来设置相应的逻辑的,所以请你参考http协议中关于返回码的来对网站进行设置。

百度爬虫对常用的异常状态http返回码的处理逻辑:

  • 404:404返回码的含义是“NOT FOUND”,百度会认为网页已经失效,那么通常会从搜索结果中删除,并且短期内爬虫再次发现这条url也不会抓取。
  • 503:503返回码的含义是“Service Unavailable”,百度会认为该网页临时不可访问,通常网站临时关闭,带宽有限等会产生这种情况。对于网页返回503,百度爬虫不会把这条url直接删除,短期内会再访问。届时如果网页已恢复,则正常抓取;如果继续返回503,短期内还会反复访问几次。但是如果网页长期返回503,那么这个url仍会被百度认为是失效链接,从搜索结果中删除。
  • 403:403返回码的含义是“Forbidden”,百度会认为网页当前禁止访问。对于这种情况,如果是新发现的url,百度spider暂不会抓取,短期内会再次检查;如果是百度已收录url,当前也不会直接删除,短期内同样会再访问。届时如果网页允许访问,则正常抓取;如果仍不允许访问,短期内还会反复访问几次。但是如果网页长期返回403,百度也会认为是失效链接,从搜索结果中删除。
  • 301:301返回码的含义是“Moved Permanently”,百度会认为网页当前跳转至新url。当遇到站点迁移,域名更换、站点改版的情况时,推荐使用301返回码,尽量减少改版带来的流量损失。虽然百度爬虫现在对301跳转的响应周期较长,但我们还是推荐大家这么做。

注意事项:

  • 如果站点临时关闭,当网页不能打开时,不要立即返回404,建议使用503状态。503可以告知百度spider该页面临时不可访问,请过段时间再重试。
  • 如果百度爬虫对您的站点抓取压力过大,请尽量不要使用404,同样建议返回503。这样百度spider会过段时间再来尝试抓取这个链接,如果那个时间站点空闲,那它就会被成功抓取了。
  • 有一些网站希望百度只收录部分内容,例如审核后的内容,累积一段时间的新用户页等等。在这种情况,建议新发内容暂时返回403,等审核或做好处理之后,再返回正常状态的返回码。
  • 站点迁移,或域名更换时,请使用301返回。

3.确保网站打开速度

确保网站打开速度在3s内如果超过3秒则会被判断网站体验较差。超过3秒也有可能被当作空短页面处理,注意广告加载时间算在网页整体加载时间内

4.请确保一个IP下面的网站尽可能数量少

如果相同IP下面有大量的不同域名的网站 则百度会把权重集中到最好的一个网站上,其他网站的收录权重会降低

5.网站地图sitemap

sitemap文件能够帮助蜘蛛爬虫快速抓取所有当前网站的链接接,如果网站有更新,爬虫也可以第一时间知道,拥有友好的sitemap的网站的是十分收到百度爬虫欢迎的因此必不可少。

6.URL尽量短

长URL不仅不美观,用户还很难从中获取额外有用的信息;另一方面,短url还有助于减小页面体积,加快网页打开速度,提升用户体验。

7.https比http好

https比http更具有安全性,基本上目前大部分网站都在做https,从http转为https已经是趋势了,并且如果继续使用http协议会被游览器报不安全的阻拦,阻止用户继续访问这对用户体验是十分不利的。相同的网站,https比http会有更好的排名。

8.谨慎将子目录单独形成二级域名

此图像的alt属性为空;文件名为addiction-aid-bottle-capsule-356054-1024x614.jpg

当SEOer时长会对网站进行改版,最常见的改版便是将子目录移出主站点、单独形成二级域名。但大家都知道,改版肯定会对站点的收录排名和流量造成影响,一定要谨慎。那么在什么情况下才需要将子目录换成二级域名呢?其实只有一点:即子目录的内容足够丰富,且与主域的主题关联性不强!

9.robots.txt文件使用得当

用robots文件可以避免后台管理系统等地址被收录,但是如果错误的使用robots文件可能会导致内容无法被收录。

此图像的alt属性为空;文件名为F4030619-3CFB-4FD9-8A09-3ADEEA45A137-1024x168.jpg

图中会提示:由于该网站的robots.txt文件存在限制指令(限制搜索引擎抓取),系统无法提供该页面的内容描述。如果不小心错误的使用了robots文件,可能会导致所有的收录都被取消,谨慎对待。

10.注意动态URL

蜘蛛更喜欢静态的界面,最好用工具将动态界面生产静态的界面。如果是动态的,最好加上nofollow,让搜索引擎不要追踪次网页上的链接。

注意事项:

  • 如果没法变成静态的,可以使用Canonical属性,用来解决由于网址形式不同,而内容相同而造成的内容重复问题。

11.js技术的使用

js技术中Ajax,可以帮助用户体验更加友好,能够不刷新界面,也能访问到新的内容。但是爬虫蜘蛛无法爬取和识别到。重要的内容尽量一次性的展示给爬虫。

注意事项:

  • 谨慎在PC端,需要依靠搜索引擎的网站使用体验更加好的vue等技术,vue在微信生态圈使用的很成熟,甚至小程序也使用vue等技术,使用体验上确实可以更好。但是在PC端对于搜索引擎却是灾难性的。如果已经使用vue的话,需要将vue的内容SEO静态化。

12.避免大量被收录的内容需要登录才能查看

如果需要登录才能查看,拿这部分内容搜索引擎的爬虫也是无法收录的。甚至有些网站一打开就需要登录,即对用户不友好,也对蜘蛛不友好。

13.内链建设

爬虫需要知道站点里哪个页面更重要,其中一个渠道就是内链。那么内链建设有那些注意事项:

  • 死循环链接:死循环链接是搜索引擎蜘蛛最郁闷的事情了,往往会把搜索引擎蜘蛛卡在一个角落中,无限的循环而走不出来,不仅白白浪费蜘蛛体力,也会占用网站大量爬取频率,造成有价值的网页抓取不全。比如万年历等非常实用的工具网站,很多时候这些工具你都可以无限的点击,每次点击都产生一个新的url,如果你没有屏蔽蜘蛛爬取这些内容,那么蜘蛛有可能会被带入到一个无限循环的境地,这样的做法对任何一个搜索引擎都是不友好的。
    还有一种就是动态、带“?”号的url。这是由于动态网站的一个动态文件(如.php)可以产生上万个或者无数个链接,如果部分php文件内部又再次链向自己。蜘蛛进去就很难再爬出来。
  • 链接404后不消除内链入口:页面404后,除了需要向百度站长平台提交外,应该尽量关闭其在网站内部的入口,一来死链对用户的伤害是极大的,二来避免令蜘蛛产生错觉,认为你网站死链严重。
  • 只有入链没有出链:有些人认为网页上的出链太多会分散页面本身的得分,所以在重要页面上不设计出链,实际这与百度的认知是相悖的,百度认为一个优质的网站结构应该像一张网,所有页面都会与其他页面产生链接,蜘蛛会顺着一个页面遍历所以页面。只有入链而没有出链的结构对蜘蛛来说是不友好的。当然,整个网站仅一两个网页只有入链没有出链是无所谓的,但数量千万不要多。
  • 无返回上级目录的链接:我们提倡尽量在每个页面上使用面包屑导航,以告诉搜索引擎页面内容与首页的关系及距离;同时对于用户来说,面包屑导航也是延长用户平均访问时长的重要工具。只有内容而没有返回上级目录的页面就像一本永远无法访问目录的书,听起来是不是怪怪的?
  • 错误的锚文本:内链的作用并不仅仅是页面权值传递和内部投票,百度还会通过锚文本辅助判断网页的内容,错误的锚文本很可能会误导百度对于相关性的计算,对搜索排序产生负面影响。同时对于只能通过锚文本来判断是否要点击打开新网页的用户来说,无疑也是一种伤害。

14.请让html代码看起来干净些

将网站代码中的js代码、css样式等内容放到一个单独的文件里面,不要和html代码混合到一起,这样看起来干净简洁对蜘蛛更加友好。这项内容修改起来相对会比较麻烦,对网站自身优化也没那么大的帮助,因此优先级不是很高,但是在开发网站之前SEOer尽量和开发人员提一下。

15.请让网站保持清爽

网站用户体验很重要,如果网站界面上有大量的弹窗广告和诱导点击类的内容会被百度的石榴算法打击,因此保持友好的用户体验也很重要。

发布者:企司令,转载请注明出处:https://www.m40.cn/blog/seojiaochengwangzhanzishenyouhua/

发表评论

电子邮件地址不会被公开。 必填项已用*标注

联系我们

15258683385

在线咨询:点击这里给我发消息

邮件:364603780@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

QR code