搜索引擎工作原理一共包括三个过程:网页搜索,预处理信息,建立索引。
细化分为:爬行—抓取—处理抓取信息—建立索引—呈现排名
一:爬行
爬行的目的:建立待抓取列表
谷歌爬虫:ddos 百度爬虫:spider
1、发现:
新的网站
被动等待:设置好Robots.txt文件,放在服务器等待爬虫自己过来爬取。(谷歌几周,百度一个月至几个月不等。)
主动引爬虫:写带有链接的软文花钱放在高质量高权重的网站中、利用权重高的博客、在质量高的论坛里发外链。

新的内容
能放首页放首页,否则尽量争取放在顶级栏目(总结:争取权重高的位置放)
Banner图片不如幻灯片,幻灯片不如文字。(总结:文字优先,图片写alt属性)2、爬虫分析:
查看:网站日志分析。Log文件里可查看站长工具:查看抓取频次。太高时会造成服务器崩溃问题及解决:网站访问突然为
先site下网站收录看看有没有被惩罚
分析日志爬虫,记录IP(蜘蛛、用户)
统计代码出现问题
3、爬行策略:
深度优先:一层栏目走到底(1百万-1千万个页面)广度优先:同行栏目分别收集(1百万个页面)混合:两者的混合使用(5千万-1亿个页面)
4、爬虫抓取障碍:
txt文件设置错误服务器本身的问题(动态IP频繁出现、服务器不稳定)URL超长,搜索引擎爬虫懒得直接不抓。爬虫陷阱
二:抓取
网页本身需符合W3C标准
页头信息:状态码:200(正常访问)、404(死链)、301(永久性重定向)、302(临时重定向慎用)、403(禁止访问)、5xx(数据库的问题)编码:建议使用utf-8. gb2312在国外打开是乱码TDK关键词:Title:尽量靠前,我们想让爬虫进入到某个页面就看到我们的主旨内容。
长度:33个汉字 文章的话25个汉字足矣 英文两个字符算一个字
位置:关键词位置前置
次数:不要过于重复太多(栏目可强调关键词,最重要的放前面)
可读性:考虑到用户体验
原创性:蜘蛛喜欢新鲜的东西
Keyword: 首页5-7个、一级栏目5-6个、二级栏目4-5个、列表页3-4个、专题2-3个。Deion: (栏目必须围绕关键词写)
作用:提高点击率
密度:3-8%
长度:80个汉字
原创性:有利于收录
可读性:用户体验考虑
号召行动:活动、促销一类的页面
3、公共部分:
搜索引擎不会抓取重复部分(爬虫比较喜欢新鲜原创性的东西,重复出现的内容不利于抓取)
4、导航:主导航、次导航、左导航、SEO导航(标签)、面包屑导航(不要用JS实现)、



