#冲刺创作新星#爬虫的作用 原创

宁采桃花不采臣
发布于 2022-10-4 09:49
2914浏览
0收藏

爬虫的作用

  1. 数据采集
  2. 软件测试
  3. 抢票
  4. 网络安全
  5. web lou洞扫描

应用解析:

    实际上爬虫的话,它在互联网中是有很多作用的,第一个作用是数据采集,也就
爬虫数据,很正常,就是这个应该是大家目前最熟悉的一个方向,就像我们去爬取一
些微博评论,还有什么一些招聘网站的招聘信息,或者说还有一些新闻网站,还有去
爬去,比如说像之前说的音乐,视频等等这些都可以,那么第二个软件测试的话呢,
就是我们爬虫里面的一个自动化测试,有一个重试,就像抢票,有12306抢票等等。
    网络安全呢,就是像有一些人,他可能会用爬虫去做什么短信轰炸,还有这个微
博lou洞扫描那项,还有一些,比如说那种投票的要给什么,要给自己喜欢的明星,或
者是朋友圈点赞投票的也一样的可以去用到,所以爬虫的话,就只要你学得好,能用
的还是比较多的,那么在我们这里的话,先来看一下爬虫的话呢,它又分为哪一些,
就首先的话呢,爬虫的分类它是分不同的,你看一下爬虫分类,第一个他根据我们这
个爬取数量的网站呢,就可以分为通用爬虫以及聚焦爬虫,那么通用爬虫一般是哪一
种,像那些搜索引擎,那聚焦爬虫的话是什么,就目的比较明确嘛,比如说刚刚说到
那个12306抢票,比如说过年回家就抢不到票怎么办呢,自己写一个脚本,自己写一
个程序去抢票,就专门去爬取某一个网站的数据,聚焦爬虫,那么我们也是主要去学
习这个聚焦爬虫对某一个网站去进行爬取的,那像这里的话是什么,是我们这个通过
爬取网站的数量,就分为这两类。
  • 1.
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
  • 10.
  • 11.
  • 12.
  • 13.
  • 14.
  • 15.
  • 16.

途径

    那么还可以根据一个获取的数据为目的,也可以分为功能性爬虫和数据增量爬虫
我们这个爬虫的分类,首先根据爬取网站的数量,可以分为我们这个通用爬虫,通用
爬虫和聚焦爬虫,那么我们自己的话主要是学习这一个聚焦爬虫,这是我们这个根据
网站的数量那么还有根据获取数据的目的。
    获取数据的目的它又可以分为功能性爬虫,就你专门是用来做什么的,像我之前
说的那个投票,给喜欢的明星投票点赞这些,还有什么数据增量爬虫,增量爬虫比如
说那种招聘信息,那样还可以根据我们这个URL地址,还有对应的页面内容是否改变,
它又可以去细分。
  • 1.
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.
  • 7.
  • 8.

通用爬虫和聚焦爬虫的特点

    首先两大类,第一个是通用爬虫,第二个聚焦爬虫,那么通用爬虫它的特点是爬
取我们这个网站数量它是没有上限的就是想扒多少扒多少,像搜索引擎,就是比如说
我们打开一个百度,说我要去进入到某个网站,我直接去搜索就行了,就搜索引擎我
直接去搜索,它会出现很多个网站,但是我们聚焦爬虫就不一样,他的这个数量是有
限的,他的目标是更明确的,就我主要是爬什么,爬某一个网站的,那他分类的话就
分为功能性爬虫,还有数据资料,功能性爬虫呢,他是不去获取数据,他只是为了实
现某一功能的,像我们说到爬虫一般最多的就是获取数据,我要扒我自己想要的一些
数据,那么这个功能性爬虫是不是的他是为了实现某一个功能,那像抢票投票,还有
短信轰炸这一些,那数据增量爬虫的话,它的特点就是获取到数据以后呢,主要用于
我们后续的一个分析。
    像他分类的话呢,又分为,URL是否变化,如果变化的话,那就是什么整整条的
这个新数据,不变化的话呢,就是什么数据部分更新,所以这一个的话呢,就是我们
这个什么爬虫分类,爬虫分类的话,大家主要注意到一点,我们主要学习的是什么聚
焦爬虫,以上内容就是我们这个爬虫分类以及它的作用。
  • 1.
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
  • 10.
  • 11.
  • 12.
  • 13.
  • 14.

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
分类
标签
已于2022-10-4 09:51:17修改
收藏
回复
举报


回复
    相关推荐