爬虫之前需要先了解哪些专业知识？【java吧】

java吧关注：1,262,776贴子：12,763,426

2回复贴，共1页

爬虫之前需要先了解哪些专业知识？

一、HTTP的基本原理。
从客户端到服务器，可以分为四个部分:请求方法(RequestMethon)、请求网站(ResquestURL)、请求头(RequestHeaders)和请求体(ResquestBody)。
1.有两种常见的请求方法:GET和POST，以及PUT、DELETE、HEAD和OPTIONS。这里就不详细介绍了；
2.请求网站:网址，统一的资源定位符，可以唯一确定我们想要的资源；
3.请求头:用于解释服务器要使用的附加信息。更重要的信息包括Cookie、Referer、User-Agent等。
4.请求体:一般承载的内容是POST请求的表单数据，而对于GET请求，请求体是空的。

送TA礼物

1楼2021-08-09 14:20回复

二、网页结构分析。
网页大致可以分为三部分——HTML(骨架)、CSS(皮肤)和JavaScript(肌肉)。
1.HTML:描述网页的语言，即超文本标记语言，不同的元素用不同的标签表达；
2.CSS:全名叠层风格表是目前唯一的网页布局风格标准；
JavaScript是一种脚本语言，可以实现实时，动态，交互的网页功能。

2楼2021-08-09 14:21

三、爬虫基本原理。
爬虫的工作流大致可以分为四个步骤:获取网页、提取信息、保存数据和自动化程序。
1、获得网页：获得网页源代码；
2、提取信息:分析网页内容；
3、保存数据:保存在文本或数据库中；
4、自动化程序：代替操作。
四、代理IP的选择：代理IP是爬虫工作中不可缺少的辅助工具之一，高效稳定的代理IP是保证爬虫高效运行的基础。
选择代理IP时，尽量选择可靠的高隐藏代理IP供应商，根据自己的业务需求选择HTTP和Socks5协议，如太阳http支持http/https/socks5，选择时要注意IP的可用性、延迟、稳定性、价格等因素

3楼2021-08-09 14:21

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

贴吧热议榜

2回复贴，共1页

<返回java吧

发表回复

发贴请遵守贴吧协议及“七条底线”贴吧投诉

内容:

使用签名档查看全部

发表

保存至快速回贴

日	一	二	三	四	五	六

爬虫之前需要先了解哪些专业知识？

登录百度账号

扫二维码下载贴吧客户端