python3 默认提供了urllib库,可以爬取网页信息,但其中确实有不方便的地方,如:处理网页验证和cookies,以及hander头信息处理。
为了更加方便处理,有了更为强大的库 urllib3 和 requests, 本节会分别介绍一下,以后我们着重使用requests。
1. urllib3库的使用: 安装:通过使用pip命令来安装urllib3 pip install urllib3 简单使用:import urllib3import re# 实例化产生请求对象http = urllib3.poolmanager()# get请求指定网址url = http://www.baidu.comres = http.request(get,url)# 获取http状态码print(status:%d % res.status)# 获取响应内容data = res.data.decode(utf-8)# 正则解析并输出print(re.findall(,data)) 其他设置: 增加了超时时间,请求参数等设置import urllib3import reurl = http://www.baidu.comhttp = urllib3.poolmanager(timeout = 4.0) #设置超时时间res = http.request( get, url, #headers={ # 'user-agent':'mozilla/5.0(windowsnt6.1;rv:2.0.1)gecko/20100101firefox/4.0.1', #}, fields={'id':100,'name':'lisi'}, #请求参数信息 )print(status:%d % res.status)data = res.data.decode(utf-8)print(re.findall(,data)) 2. requests库的使用: 安装:通过使用pip命令来安装requests pip install requests 简单使用:import requestsimport reurl = http://www.baidu.com# 抓取信息res = requests.get(url)#获取http状态码print(status:%d % res.status_code)# 获取响应内容data = res.content.decode(utf-8)#解析出结果print(re.findall(,data))
打造信息通信领域国家队,构建端到端的服务运维体系
ESD静电阻抗器产品介绍
小米Note与荣耀6Plus哪个散热最好
三星显示器公司计划投入21.5亿美元大规模投资大型电视OLED面板
一文看懂近两月的中美贸易之战
python中urllib3库和requests库的使用
字节跳动“在线教育”大裁员,腾讯/网易游戏下挫,数据中心在颤抖吗?
作为AR与VR行业,在2019年做以下五件事
核辐射在线监测方案都用什么工控主板?
如何设计过温保护电路
wav怎么转换成flac?简单的音频转换教程来了
利用32位处理器和无线收发器实现物联网
网卡的全双工
芯片厂商Marvell侵犯两项专利 被判巨额赔偿12亿美元
vivo X9发布:解析独家前置2000W柔光双摄的强大
如何应对TWh时代的供应链建设
小区的配电系统为什么要安装无功补偿设备?
MAX4986 SAS/SATA单通道2:1/1:2复用器/
随着数据中心的多样化需求 FPGA凭借其灵活性逐渐得到青睐
聚焦2020慕尼黑华南电子展,SKYLAB推出多款新品