我们从网上爬取数据,最后一步会考虑如何存储数据。如果数据量不大,往往不会选择存储到数据库,而是选择存储到文件中,例如文本文件、csv 文件、xls 文件等。因为文件具备携带方便、查阅直观。
python 作为胶水语言,搞定这些当然不在话下。但在写数据过程中,经常因数据源中带有中文汉字而报错。最让人头皮发麻的编码问题。
我先说下编码相关的知识。编码方式有很多种:utf-8, gbk, ascii 等。
ascii 码是美国在上个世纪 60 年代制定的一套字符编码。主要是规范英语字符和二进制位之间的关系。英语词汇组成简单,由 26 个字母构成。使用一个字节就能表示一个字母符号。外加各种符号,使用 128 个字符就满足编码要求。
不同国家有不同语言文字。同时,文字组成部分的数量相比英语字母要多很多。根据不完全统计,汉字的数量大约将近 10 万个,日常所使用的汉字有 3000 个。显然,ascii 编码无法满足需求。所以汉字采用 gbk 编码,使用两个字节表示一个汉字。简体中文的编码方式是 gbk2312。
那 utf-8 又是什么编码?这要先说 unicode 了。unicode 目的是为了统一各种编码。因为各国都各自的编码方式。如果使用一种编码编码,使用另一种编码解码。这会造成出现乱码的情况。但 unicode 只是一个符号集,它只规定了符号的二进制代码,却没有规定这个二进制代码应该如何存储。utf-8 就是在互联网上使用最广的一种 unicode 的实现方式。
因此,如果我们要写数据到文件中,最好指定编码形式为 utf-8。
python 标准库中,有个名为 csv 的库,专门处理 csv 的读写操作。具体使用实例如下:
import csv
import codecs
# codecs 是自然语言编码转换模块
filename = ‘pythonbook.csv’
# 指定编码为 utf-8, 避免写 csv 文件出现中文乱码
with codecs.open(filename, ‘w’, ‘utf-8’) as csvfile:
# 指定 csv 文件的头部显示项
filednames = [‘书名’, ‘作者’]
writer = csv.dictwriter(csvfile, fieldnames=filednames)
books = []
book = {
‘title’: ‘笑傲江湖’,
‘author’: ‘金庸’,
}
books.append(book)
writer.writeheader()
for book in books:
try:
writer.writerow({‘书名’:book[‘title’], ‘作者’:book[‘author’]})
except unicodeencodeerror:
print(“编码错误, 该数据无法写到文件中, 直接忽略该数据”)
这种方式是逐行往 csv 文件中写数据, 所以效率会比较低。如果想批量将数据写到 csv 文件中,需要用到 pandas 库。
pandas 是第三方库,所以使用之前需要安装。通过 pip 方式安装是最简单、最方便的。
pip install pandas
使用 pandas 批量写数据的用法如下:
import pandas as pd
filename = ‘pythonbook.csv’
number = 1
books = []
book = {
‘title’: ‘笑傲江湖’,
‘author’: ‘金庸’,
}
# 如果 book 条数足够多的话,pandas 会每次往文件中写 50 条数据。
books.append(book)
data = pd.dataframe(books)
# 写入csv文件,‘a+’是追加模式
try:
if number == 1:
csv_headers = [‘书名’, ‘作者’]
data.to_csv(filename, header=csv_headers, index=false, mode=‘a+’, encoding=‘utf-8’)
else:
data.to_csv(‘filename, header=false, index=false, mode=’a+‘, encoding=’utf-8‘)
number = number + 1
except unicodeencodeerror:
print(“编码错误, 该数据无法写到文件中, 直接忽略该数据”)
realme真我X50大师版将于明日正式开售 售价3099元
小型风光储并离网介绍-下篇
乔纳森自由了,硬件的世界还会和以前一样吗?
PCB设计中经典技巧总结
ucos的TSLF内存分配算法
如何用Python将数据写到CSV文件
怎样鉴别铜缆跳线的质量好不好呢
分享一个有吸引力的LED照明电路图
PLC加密程序应不应该做?
离心泵结构组成图解
电流探头的使用方法及应用形式
莫名其妙的噪声都是怎么来的?
韩媒:美国可能禁止DUV设备出口中国
盘点2017年最新传感技术和应用领域
三菱PLC编程软件快捷键有哪些
PXI Express平台的串流架构介绍以及其优势
物联网如何让MEMS传感器技术大放异彩
购物新时尚RFID自助结账
程控电源原理_程控电源的用途浅谈
基于WiFi模块的智能门锁控制方案