Pandas简介
一个基于NumPy数据分析包,提供了高效地操作大型数据集所需的工具,支持数据上做各种变换。可用于数据挖掘、分析、清洗。
使用时先导入:
import pandas as pd
包括量大数据结构:Series、DataFrame
Series
Series是带索引的一维数组,是Pandas中的主要数据结构之一。
带标签的一维数组,轴标签统称为索引。
import pandas as pd
pd.Series([1,"apple",3,5,4])
pd.Series([1,"apple",3,5,4], index=['a','b','c','d'])
DataFrame
Pandas中的主要数据结构之一,既有行索引也有列索引,可以看成由多个Series组成的数据结构
import pandas as pd
pd.DataFrame({'Animal':['Dog','Cat','Bear'],
'Owner':['Alice','Bob','Cathy']})
文本文件的读写
绝对路径
1、使用反斜杠
双反斜杠:
'C:\\Users\\test.txt'
添加r:
r'C:\User\test.txt'
2、直接使用斜杠:
'C:/Users/test.txt'
相对路径
查看当前工作路径的命令:
import os
os.getcwd()
文本文件的全部读取
import pandas as pd
data = pd.read_csv('write_data.txt',sep=',')
data = pd.read_csv('write_data.csv')
sep:如果不指定参数,Python则会使用逗号分隔
如果数据第一行不是列名,则采用:
data = pd.read_csv(file, header = None)
读入指定列的文本文件
import pandas as pd
data = pd.read_csv('write_data.csv', usecols = ['ID','temp'], sep=',')
data = pd.read_csv('write_data.csv', usecols = [0,2], sep=',')
读入前面n行的文本文件
import pandas as pd
data = pd.read_csv('write_data.csv', nrows=2, sep=',')