2023年3月24日星期五

Python:单一文件操作

Pandas简介

一个基于NumPy数据分析包,提供了高效地操作大型数据集所需的工具,支持数据上做各种变换。可用于数据挖掘、分析、清洗。

使用时先导入:

import pandas as pd

包括量大数据结构:SeriesDataFrame

Series

Series是带索引的一维数组,是Pandas中的主要数据结构之一。

标签的一维数组,轴标签统称为索引。

import pandas as pd
pd.Series([1,"apple",3,5,4])
pd.Series([1,"apple",3,5,4], index=['a','b','c','d'])

DataFrame

Pandas中的主要数据结构之一,既有行索引也有列索引,可以看成由多个Series组成的数据结构

import pandas as pd
pd.DataFrame({'Animal':['Dog','Cat','Bear'],
            'Owner':['Alice','Bob','Cathy']})

文本文件的读写

绝对路径

1、使用反斜杠

双反斜杠:

'C:\\Users\\test.txt'

添加r:

r'C:\User\test.txt'

2、直接使用斜杠:

'C:/Users/test.txt'

相对路径

查看当前工作路径的命令:

import os

os.getcwd()

文本文件的全部读取

import pandas as pd
data = pd.read_csv('write_data.txt',sep=',')
data = pd.read_csv('write_data.csv')

sep:如果不指定参数,Python则会使用逗号分隔

如果数据第一行不是列名,则采用:

data = pd.read_csv(file, header = None)

读入指定列的文本文件

import pandas as pd
#用列名导入特定列
data = pd.read_csv('write_data.csv', usecols = ['ID','temp'], sep=',')
#还可以用列序号导入特定列
data = pd.read_csv('write_data.csv', usecols = [0,2], sep=',')

读入前面n行的文本文件

import pandas as pd
data = pd.read_csv('write_data.csv', nrows=2, sep=',')

没有评论: