Python基础之pandas库(二)

本系列内容所用Python版本为anaconda,直接浏览器搜索下载安装即可!


昨天的内容,我们简单学习了一下pandas第三方库的概念,以及Series对象的创建和简单操作,今天我们继续学习pandas第三方库的另一个数据结构DataFrame。

一、DataFrame对象

DataFrame极大的简化了数据分析过程中的一些繁琐操作,它是一个表格型的数据结构,每一列代表一个变量,而每一行则是一条数据,简单的说,DataFrame是共享同一个index的Series集合

二、DataFrame对象的创建

DataFrame对象的创建方法与Series对象类似,只不过传入的数据是多维结构,同时他还有columns属性

1.通过DataFrame方法创建

创建默认index属性和columns属性的DataFrame对象

Python基础之pandas库(二)

用random模块创建一个6x4的时间序列

Python基础之pandas库(二)

Python基础之pandas库(二)

df2的index属性、columns属性、values属性

2.通过读取数据创建

read_table()函数:常见的存储数据的文件如txt文件、csv文件,都可以通过read_table函数来处理

其函数调用形式如下:

pd.read_table('data_file',sep='/',header=None,names=None)

其中data_file是需要读取的文件的路径名,sep参数值文件中的数据的分隔方式,header参数指定哪一行为列名,names参数可以给列指定名称,除此之外read_table函数还有很多参数

Python基础之pandas库(二)

读取上面txt文件的数据

Python基础之pandas库(二)

DataFrame对象还有一个read_csv函数,用以专门读取csv文件,与read_table函数类似,不再赘述

三、DataFrame对象的索引与切片

1.查看DataFrame对象

与Series对象的查看一样,DataFrame对象也有head()、tail()等方法

Python基础之pandas库(二)

用describe()查看对象变量的描述性统计

Python基础之pandas库(二)

2.DataFrame对象行与列的单独操作

对行单独操作

Python基础之pandas库(二)

提取1到4行的数据(不包括第4行)

对列单独操作

Python基础之pandas库(二)

提取单独一列

Python基础之pandas库(二)

用columns列表提取几列

通过比较运算提取元素

Python基础之pandas库(二)

提取变量A大于9的每行元素

总结:对列进行切片会出错,同时对行和列操作也会出错,如df5['A':'B']或df5[1:4,'A']等都会报错

3.标签索引与切片

可以通过列标签和行标签提取数据,主要用到loc()方法

Python基础之pandas库(二)

提取单独一列

Python基础之pandas库(二)

提取多列

Python基础之pandas库(二)

提取特定标量

Python基础之pandas库(二)

提取变量c大于11的每一行

4.位置索引与切片

通过位置提取特定的数据与标签切片类似,不过是通过iloc()方法实现

Python基础之pandas库(二)

提取特定行

Python基础之pandas库(二)

提取所有行的第3列

Python基础之pandas库(二)

提取第2行1列和第4行3列

Python基础之pandas库(二)

提取特定标量

好了,今天的内容到这里先结束,关于DataFrame对象的内容还有很多,我们下次内容接着讲。


END

发表评论
留言与评论(共有 0 条评论) “”
   
验证码:

相关文章

推荐文章