本系列内容所用Python版本为anaconda,直接浏览器搜索下载安装即可!
昨天的内容,我们简单学习了一下pandas第三方库的概念,以及Series对象的创建和简单操作,今天我们继续学习pandas第三方库的另一个数据结构DataFrame。
一、DataFrame对象
DataFrame极大的简化了数据分析过程中的一些繁琐操作,它是一个表格型的数据结构,每一列代表一个变量,而每一行则是一条数据,简单的说,DataFrame是共享同一个index的Series集合
二、DataFrame对象的创建
DataFrame对象的创建方法与Series对象类似,只不过传入的数据是多维结构,同时他还有columns属性
1.通过DataFrame方法创建
创建默认index属性和columns属性的DataFrame对象
用random模块创建一个6x4的时间序列
df2的index属性、columns属性、values属性
2.通过读取数据创建
read_table()函数:常见的存储数据的文件如txt文件、csv文件,都可以通过read_table函数来处理
其函数调用形式如下:
pd.read_table('data_file',sep='/',header=None,names=None)
其中data_file是需要读取的文件的路径名,sep参数值文件中的数据的分隔方式,header参数指定哪一行为列名,names参数可以给列指定名称,除此之外read_table函数还有很多参数
读取上面txt文件的数据
DataFrame对象还有一个read_csv函数,用以专门读取csv文件,与read_table函数类似,不再赘述
三、DataFrame对象的索引与切片
1.查看DataFrame对象
与Series对象的查看一样,DataFrame对象也有head()、tail()等方法
用describe()查看对象变量的描述性统计
2.DataFrame对象行与列的单独操作
对行单独操作
提取1到4行的数据(不包括第4行)
对列单独操作
提取单独一列
用columns列表提取几列
通过比较运算提取元素
提取变量A大于9的每行元素
总结:对列进行切片会出错,同时对行和列操作也会出错,如df5['A':'B']或df5[1:4,'A']等都会报错
3.标签索引与切片
可以通过列标签和行标签提取数据,主要用到loc()方法
提取单独一列
提取多列
提取特定标量
提取变量c大于11的每一行
4.位置索引与切片
通过位置提取特定的数据与标签切片类似,不过是通过iloc()方法实现
提取特定行
提取所有行的第3列
提取第2行1列和第4行3列
提取特定标量
好了,今天的内容到这里先结束,关于DataFrame对象的内容还有很多,我们下次内容接着讲。
END
留言与评论(共有 0 条评论) “” |