pandas之主要数据结构,一分钟了解,series

pandas作为数据分析的重要的包,要学习数据分析,pandas是绕不过去的,建议大家学习的时候。先有具体的问题等,再找解决的方法,不需要重头一步步看,逐步加深理解。实战为主,应用为上。

首先,导入一些包

import csv #读写数据的格式

import pandas as pd

from pandas import Series

import matplotlib.pyplot as plt #我用来作图的

Series:

由一组数据及与之相关的数据索引组成,可以把Series当成一个字典类型。创建的方法可以是这样:>>> s = pd.Series(data, index=index)

这里的data可以是很多种数据:Python dict(字典),ndarray,标量值(如5)【摘自pandas中文文档】

index,默认、创建值为[0, ..., len(data) - 1]的索引。也可以自定义等长的列表等数据类型作为index,比如:['a', 'b',...]等。

下面结合西甲1718年赛季比分score列值说明:

首先读取csv数据score一列,读取到的是dataframe格式的,通过df['Value'].values,构造了新的series格式的数据,索引是0到n-1。试着打印:

第一列就是索引值,第二列就是每一场的比分

那么,问题来了,380场足球比赛中各个分数出现的次数有多少?这时,就需要value_counts(),这个函数出场了。

可以看到1:0,的比分出现次数最多,达到48次,不知道其他联赛是否也差不多这种比例?下次研究下

如果需要直观的看到,可以用到作图,引入import matplotlib.pyplot as plt,下面我们以简单的柱状图来显示:

柱状图

也可以改成饼状图,以后会逐步把数据分析相关的基础一点点记录下来,这大概就是,用到什么,就学什么的方式去不断实践学习了。

发表评论
留言与评论(共有 0 条评论)
   
验证码:

相关文章

推荐文章

'); })();