pandas作为数据分析的重要的包,要学习数据分析,pandas是绕不过去的,建议大家学习的时候。先有具体的问题等,再找解决的方法,不需要重头一步步看,逐步加深理解。实战为主,应用为上。
首先,导入一些包
import csv #读写数据的格式
import pandas as pd
from pandas import Series
import matplotlib.pyplot as plt #我用来作图的
Series:
由一组数据及与之相关的数据索引组成,可以把Series当成一个字典类型。创建的方法可以是这样:>>> s = pd.Series(data, index=index)
这里的data可以是很多种数据:Python dict(字典),ndarray,标量值(如5)【摘自pandas中文文档】
index,默认、创建值为[0, ..., len(data) - 1]的索引。也可以自定义等长的列表等数据类型作为index,比如:['a', 'b',...]等。
下面结合西甲1718年赛季比分score列值说明:
首先读取csv数据score一列,读取到的是dataframe格式的,通过df['Value'].values,构造了新的series格式的数据,索引是0到n-1。试着打印:
第一列就是索引值,第二列就是每一场的比分
那么,问题来了,380场足球比赛中各个分数出现的次数有多少?这时,就需要value_counts(),这个函数出场了。
可以看到1:0,的比分出现次数最多,达到48次,不知道其他联赛是否也差不多这种比例?下次研究下
如果需要直观的看到,可以用到作图,引入import matplotlib.pyplot as plt,下面我们以简单的柱状图来显示:
柱状图
也可以改成饼状图,以后会逐步把数据分析相关的基础一点点记录下来,这大概就是,用到什么,就学什么的方式去不断实践学习了。
留言与评论(共有 0 条评论) |