服务粉丝

我们一直在努力
当前位置:首页 > 科技 >

10个Pandas的另类数据处理技巧

日期: 来源:数据派THU收集编辑:数据派THU
来源:DeepHub IMBA

本文约2000字,建议阅读5分钟

本文介绍了10个Pandas的常用技巧。

本文所整理的技巧与以前整理过10个Pandas的常用技巧不同,你可能并不会经常的使用它,但是有时候当你遇到一些非常棘手的问题时,这些技巧可以帮你快速解决一些不常见的问题。


1、Categorical类型


默认情况下,具有有限数量选项的列都会被分配object 类型。但是就内存来说并不是一个有效的选择。我们可以这些列建立索引,并仅使用对对象的引用而实际值。Pandas 提供了一种称为 Categorical的Dtype来解决这个问题。

例如一个带有图片路径的大型数据集组成。每行有三列:anchor, positive, and negative.。

如果类别列使用 Categorical 可以显着减少内存使用量。

 # raw data +----------+------------------------+ |  class   |        filename        | +----------+------------------------+ | Bathroom | Bathroom\bath_1.jpg    | | Bathroom | Bathroom\bath_100.jpg  | | Bathroom | Bathroom\bath_1003.jpg | | Bathroom | Bathroom\bath_1004.jpg | | Bathroom | Bathroom\bath_1005.jpg | +----------+------------------------+
# target +------------------------+------------------------+----------------------------+ | anchor | positive | negative | +------------------------+------------------------+----------------------------+ | Bathroom\bath_1.jpg | Bathroom\bath_100.jpg | Dinning\din_540.jpg | | Bathroom\bath_100.jpg | Bathroom\bath_1003.jpg | Dinning\din_1593.jpg | | Bathroom\bath_1003.jpg | Bathroom\bath_1004.jpg | Bedroom\bed_329.jpg | | Bathroom\bath_1004.jpg | Bathroom\bath_1005.jpg | Livingroom\living_1030.jpg | | Bathroom\bath_1005.jpg | Bathroom\bath_1007.jpg | Bedroom\bed_1240.jpg | +------------------------+------------------------+----------------------------+

filename列的值会经常被复制重复。因此,所以通过使用Categorical可以极大的减少内存使用量。

让我们读取目标数据集,看看内存的差异:

 triplets.info(memory_usage="deep")
# Column Non-Null Count Dtype # --- ------ -------------- ----- # 0 anchor 525000 non-null category # 1 positive 525000 non-null category # 2 negative 525000 non-null category # dtypes: category(3) # memory usage: 4.6 MB
# without categories triplets_raw.info(memory_usage="deep")
# Column Non-Null Count Dtype # --- ------ -------------- ----- # 0 anchor 525000 non-null object # 1 positive 525000 non-null object # 2 negative 525000 non-null object # dtypes: object(3) # memory usage: 118.1 MB

差异非常大,并且随着重复次数的增加,差异呈非线性增长。

2、行列转换


sql中经常会遇到行列转换的问题,Pandas有时候也需要,让我们看看来自Kaggle比赛的数据集。census_start .csv文件:


可以看到,这些按年来保存的,如果有一个列year和pct_bb,并且每一行有相应的值,则会好得多,对吧。

 cols = sorted([col for col in original_df.columns \               if col.startswith("pct_bb")]) df = original_df[(["cfips"] + cols)] df = df.melt(id_vars="cfips",              value_vars=cols,              var_name="year",              value_name="feature").sort_values(by=["cfips", "year"])

看看结果,这样是不是就好很多了:

3、apply()很慢


我们上次已经介绍过,最好不要使用这个方法,因为它遍历每行并调用指定的方法。但是要是我们没有别的选择,那还有没有办法提高速度呢?

可以使用swifter或pandarallew这样的包,使过程并行化。

Swifter
 import pandas as pd import swifter
def target_function(row): return row * 10
def traditional_way(data): data['out'] = data['in'].apply(target_function)
def swifter_way(data): data['out'] = data['in'].swifter.apply(target_function)
Pandarallel

 import pandas as pd from pandarallel import pandarallel
def target_function(row): return row * 10
def traditional_way(data): data['out'] = data['in'].apply(target_function)
def pandarallel_way(data): pandarallel.initialize() data['out'] = data['in'].parallel_apply(target_function)

通过多线程,可以提高计算的速度,当然当然,如果有集群,那么最好使用dask或pyspark。

4、空值,int, Int64


标准整型数据类型不支持空值,所以会自动转换为浮点数。所以如果数据要求在整数字段中使用空值,请考虑使用Int64数据类型,因为它会使用pandas.NA来表示空值。

5、Csv, 压缩还是parquet?


尽可能选择parquet。parquet会保留数据类型,在读取数据时就不需要指定dtypes。parquet文件默认已经使用了snappy进行压缩,所以占用的磁盘空间小。下面可以看看几个的对比:

 |        file            |  size   | +------------------------+---------+ | triplets_525k.csv      | 38.4 MB | | triplets_525k.csv.gzip |  4.3 MB | | triplets_525k.csv.zip  |  4.5 MB | | triplets_525k.parquet  |  1.9 MB | +------------------------+---------+
读取parquet需要额外的包,比如pyarrow或fastparquet。chatgpt说pyarrow比fastparquet要快,但是我在小数据集上测试时fastparquet比pyarrow要快,但是这里建议使用pyarrow,因为pandas 2.0也是默认的使用这个。

6、value_counts ()


计算相对频率,包括获得绝对值、计数和除以总数是很复杂的,但是使用value_counts,可以更容易地完成这项任务,并且该方法提供了包含或排除空值的选项。
 df = pd.DataFrame({"a": [1, 2, None], "b": [4., 5.1, 14.02]}) df["a"] = df["a"].astype("Int64") print(df.info()) print(df["a"].value_counts(normalize=True, dropna=False),      df["a"].value_counts(normalize=True, dropna=True), sep="\n\n")

这样是不是就简单很多了。

7、Modin


注意:Modin现在还在测试阶段。

pandas是单线程的,但Modin可以通过缩放pandas来加快工作流程,它在较大的数据集上工作得特别好,因为在这些数据集上,pandas会变得非常缓慢或内存占用过大导致OOM。

 !pip install modin[all]
import modin.pandas as pd df = pd.read_csv("my_dataset.csv")

以下是modin官网的架构图,有兴趣的研究把:

8、extract()


如果经常遇到复杂的半结构化的数据,并且需要从中分离出单独的列,那么可以使用这个方法:

 import pandas as pd
regex = (r'(?P<title&>[A-Za-z\'\s]+),' r'(?P<author&>[A-Za-z\s\']+),' r'(?P<isbn&>[\d-]+),' r'(?P<year&>\d{4}),' r'(?P<publisher&>.+)') addr = pd.Series([ "The Lost City of Amara,Olivia Garcia,978-1-234567-89-0,2023,HarperCollins", "The Alchemist's Daughter,Maxwell Greene,978-0-987654-32-1,2022,Penguin Random House", "The Last Voyage of the HMS Endeavour,Jessica Kim,978-5-432109-87-6,2021,Simon & Schuster", "The Ghosts of Summer House,Isabella Lee,978-3-456789-12-3,2000,Macmillan Publishers", "The Secret of the Blackthorn Manor,Emma Chen,978-9-876543-21-0,2023,Random House Children's Books" ]) addr.str.extract(regex)


9、读写剪贴板


这个技巧有人一次也用不到,但是有人可能就是需要,比如:在分析中包含PDF文件中的表格时。通常的方法是复制数据,粘贴到Excel中,导出到csv文件中,然后导入Pandas。但是,这里有一个更简单的解决方案:pd.read_clipboard()。我们所需要做的就是复制所需的数据并执行一个方法。

有读就可以写,所以还可以使用to_clipboard()方法导出到剪贴板。

但是要记住,这里的剪贴板是你运行python/jupyter主机的剪切板,并不可能跨主机粘贴,一定不要搞混了。

10、数组列分成多列


假设我们有这样一个数据集,这是一个相当典型的情况:
 import pandas as pd df = pd.DataFrame({"a": [1, 2, 3],              "b": [4, 5, 6],              "category": [["foo", "bar"], ["foo"], ["qux"]]})
# let's increase the number of rows in a dataframe df = pd.concat([df]*10000, ignore_index=True)



我们想将category分成多列显示,例如下面的

先看看最慢的apply:

 def dummies_series_apply(df):    return df.join(df['category'].apply(pd.Series) \                                  .stack() \                                  .str.get_dummies() \                                  .groupby(level=0) \                                  .sum()) \              .drop("category", axis=1) %timeit dummies_series_apply(df.copy()) #5.96 s ± 66.6 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
sklearn的MultiLabelBinarizer

 from sklearn.preprocessing import MultiLabelBinarizer def sklearn_mlb(df):    mlb = MultiLabelBinarizer()    return df.join(pd.DataFrame(mlb.fit_transform(df['category']), columns=mlb.classes_)) \              .drop("category", axis=1) %timeit sklearn_mlb(df.copy()) #35.1 ms ± 1.31 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

是不是快了很多,我们还可以使用一般的向量化操作对其求和:

 def dummies_vectorized(df):    return pd.get_dummies(df.explode("category"), prefix="cat") \              .groupby(["a", "b"]) \              .sum() \              .reset_index() %timeit dummies_vectorized(df.copy()) #29.3 ms ± 1.22 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
使用第一个方法(在StackOverflow上的回答中非常常见)会给出一个非常慢的结果。而其他两个优化的方法的时间是非常快速的。

总结


我希望每个人都能从这些技巧中学到一些新的东西。重要的是要记住尽可能使用向量化操作而不是apply()。此外,除了csv之外,还有其他有趣的存储数据集的方法。不要忘记使用分类数据类型,它可以节省大量内存。感谢阅读!
编辑:王菁
校对:林亦霖

相关阅读

  • 生成式人工智能 有规范才有好未来

  • 近日,国家互联网信息办公室就《生成式人工智能服务管理办法(征求意见稿)》公开征求意见,引起业界关注。生成式人工智能,即AIGC,是指基于算法、模型、规则生成文本、图片、声音、视
  • 网友建议惩治统计数据造假,官方答复

  • 针对网友提出关于“开展统计数据改革、惩治统计‘注水’造假”的建议,国家统计局已于近日予以答复。据中国政府网“回应关切”栏目4月14日消息,该网友建议称,“希望能够从顶层
  • 【第2916期】使用新的JavaScript .at()方法

  • 前言JavaScript developers are forever students. 今日前端早读课文章由 @迪鲁宾翻译分享。前端早读课:与你分享“我”的技术视界正文从这开始~~https://twitter.com/codewith
  • 美国陆军 AMNOW 计划:数字增材制造供应链

  • 美国陆军的 AMNOW 计划于 2022 年底完成了其目标。这个由航空和导弹司令部发起并由美国国防制造与加工中心(NCDMM)领导的为期 3 年计划的目标是展示一个强大、有能力的数字3
  • 这就是信心|喜——“朋友圈”越来越广

  •   随着一季度多项经济数据的陆续发布,2023年,中国经济在开局之季再次展现出整体向好的发展态势。这一次新华网带你换个角度看发展,从“忙”“旺”“赞”“喜”“强”五个关键
  • 2023年第一季度中国数据泄露事件仍呈现高发态势

  • 今天是中国第八个全民国家安全教育日。数据是国家基础性战略资源,没有数据安全就没有国家安全,记者从位于天津的国家计算机病毒应急处理中心获悉,2023年第一季度,涉及我国的数据
  • 【甲子光年】2023 Web 3.0体验营销方法论白皮书

  • 以上仅为部分展示更多内容详见完整PDF版报告请点击「阅读原文」免责声明:以上报告均系本平台通过公开、合法渠道获得,报告版权归原撰写/发布机构所有。如涉侵权,请联系删除!
  • 主力出逃

  • 又到天桥底下说书时间。简单回顾上周仓位数据。本周散户仓位数据81.45%,上升1.55%。最近仓位数据上升了,市场表现并不是特别友好,散户效应从仓位数据调查来看,还是挺明显的,盘面

热门文章

  • 解码“新IT”的5个特征和3大价值

  • 党的二十大报告提出,要加快发展数字经济,促进数字经济和实体经济深度融合,打造具有国际竞争力的数字产业集群。在数字经济与实体经济深度融合的产业浪潮中,以智能设备、边缘计算
  • OPPO k1的低价高配真实么?网友:不看不知道

  • 近日OPPO一款新机OPPO k1,摒弃了高价低配,就连自家老大哥r17都要怼一下。更是放弃了请代言人,以往的OPPO手机还没出来,各路流量小生,花样美男的代言就先来了。还有线下销售人员的
  • 一招教你手机无限制成为一台新设备

  • 大家平时用手机去注册app,肯定会遇到检测设备异常,交易关闭,等问题 这个都是手机已经不止1-2次注册过此app,不断更换手机仅是一个暂时的方法,却不是长久之计,手机总归会用完
  • 从零开始如何开网店

  • 随着互联网的高速发展,人们的生活发生了翻天覆地的变化,生活节奏越来越快,网购已经成为家家户户生活中离不开的一种购物方式了。网购的发展使得越来越多的人想要涉足电商事业,那

最新文章

  • 10个Pandas的另类数据处理技巧

  • 来源:DeepHub IMBA本文约2000字,建议阅读5分钟本文介绍了10个Pandas的常用技巧。本文所整理的技巧与以前整理过10个Pandas的常用技巧不同,你可能并不会经常的使用它,但是有时候