深入浅出:在Pandas中高效管理分类数据

今日霍州(www.jrhz.info)©️

准备工作

在开始之前,我们需要安装Pandas和Numpy两个包。你可以使用以下代码进行安装:

pip install pandasnumpy

安装好这些包后,让我们正式进入本文的主要内容。

在Pandas中管理分类数据

分类数据(Categorical Data)是Pandas中的一种数据类型,用于表示特定(固定)数量的类别或不同的取值。它与Pandas中的字符串(string)或对象(object)数据类型不同,尤其是在数据的存储方式上。

分类数据具有更高的内存利用率,因为分类数据中的取值只会被存储一次。相比之下,对象类型会将每个取值都作为单独的字符串存储,这会消耗更多的内存。

让我们通过一个示例来实践分类数据。下面展示了如何在Pandas中初始化分类数据:

import pandas as pddf = pd.DataFrame({ 'fruits': pd.Categorical(['apple', 'kiwi', 'watermelon', 'kiwi', 'apple', 'kiwi']), 'size': pd.Categorical(['small', 'large', 'large', 'small', 'large', 'small'])})df.info

输出结果:

RangeIndex: 6 entries, 0 to 5Data columns (total 2 columns): # Column Non-Null CountDtype --- ------ -------------- ----- 0 fruits 6 non-null category 1 size 6 non-null categorydtypes: category(2)memory usage: 396.0 bytes

你可以看到,fruits和size两列的数据类型是category,而不是我们通常见到的object类型。

我们可以通过以下代码,对比分类数据类型和对象数据类型的内存占用情况:

import numpy as npn = 100000df_object = pd.DataFrame({ 'fruit': np.random.choice(['apple', 'banana', 'orange'], size=n)})print('对象类型的内存占用:')print(df_object['fruit'].memory_usage(deep=True))df_category = pd.DataFrame({ 'fruit': pd.Categorical(np.random.choice(['apple', 'banana', 'orange'], size=n))})print('分类类型的内存占用:')print(df_category['fruit'].memory_usage(deep=True))

输出结果:

对象类型的内存占用:6267209分类类型的内存占用:100424

可以看到,随着样本数量的增加,对象类型的数据内存消耗远大于分类数据类型。

接下来,我们来看分类数据类型可以使用的独特方法。比如,你可以获取所有类别:

df['fruits'].cat.categories

输出:

Index(['apple', 'kiwi', 'watermelon'], dtype='object')

我们还可以重命名这些类别:

df['fruits'] = df['fruits'].cat.rename_categories(['fruit_apple', 'fruit_banana', 'fruit_orange'])print(df['fruits'].cat.categories)

输出:

Index(['fruit_apple', 'fruit_banana', 'fruit_orange'], dtype='object')

分类数据类型还支持引入有序值(ordinalvalues),并可以对类别进行比较。

df['size'] = pd.Categorical(df['size'], categories=['small', 'medium', 'large'], ordered=True)df['size'] < 'large'

输出:

0 True1 False2 False3 True4 False5 TrueName: size, dtype: bool

掌握分类数据类型,将为你的数据分析带来极大的优势。

今日霍州(www.jrhz.info)©️

特别声明:[深入浅出:在Pandas中高效管理分类数据] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

珠藏雪域韵,饰映生活美——地觉醒天珠(雪域藏家歌)

在遥远的雪域高原,藏族文化以其独特的韵味,赋予了每一件珠饰以灵魂与故事。珠饰的设计灵感来自于藏族人民的日常生活与信仰,象征着对自然的崇敬与对生命的热爱。 生活的点滴都值得被珍惜,而珠饰则是我们与自然、人文沟…

珠藏雪域韵,饰映生活美——地觉醒天珠(雪域藏家歌)

她奉子成婚流产无子,前夫再娶小13岁娇妻已育三娃(奉子成婚晋江)

那时,《火线》刚刚杀青,于震在剧组的名声响亮,常常以一条过著称,演戏时不拘泥于角色与人设,人物对戏,情感外露;而方柏霓则是一个新面孔,活泼开朗,爱笑,且敢于顶嘴。她曾尝试复出,但最惨的一次是在横店等了三天,只…

她奉子成婚流产无子,前夫再娶小13岁娇妻已育三娃(奉子成婚晋江)

如何解决江西公共场所智慧厕所需求难题

其主营产品丰富多样,涵盖智慧城市系统,像智慧驿站、智慧公厕、市政环保厕所、移动厕所等;商业空间解决方案,包括集装箱商业综合体、移动商铺、售货亭;高端模块化建筑,例如太空舱、苹果舱、定制化景观木屋;以及专业功能…

如何解决江西公共场所智慧厕所需求难题

牙根尖周炎吃药💊可以吗(牙根尖周炎吃药多久能好)

牙根尖周炎可以通过药物治疗,但具体方法需根据病情严重程度来决定。治疗方法包括使用抗生素、止痛药、进行根管治疗、切开引流或拔牙等。建议患者及时就医,由医生评估后制定个性化治疗方案。 在牙根尖周炎的早期或轻度感染阶段,药物治疗通常是主要手段

牙根尖周炎吃药💊可以吗(牙根尖周炎吃药多久能好)

63岁大『宋佳』少见现身,旅居比利时,嫁小8岁富豪日子惬意!(大『宋佳』多大岁数)

『宋佳』毫不犹豫地放下所有工作,全心全意照顾丈夫,日复一日地往返于医院和家之间,自己也因为操劳而显得消瘦。舞台上,她与女儿对唱时,彼此的眼神里充满了支持和默契。 2017年,『宋佳』在比利时参加活动时遇见了现在的…

63岁大『宋佳』少见现身,旅居比利时,嫁小8岁富豪日子惬意!(大『宋佳』多大岁数)