数据清洗常用的2个小trick分别是什么
今天就跟大家聊聊有关数据清洗常用的2个小trick分别是什么,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。
成都创新互联公司-专业网站定制、快速模板网站建设、高性价比硚口网站开发、企业建站全套包干低至880元,成熟完善的模板库,直接使用。一站式硚口网站制作公司更省心,省钱,快速模板网站建设找我们,业务覆盖硚口地区。费用合理售后完善,10年实体公司更值得信赖。
Pandas 巧用 str.split
和 str.cat
因为以上两个方法,直接按列操作,所以省掉一层 for 循环,下面直接看例子。
df = pd.DataFrame({'names':["Geordi La Forge", "Deanna Troi", "Jack"],'IDs':[1,2,3]})
df

列分割
对 names
列,按照第一个空格分割为两列:
df["first_name"] = df["names"].str.split(n = 1).str[0]
df["last_name"] = df["names"].str.split(n = 1).str[1]
df
结果如下:

列合并方法 1
分割列搞定,接下来再合并回去,使用 cat
方法:
df["names_copy"] = df["first_name"].str.cat(df["last_name"], sep = " ")
df

合并两列得到一个新列 names_copy
搞定!
列合并方法 2
还有别的合并方法吗,直接使用 +
连接字符串:
df["names_copy2"] = df["first_name"] + " "+ df["last_name"]
df
效果是一样的:

Pandas 多条件筛选可读性较好的写法
有特征上百个,根据多个特征筛选 DataFrame 时,如果这么做,可读性不太友好:

df[(df["continent"] == "Europe") & (df["beer_servings"] > 150) & (df["wine_servings"] > 50) & (df["spirit_servings"] < 60)]
连续多个筛选条件写到一行里。
更好可读性的写法
cr1 = df["continent"] == "Europe"
cr2 = df["beer_servings"] > 150
cr3 = df["wine_servings"] > 50
cr4 = df["spirit_servings"] < 60
df[cr1 & cr2 & cr3 & cr4]
看完上述内容,你们对数据清洗常用的2个小trick分别是什么有进一步的了解吗?如果还想了解更多知识或者相关内容,请关注创新互联行业资讯频道,感谢大家的支持。文章题目:数据清洗常用的2个小trick分别是什么
URL网址:http://myzitong.com/article/gjhhcp.html