数据分析之清洗与准备2

继续刚.

数据清洗与准备2

python在字符串和文本操作上具有很大的便利性,字符串对象是大部分的文本操作简单化,对于复杂的模式匹配和文本操作。正则表达式是可能需要的。pandas允许将字符串和正则表达式应用到整个数据数组上。同时也能处理数据缺失带来的问题

字符串操作

字符串对象方法

image-20200722224044234

查找和定位字符串

image-20200722224326066

index和find方法的区别在于,使用index方法没有找到时会抛出一个异常

计数和替换字符串

image-20200722224612390

正则表达式

python中提供了re模块进行正则表达式的使用,一般单个表达式称作为regex
re模块主要有三个主题:匹配,替代,拆分
image-20200722225807394

match和search和findall

image-20200722231848760

groups

​ 假设将每个地址分为三个部分.可以使用括号模式包起来
image-20200722233042459

pandas中向量化字符串函数

image-20200722234500724