(方法总结)Python 从字符串中快速提取中文---三大法
已知字符串a_str = '404 not found 张三 23 深圳', 每个词中间都是空格, 要求只输出字符串中的中文?方法一:使用正则表达式: \w+, re.A即指ASCII编码, 可匹配除中文以外的单词字符, 得到新列表利用 去同存异 的方法a_str = '404 not found 张三 23 深圳'import rea_list = a_str.spli...
·
已知字符串 a_str = '404 not found 张三 23 深圳', 每个词中间都是空格, 要求只输出字符串中的中文?
方法一:
- 使用正则表达式: \w+, re.A即指ASCII编码, 可匹配除中文以外的单词字符, 得到新列表
- 利用 去同存异 的方法
a_str = '404 not found 张三 23 深圳'
import re
a_list = a_str.split(" ") # ['404', 'not', 'found', '张三', '23', '深圳']
res = re.findall(r'\w+', a_str, re.A) # ['404', 'not', 'found', '23']
new_list = []
for i in a_list:
if i not in res:
new_list.append(i)
print(" ".join(new_list))
# 输出结果
张三 深圳
方法二:
- 正则表达式: [\u4e00-\u9fa5], 只匹配汉字
- 依据汉字的Unicode码表: 从u4e00~u9fa5, 即代表了符合汉字GB18030规范的字符集
import re
a_str = '404 not found 张三 23 深圳'
a_list = re.findall(r'[\u4e00-\u9fa5]', a_str)
print(a_list)
# 输出结果
['张', '三', '深', '圳']
方法三:
- 正则表达式: [^\x00-\xff], 只匹配非ASCII码字符(也称双字节字符), 利用汉字为: 双字节字符的原理
import re
a_str = '404 not found 张三 23 深圳'
a_list = re.findall(r'[^\x00-\xff]', a_str)
print(a_list)
# 输出结果
['张', '三', '深', '圳']
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
已为社区贡献7条内容
所有评论(0)