• 软件测试技术
  • 软件测试博客
  • 软件测试视频
  • 开源软件测试技术
  • 软件测试论坛
  • 软件测试沙龙
  • 软件测试资料下载
  • 软件测试杂志
  • 软件测试人才招聘
    暂时没有公告

字号: | 推荐给好友 上一篇 | 下一篇

Python的几个文字处理小技巧

发布: 2007-7-04 20:06 | 作者: admin | 来源:  网友评论 | 查看: 26次 | 进入软件测试论坛讨论

领测软件测试网  一直以来,Perl都是以特强的文字处理功能著称,其实Python在这方面也相当不错。最近在项目中用到不少Python可圈可点的东西,在这里大概列一下,权当自己的Python Tips。

1、如果获取邮件地址?
我们分析邮件的时候,从From和To头信息中会提取到类似“DIrk Ye ”的邮件地址,如果我们需要只保留完整的EMail地址,可能需要正则表达式来提取,由于邮件格式的多样性,可能比较麻烦。Python提供了一个工具函数,可以方便的使用:

import email.Utils

def getCleanMailAddress(strAddr):
   emails = email.Utils.parseaddr(strAddr.lower())
   return emails[1]


2、利用Mimetypes确定文件的扩展名:
在邮件分析中,经常会碰到没有指定文件名或者扩展名的附件,我们可以根据附件的MimeType来猜测其应有的扩展名:

import mimetypes

def getFileExtension(strContentType):
   guessmimes = mimetypes.guess_all_extensions(strContentType)
   if guessmimes:
     return guessmimes[-1]
   else:
     return ''

另外,mimetypes.types_map中包含了所有运行系统可识别的MimeType,如果没有你期望的类型,可以通过mimetypes.add_type(’audio/midi’, ‘.mid’)方法来添加自己的东西,甚至可以作出修改。

3、使用证则表达式从字符串中提取指定的模式:
Python的正则表达式也是非常强大的,有搜索、匹配、抽取等。有时候抽取是有点麻烦但非常有用的功能。假设我们会有大量的文本类似:

abcd@mypdx.com
aaaa@mypdx.com
n234f@mypdx.com

其中前半部分的名称都是数字和字母的组合,现在我们使用证则表达式抽取名字部分:

import re

def getUserName(strAddr):
   addr_re = re.compile('^([0-9a-z]+)@(.*)')
   unames = addr_re.search(strAddr)
   if unames is not None:
     return mptos.group(1)
   else:
     return ''

Python在文字处理方面还有很多特点,我只能把用到的东西列一下。有不少专门讲解Python相关东西的书籍,有的还是免费的;比如专门讲解Python文本处理的Text Processing in Python,实用而精彩,而另外一本Python Cookbook也是相当不错的读物,现在已经有第二版了,覆盖了Python2.3、2.4的新特性;去Python主站看看有什么适合你的书:http://wiki.python.org/moin/PythonBooks

Python Cookbook相关的两篇文章:

Cooking with Python, Part 1
Cooking with Python, Part 2

延伸阅读

文章来源于领测软件测试网 https://www.ltesting.net/


关于领测软件测试网 | 领测软件测试网合作伙伴 | 广告服务 | 投稿指南 | 联系我们 | 网站地图 | 友情链接
版权所有(C) 2003-2010 TestAge(领测软件测试网)|领测国际科技(北京)有限公司|软件测试工程师培训网 All Rights Reserved
北京市海淀区中关村南大街9号北京理工科技大厦1402室 京ICP备10010545号-5
技术支持和业务联系:info@testage.com.cn 电话:010-51297073

软件测试 | 领测国际ISTQBISTQB官网TMMiTMMi认证国际软件测试工程师认证领测软件测试网