1。表达式
如果理解了正则表示式中 . 和 * 之间的区别,那么就已经了解了元字符的两个基本类型。
“.”可以作为通配符匹配任何单个字符,如A.E,可以匹配AEE,ALE,ABE等
* 用于正则表达式中匹配它前面的零个或者多个单元。
你也许对*作为一个shell的元字符更熟悉,在shell中*表示零个或多个字符,但是在正则表示中,它本身不会匹配任何字符,它只用于表示它前面的单元内容。
元字符汇总
. | 匹配除换行符外的任意单个字符,在awk中,也能匹配换行符 |
* | 匹配任意个在它前面出现的字符 |
[...] | 匹配方括号中字符类中的任意一个。如果方括号中的第一个字符为^,则表示否定匹配,即匹配除了换行符和列出 的那些字符以外的所有字符。连字符 - 用于表示字符的范围。所以其他元字符在[]中时,都失去它们原来的含义。 |
^ | 如果作为正则表达式的第一个字符,则表示匹配行的开始 |
$ | 如果作为正则表达式的最后一个字符,则表示匹配行的结尾 |
\ | 匹配它前面字符出现的次数。 \表示匹配n次出现,\表示匹配至少n次,\表示匹配至少n次, 至多m次 |
\ | 转义随后的特殊字符 |
+ | 匹配一次或多次出现 |
? | 匹配零次或一次出现 |
| | 指定可以匹配其前面或后面的正则表达式 |
() | 对正则表达式分组 |
2。编写正则表达式
编写正则表达式的过程:
a)知道要匹配的内容以及它如何出现在文本中
b)编写一个模式来描述要匹配的内容
c)测试模式来查看它匹配的内容