浅谈正则

前言

最近遇到这样一段代码

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
var reg= /<td class="bold">(\d+)<\/td><td class="xxxx">([\d\,]+?)<\/td>/
match=str.match(reg);

if(!match) throw new Error('数据不正确');


try{
var data={
type:type,
time:match[1].replace(/^(\d{4})(\d{2})(\d{2})\d{2}/, '$1-$2-$3 ')",
number:match[1].replace(/^(\d{8})(\d{2})$/, '$1-$2'),
data:match[2]
};
return data;
}catch(err){
throw('解析数据失败');
}

正则匹配的过程很好看懂,但是后面match[1]match[2]是什么鬼啊,还有replace(/^(\d{8})(\d{2})$/, '$1-$2')中第二个参数是什么含义也搞不懂,平时总用不到正则,导致我前前后后重新看了好几遍,第一遍大致了解了所有元字符含义(但是时间久就忘记了);第二次好像是发现了贪婪模式和懒惰模式;这次又学会了反向引用,之后没准又发现漏掉什么重点,所以赶紧整理一下

概述

首先正则表达式的出现是为了描述或者匹配一系列匹配某个句法规则的字符串,一个正则表达式通常被称为一个模式(pattern),目前大部分语言都支持正则匹配,所以也算是一种通用技术

正则表达式,又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。在很多文本编辑器里,正则表达式通常被用来检索、替换那些匹配某个模式的文本。

许多程序设计语言都支持利用正则表达式进行字符串操作。例如,在Perl中就内建了一个功能强大的正则表达式引擎。正则表达式这个概念最初是由Unix中的工具软件(例如sed和grep)普及开的。正则表达式通常缩写成“regex”,单数有regexp、regex,复数有regexps、regexes、regexen。

匹配原理

详戳菜鸟驿站-正则表达式,是目前我找到的最详细全面的介绍

关于贪婪模式

正则引擎默认是贪婪模式,什么是贪婪模式呢?贪婪模式是尽可能多的匹配所搜索的字符串。例如,对于字符串 ooooo+? 将匹配单个 o,而 o+ 将匹配所有 o。其中后者就是贪婪模式,防止贪婪模式的方法就是在量词(*, +, ?, {n}, {n,}, {n,m}) 后面加一个如果你想要在一个字符串Hello World中匹配以He开头的单词,那肯定要用非贪婪模式,因为我要返回对象是一个匹配的集合,而不是布尔

关于反向引用

对一个正则表达式模式或部分模式两边添加圆括号将导致相关匹配存储到一个临时缓冲区中,所捕获的每个子匹配都按照在正则表达式模式中从左到右出现的顺序存储。缓冲区编号从 1 开始,最多可存储 99 个捕获的子表达式。每个缓冲区都可以使用 ‘\n’ 访问,其中 n 为一个标识特定缓冲区的一位或两位十进制数。
可以使用非捕获元字符 ‘?:’、’?=’ 或 ‘?!’ 来重写捕获,忽略对相关匹配的保存。

这个就是前言中match[1]match[2]的原理,其实match[1]match[2]代表的是两个子匹配的值而已

不同语言中的区别

虽然匹配规则都是一样的语法,但是不同语言中的用法和返回对象是不同的,js中在/pattern/后面加修饰符mgi分别表示多行匹配、全局匹配、不区分大小写匹配;而C#中是通过构造函数多传一个枚举值达到类似效果

在匹配对象的属性和方法中,C#和js也有很大区别,C#匹配集合几乎没有什么方法,只有几个value,length,index的属性,而js中扩展了很多内容,比如RegExp对象新增了test()exec()以及 compile()方法,而且js中String对象也扩展了关于正则表达式的方法,包括search,match,replace,split,前言中的match[1].replace([pattern],[replacement])就是如此,此方法的第一个参数是一个正则规则,第二个参数通过$代表子表达式或者子串用来生成新的串