php正则表达式

Posted on Posted in php
Tips: 本文创建于2013年11月27日,已超过 2 年,内容或图片可能已经失效!
  • "+"元字符规定其前导字符必须在目标对象中连续出现一次或多次
  • "*"元字符规定其前导字符必须在目标对象中出现零次或连续多次
  • "?"元字符规定其前导对象必须在目标对象中连续出现零次或一次

/fo+/
因为上述正则表达式中包含"+"元字符,表示可以与目标对象中的 "fool", "fo", 或者 "football"等在字母f后面连续出现一个或多个字母o的字符串相匹配

/eg*/
因为上述正则表达式中包含"*"元字符,表示可以与目标对象中的 "easy", "ego", 或者 "egg"等在字母e后面连续出现零个或多个字母g的字符串相匹配

/Wil?/
因为上述正则表达式中包含"?"元字符,表示可以与目标对象中的 "Win", 或者 "Wilson",等在字母i后面连续出现零个或一个字母l的字符串相匹配

/jim{2,6}/
上述正则表达式规定字符m可以在匹配对象中连续出现2-6次,因此,上述正则表达式可以同jimmy或jimmmmmy等字符串相匹配

####################################################################

  • \s:用于匹配单个空格符,包括tab键和换行符;
  • \S:用于匹配除单个空格符之外的所有字符;
  • \d:用于匹配从0到9的数字;
  • \w:用于匹配字母,数字或下划线字符;
  • \W:用于匹配所有与\w不匹配的字符;
  • . :用于匹配除换行符之外的所有字符。

(说明:我们可以把\s和\S以及\w和\W看作互为逆运算)

/\s+/
上述正则表达式可以用于匹配目标对象中的一个或多个空格字符

/\d000/
如果我们手中有一份复杂的财务报表,那么我们可以通过上述正则表达式轻而易举的查找到所有总额达千元的款项。

####################################################################

  • "^"定位符规定匹配模式必须出现在目标字符串的开头
  • "$"定位符规定匹配模式必须出现在目标对象的结尾
  • \b定位符规定匹配模式必须出现在目标字符串的开头或结尾的两个边界之一
  • "\B"定位符则规定匹配对象必须位于目标字符串的开头和结尾两个边界之内,即匹配对象既不能作为目标字符串的开头,也不能作为目标字符串的结尾
  • "^"和"$"以及"\b"和"\B"看作是互为逆运算的两组定位符

/^hell/
因为上述正则表达式中包含"^"定位符,所以可以与目标对象中以 "hell", "hello"或 "hellhound"开头的字符串相匹配。

/ar$/
因为上述正则表达式中包含"$"定位符,所以可以与目标对象中以 "car", "bar"或 "ar" 结尾的字符串相匹配。

/\bbom/
因为上述正则表达式模式以"\b"定位符开头,所以可以与目标对象中以 "bomb", 或 "bom"开头的字符串相匹配
/man\b/
因为上述正则表达式模式以"\b"定位符结尾,所以可以与目标对象中以 "human", "woman"或 "man"结尾的字符串相匹配。

####################################################################

/[A-Z]/
上述正则表达式将会与从A到Z范围内任何一个大写字母相匹配。
/[a-z]/
上述正则表达式将会与从a到z范围内任何一个小写字母相匹配。
/[0-9]/
上述正则表达式将会与从0到9范围内任何一个数字相匹配。

/([a-z][A-Z][0-9])+/
上述正则表达式将会与任何由字母和数字组成的字符串,如 "aB0" 等相匹配。这里需要提醒用户注意的一点就是可以在正则表达式中使用 "()" 把字符串组合在一起。"()"符号包含的内容必须同时出现在目标对象中。因此,上述正则表达式将无法与诸如 "abc"等的字符串匹配,因为"abc"中的最后一个字符为字母而非数字。
如果我们希望在正则表达式中实现类似编程逻辑中的"或"运算,在多个不同的模式中任选一个进行匹配的话,可以使用管道符 "|"。例如:
/to|too|2/
上述正则表达式将会与目标对象中的 "to", "too", 或 "2" 相匹配。

正则表达式中还有一个较为常用的运算符,即否定符 "[^]"。与我们前文所介绍的定位符 "^" 不同,否定符 "[^]"规定目标对象中不能存在模式中所规定的字符串。例如:
/[^A-C]/
上述字符串将会与目标对象中除A,B,和C之外的任何字符相匹配。一般来说,当"^"出现在 "[]"内时就被视做否定运算符;而当"^"位于"[]"之外,或没有"[]"时,则应当被视做定位符

当用户需要在正则表达式的模式中加入元字符,并查找其匹配对象时,可以使用转义符"\"。例如:
/Th\*/
上述正则表达式将会与目标对象中的"Th*"而非"The"等相匹配。

####################################################################

①PHP中可以使用ereg()函数进行模式匹配操作。ereg()函数的使用格式如下:

以下为引用的内容:
ereg(pattern, string)
其中,pattern代表正则表达式的模式,而string则是执行查找替换操作的目标对象。同样是验证邮件地址,使用PHP编写的程序代码如下:

[code lang="php"]
< ?php
if (ereg("^([a-zA-Z0-9_-])+@([a-zA-Z0-9_-])+(\.[a-zA-Z0-9_-])+",$email)){
echo "Your email address is correct!";}
else{
echo "Please try again!";
}
?>
[/code]

####################################################################

^ 和 $ 他们是分别用来匹配字符串的开始和结束,以下分别举例说明:

"^The":开头一定要有"The"字符串;
"of despair$":结尾一定要有"of despair" 的字符串;

那么,
"^abc$":就是要求以abc开头和以abc结尾的字符串,实际上是只有abc匹配;
"notice":匹配包含notice的字符串;

你可以看见如果你没有用我们提到的两个字符(最后一个例子),就是说模式(正则表达式)可以出现在被检验字符串的任何地方,你没有把他锁定到两边。

接着,说说 ‘*’ ‘+’ 和 ‘?’
他们用来表示一个字符可以出现的次数或者顺序,他们分别表示:
"zero or more"相当于{0,}
"one or more"相当于{1,}
"zero or one."相当于{0,1}

例子:

"ab*":和ab{0,}同义,匹配以a开头,后面可以接0个或者N个b组成的字符串("a", "ab", "abbb", 等);
"ab+":和ab{1,}同义,同上条一样,但最少要有一个b存在 ("ab" "abbb"等);
"ab?":和ab{0,1}同义,可以没有或者只有一个b;
"a?b+$":匹配以一个或者0个a再加上一个以上的b结尾的字符串。

要点:’*’ ‘+’ 和 ‘?’ 只管它前面那个字符。

你也可以在大括号里面限制字符出现的个数,比如:

"ab{2}": 要求a后面一定要跟两个b(一个也不能少)("abb");
"ab{2,}": 要求a后面一定要有两个或者两个以上b(如"abb" "abbbb" 等);
"ab{3,5}": 要求a后面可以有2-5个b("abbb", "abbbb", or "abbbbb")。

现在我们把一定几个字符放到小括号里,比如:

"a(bc)*": 匹配 a 后面跟0个或者一个"bc";
"a(bc){1,5}": 一个到5个 "bc";

还有一个字符 ‘|’,相当于OR操作:

"hi|hello": 匹配含有"hi" 或者 "hello" 的 字符串;
"(b|cd)ef": 匹配含有 "bef" 或者 "cdef"的字符串;
"(a|b)*c": 匹配含有这样多个(包括0个)a或b,后面跟一个c的字符串;

一个点(’.’)可以代表所有的单一字符,不包括"\n"

如果,要匹配包括"\n"在内的所有单个字符,怎么办?

用’[\n.]’这种模式。

"a.[0-9]": 一个a加一个字符再加一个0到9的数字;
"^.{3}$": 三个任意字符结尾。

中括号括住的内容只匹配一个单一的字符

"[ab]": 匹配单个的 a 或者 b ( 和 "a│b" 一样);
"[a-d]": 匹配’a’ 到’d’的单个字符 (和"a│b│c│d" 还有 "[abcd]"效果一样);

一般我们都用[a-zA-Z]来指定字符为一个大小写英文:

"^[a-zA-Z]": 匹配以大小写字母开头的字符串;
"[0-9]%": 匹配含有 形如 x% 的字符串;
",[a-zA-Z0-9]$": 匹配以逗号再加一个数字或字母结尾的字符串;

你也可以把你不想要得字符列在中括号里,你只需要在总括号里面使用’^’ 作为开头 "%[^a-zA-Z]%" 匹配含有两个百分号里面有一个非字母的字符串。

要点:^用在中括号开头的时候,就表示排除括号里的字符。

为了PHP能够解释,你必须在这些字符面前后加",并且将一些字符转义。

不要忘记在中括号里面的字符是这条规路的例外—在中括号里面,所有的特殊字符,包括("),都将失去他们的特殊性质 "[*\+?{}.]"匹配含有这些字符的字符串:

还有,正如regx的手册告诉我们:"如果列表里含有’]’,最好把它作为列表里的第一个字符(可能跟在’^’后面)。如果含有’-’,最好把它放在最前面或者最后面, or 或者一个范围的第二个结束点[a-d-0-9]中间的‘-’将有效。

看了上面的例子,你对{n,m}应该理解了吧。要注意的是,n和m都不能为负整数,而且n总是小于m。这样,才能 最少匹配n次且最多匹配m次。如"p{1,5}"将匹配 "pvpppppp"中的前五个p

下面说说以\开头的

\b 书上说他是用来匹配一个单词边界,就是…比如’ve\b’,可以匹配love里的ve而不匹配very里有ve

\B 正好和上面的\b相反。例子我就不举了

####################################################################

构建一个匹配模式去检查输入的信息是否为一个表示money的数字。我们认为一个表示money的数量有四种方式:"10000.00″ 和 "10,000.00″,或者没有小数部分,"10000″ and "10,000″。现在让我们开始构建这个匹配模式:

^[1-9][0-9]*$

这是所变量必须以非0的数字开头。但这也意味着单一的"0″也不能通过测试。以下是解决的方法:

^(0|[1-9][0-9]*)$

"只有0和不以0开头的数字与之匹配",我们也可以允许一个负号在数字之前:

^(0|-?[1-9][0-9]*)$

这就是:0或者一个以0开头且可能有一个负号在前面的数字。好了,现在让我们别那么严谨,允许以0开头。现在让我们放弃负号,因为我们在表示钱币的时候并不需要用到。我们现在指定模式用来匹配小数部分:

^[0-9]+(\.[0-9]+)?$

这暗示匹配的字符串必须最少以一个阿拉伯数字开头。但是注意,在上面模式中 "10." 是不匹配的, 只有 "10″ 和 "10.2″ 才可以,你知道为什么吗?

^[0-9]+(\.[0-9]{2})?$

我们上面指定小数点后面必须有两位小数。如果你认为这样太苛刻,你可以改成:

^[0-9]+(\.[0-9]{1,2})?$

这将允许小数点后面有一到两个字符。现在我们加上用来增加可读性的逗号(每隔三位),我们可以这样表示:

^[0-9]{1,3}(,[0-9]{3})*(\.[0-9]{1,2})?$

不要忘记’+’可以被’*’替代如果你想允许空白字符串被输入话,也不要忘记反斜杆’\’在php字符串中可能会出现错误 (很普遍的错误):

现在,我们已经可以确认字符串了,我们现在把所有逗号都去掉str_replace(",", "", $money)然后在把类型看成double然后我们就可以通过他做数学计算了。

####################################################################

再来一个:

构造检查email的正则表达式

在一个完整的email地址中有三个部分:

1. 用户名 (在 ‘@’ 左边的一切)
2.’@’
3. 服务器名(就是剩下那部分)

用户名可以含有大小写字母阿拉伯数字,句号(’.’)减号(’-’)and下划线’_’)。服务器名字也是符合这个规则,当然下划线除外。

现在,用户名的开始和结束都不能是句点,服务器也是这样。还有你不能有两个连续的句点他们之间至少存在一个字符,好现在我们来看一下怎么为用户名写一个匹配模式:

^[_a-zA-Z0-9-]+$

现在还不能允许句号的存在。我们把它加上:

^[_a-zA-Z0-9-]+(\.[_a-zA-Z0-9-]+)*$

上面的意思就是说:以至少一个规范字符(除了.)开头,后面跟着0个或者多个以点开始的字符串。

简单化一点, 我们可以用eregi()取代ereg()、eregi()对大小写不敏感, 我们就不需要指定两个范围 "a-z" 和 "A-Z"只需要指定一个就可以了:

^[_a-z0-9-]+(\.[_a-z0-9-]+)*$

后面的服务器名字也是一样,但要去掉下划线:

^[a-z0-9-]+(\.[a-z0-9-]+)*$

好。现在只需要用"@"把两部分连接:

^[_a-z0-9-]+(\.[_a-z0-9-]+)*@[a-z0-9-]+(\.[a-z0-9-]+)*$

这就是完整的email认证匹配模式了,只需要调用:

eregi("^[_a-z0-9-]+(\.[_a-z0-9-]+)*@[a-z0-9-]+(\.[a-z0-9-]+)*$",$eamil)

就可以得到是否为email了

正则表达式的其他用法

提取字符串

ereg() and eregi() 有一个特性是允许用户通过正则表达式去提取字符串的一部分(具体用法你可以阅读手册)。比如说,我们想从 path/URL 提取文件名,下面的代码就是你需要:

ereg("([^\\/]*)$", $pathOrUrl, $regs);
echo $regs[1];

高级的代换

ereg_replace() 和 eregi_replace()也是非常有用的,假如我们想把所有的间隔负号都替换成逗号:

ereg_replace("[ \n\r\t]+", ",", trim($str));

最后,我把另一串检查EMAIL的正则表达式让看文章的你来分析一下:

[code lang="php"]
"^[-!#$%&\’*+\\./0-9=?A-Z^_`a-z{|}~]+’.’@’.’[-!#$%&\’*+\\/0-9=?A-Z^_`a-z{|}~]+\.’.’[-!#$%&\’*+\\./0-9=?A-Z^_`a-z{|}~]+$"
[/code]

####################################################################

正则表达式语法
正则表达式 将会匹配

  • foo ——————字符串"foo"
  • ^foo ——————以"foo"开头的字符串
  • foo$ ——————以"foo"结尾的字符串
  • ^foo$ ——————"foo"开头和结尾,(只能是他自己 )
  • [abc]—————— a 或者b 或者c
  • [a-z] —————— a到z之间任意字母
  • [^A-Z]——————除了 A-Z这些之外的字符
  • (gif|jpg)——————"gif"或者 "jpeg"
  • [a-z]+—————— 一个或者多个 a到z之间任意字母
  • [0-9.-]—————— 0-9之间任意数字,或者 点 或者 横线
  • ^[a-zA-Z0-9_]{1,}$—————— 至少一个字母数字下划线
  • ([wx])([yz])—————— wy或wz或xy或xz
  • [^A-Za-z0-9]—————— 字符数字之外的字符
  • ([A-Z]{3}|[0-9]{4})—————— 三个大写字母或者4个数字

php 正则表达式的方法
方法描述:

  1. preg_match() 该函数preg_match按照模式去匹配字符串,如果符合则返回TRUE,否则返回FALSE
  2. preg_match_all() 该函数 preg_match_all() 在字符串中匹配出全部符合模式的字符串.
  3. preg_replace() 该函数与ereg_replace()类似,不同在于它利用匹配的模式去替换输入的参数
  4. preg_split() 该函数与split()类似 不同在于它将与正则表达式匹配的字符当做分割的模式
  5. preg_grep() 该函数preg_grep() 匹配数组中全部元素,返回符合正则表达式的元素组成的数组
  6. preg_quote() 转义正则表达式字符

验证域名
检验一个字符串是否是个有效域名.

[code lang="php"]
$url = "http://komunitasweb.com/";
if (preg_match(‘/^(http|https|ftp)://([A-Z0-9][A-Z0-9_-]*(?:.[A-Z0-9][A-Z0-9_-]*)+):?(d+)?/?/i’, $url)) {
echo "Your url is ok.";
} else {
echo "Wrong url.";
}
[/code]

从一个字符串中 突出某个单词
这是一个非常有用的在一个字符串中匹配出某个单词 并且突出它,非常有效的搜索结果

[code lang="php"]
$text = "Sample sentence from KomunitasWeb, regex has become popular in web programming. Now we learn regex. According to wikipedia, Regular expressions (abbreviated as regex or
regexp, with plural forms regexes, regexps, or regexen) are written in a formal language that can be interpreted by a regular expression processor";
$text = preg_replace("/b(regex)b/i", ‘<span style="background:#5fc9f6″>1</span>’, $text);
echo $text;
[/code]

突出查询结果在你的 WordPress 博客里
就像刚才我说的,上面的那段代码可以很方便的搜索出结果,而这里是一个更好的方式去执行搜索在某个WordPress的博客上
打开你的文件 search.php ,然后找到 方法 the_title() 然后用下面代码替换掉它
echo $title;Now, just before the modified line, add this code:
$title = get_the_title();
$keys= explode(" ",$s);
$title = preg_replace(‘/(‘.implode(‘|’, $keys) .’)/iu’,
\0’,
$title);
?>Save the search.php file and open style.css. Append the following line to it:
strong.search-excerpt { background: yellow; }
从HTML文档中获得全部图片
如果你曾经希望去获得某个网页上的全部图片,这段代码就是你需要的,你可以轻松的建立一个图片下载机器人

[code lang="php"]
$images = array();
preg_match_all(‘/(img|src)=("|’)[^"'>]+/i’, $data, $media);
unset($data);
$data=preg_replace(‘/(img|src)("|’|="|=’)(.*)/i’,"$3″,$media[0]);
foreach($data as $url)
{
$info = pathinfo($url);
if (isset($info['extension']))
{
if (($info['extension'] == ‘jpg’) ||
($info['extension'] == ‘jpeg’) ||
($info['extension'] == ‘gif’) ||
($info['extension'] == ‘png’))
array_push($images, $url);
}
}
[/code]

删除重复字母
经常重复输入字母? 这个表达式正适合.

[code lang="php"]
$text = preg_replace("/s(w+s)1/i", "$1″, $text);
[/code]

删除重复的标点
功能同上,但只是面对标点,白白重复的逗号
$text = preg_replace("/.+/i", ".", $text);
匹配一个XML或者HTML标签
这个简单的函数有两个参数:第一个是你要匹配的标签,第二个是包含XML或HTML的变量,再强调下,这个真的很强大

[code lang="php"]
function get_tag( $tag, $xml ) {
$tag = preg_quote($tag);
preg_match_all(‘{&lt;’.$tag.’[^&gt;]*&gt;(.*?).’}',
$xml,
$matches,
PREG_PATTERN_ORDER);
return $matches[1];
}
[/code]

匹配具有属性值的XML或者HTML标签
这个功能和上面的非常相似,但是它允许你匹配的标签内部有属性值,例如你可以轻松匹配

[code lang="php"]
function get_tag( $attr, $value, $xml, $tag=null ) {
if( is_null($tag) )
$tag = ‘\w+’;
else
$tag = preg_quote($tag);
$attr = preg_quote($attr);
$value = preg_quote($value);
$tag_regex = "/<(".$tag.")[^>]*$attr\s*=\s*".
"(['\"])$value\\2[^>]*>(.*?)<\/\\1>/"
preg_match_all($tag_regex,
$xml,
$matches,
PREG_PATTERN_ORDER);
return $matches[3];
}
[/code]

匹配十六进制颜色值
web开发者的另一个有趣的工具,它允许你匹配和验证十六进制颜色值.

[code lang="php"]
$string = "#555555″;
if (preg_match(‘/^#(?:(?:[a-fd]{3}){1,2})$/i’, $string)) {
echo "example 6 successful.";
}
[/code]

查找页面 title
这段代码方便查找和打印 网页和之间的内容

[code lang="php"]
$fp = fopen("http://www.catswhocode.com/blog","r");
while (!feof($fp) ){
$page .= fgets($fp, 4096);
}
$titre = eregi("(.*)",$page,$regs);
echo $regs[1];
fclose($fp);
[/code]

解释 Apache 日志
大多数网站使用的都是着名的Apache服务器,如果你的网站也是,那么使用PHP正则表达式解析 apache 服务器日志 怎么样?

[code lang="bash"]
//Logs: Apache web server
//Successful hits to HTML files only. Useful for counting the number of page views.
‘^((?#client IP or domain name)S+)s+((?#basic authentication)S+s+S+)s+[((?#date and time)[^]]+)]s+"(?:GET|POST|HEAD) ((?#file)/[^ ?"]+?.html?)??((?#parameters)[^ ?"]+)? HTTP/[0-9.]+"s+(?#status code)200s+((?#bytes transferred)[-0-9]+)s+"((?#referrer)[^"]*)"s+"((?#user agent)[^"]*)"$’
//Logs: Apache web server
//404 errors only
‘^((?#client IP or domain name)S+)s+((?#basic authentication)S+s+S+)s+[((?#date and time)[^]]+)]s+"(?:GET|POST|HEAD) ((?#file)[^ ?"]+)??((?#parameters)[^ ?"]+)? HTTP/[0-9.]+"s+(?#status code)404s+((?#bytes transferred)[-0-9]+)s+"((?#referrer)[^"]*)"s+"((?#user agent)[^"]*)"$’
[/code]

使用智能引号代替双引号
如果你是一个印刷爱好者,你将喜欢这个允许用智能引号代替双引号的正则表达式,这个正则被WORDPRESS在其内容上使用
preg_replace(‘B"b([^"x84x93x94rn]+)b"B’, ‘?1?’, $text);
检验密码的复杂度
这个正则表达式将检测输入的内容是否包含6个或更多字母,数字,下划线和连字符. 输入必须包含至少一个大写字母,一个小写字母和一个数字
‘A(?=[-_a-zA-Z0-9]*?[A-Z])(?=[-_a-zA-Z0-9]*?[a-z])(?=[-_a-zA-Z0-9]*?[0-9])[-_a-zA-Z0-9]{6,}z’
WordPress: 使用正则获得 帖子上的图片
我知道很多人是WORDPRESS的使用者,你可能会喜欢并且愿意使用 那些从帖子的内容检索下来的图像代码。使用这个代码在你的BLOG只需要复制下面代码到你的某个文件里

[code lang="php"]
<?php if (have_posts()) : ?>
<?php while (have_posts()) : the_post(); ?>
<?php
$szPostContent = $post->post_content;
$szSearchPattern = ‘~<img [^>]* />~’;
// Run preg_match_all to grab all the images and save the results in $aPics
preg_match_all( $szSearchPattern, $szPostContent, $aPics );
// Check to see if we have at least 1 image
$iNumberOfPics = count($aPics[0]);
if ( $iNumberOfPics > 0 ) {
// Now here you would do whatever you need to do with the images
// For this example the images are just displayed
for ( $i=0; $i < $iNumberOfPics ; $i++ ) {
echo $aPics[0][$i];
};
};
endwhile;
endif;
?>
[/code]

自动生成笑脸图案
被WordPress使用的另一个方法, 这段代码可使你把图像自动更换一个笑脸符号

[code lang="php"]
$texte=’A text with a smiley ‘;
echo str_replace(‘:-)’,'<img alt="" src=""smileys/souriant.png"" />’,$texte);</div>
[/code]

参考 PHP正则表达式的快速学习方法 15个实用的PHP正则表达式

» 转载请注明来源:若我若鱼 » php正则表达式

Leave a Reply

Your email address will not be published. Required fields are marked *

seven − four =