脚本宝典收集整理的这篇文章主要介绍了

深度分析正则(pcre)最大回溯/递归限制

脚本宝典小编觉得挺不错的,现在分享给大家,也给大家做个参考,希望能帮助你少写一行代码,多一份安全和惬意。

今天,Tank问了一个问题, 对于如下的正则:

复制代码 代码如下:
/"; //长度大于100014
$ret = preg_replace($reg, "", $str); //返回NULL

难道正则对匹配的串有长度限制?
不是, 当然不是, 原因是这样的, 在PHP的pcre扩展中, 提供了俩个设置项.

复制代码 代码如下:
pcre.backtrack_limit //最大回溯数
pcre.recursion_limit //最大嵌套数

默认的backtarck_limit是100000(10万).
这个问题, 就和设置项backtrack_limit有关系. 现在要弄清这个问题的原因, 关键就是什么是”回溯”.
这个正则, 使用非贪婪模式, 非贪婪模式匹配原理简单来说是, 在可配也可不配的情况下, 优先不匹配. 记录备选状态, 并将匹配控制交给正则表达式的下一个匹配字符, 当之后的匹配失败的时候, 再溯, 进行匹配.
举个例子:

复制代码 代码如下:
源字符串: aaab
正则: .*?

匹配过程开始的时候, “.*?”首先取得匹配控制权, 因为是非贪婪模式, 所以优先不匹配, 将匹配控制交给下一个匹配字符”b”, “b”在源字符串位置1匹配失败(“a”), 于是回溯, 将匹配控制交回给”.*?”, 这个时候, “.*?”匹配一个字符”a”, 并再次将控制权交给”b”, 如此反复, 最终得到匹配结果, 这个过程中一共发生了3次回溯.
现在我们来看看文章开头的例子, 默认的backtrack_limit是100000, 而源字符串的开头是9个字符, 一共是99997个字符.
另外, 因为match函数自身的逻辑, 在文章开头的例子下, 会导致回溯计数增3(有兴趣的可以参看pcrelib/pcre_exec.c中match函数逻辑部分), 所以在匹配到"“之前, pcre中的回溯计数刚好是100000,于是就正常匹配, 退出.
而, 只要在增加一个字符, 就会导致回溯计数大于100000, 从而导致匹配失败退出.
在PHP 5.2以后, 提供了:

复制代码 代码如下:
int preg_last_error ( void )
Returns the error code of the last PCRE regex execution.

我们应该经常检查这个函数的返回值, 当不为零的时候说明上一个正则函数出错, 特别的对于文章的例子, 出错返回(PREG_BACKTRACK_LIMIT_ERROR)
最后, 在顺便说一句, 非贪婪模式导致太多回溯, 必然会有一些性能问题, 适当的该写下正则, 是可以避免这个问题的. 比如将文章开头例子中的正则修改为:

复制代码 代码如下:
/