每周一算法之六——KMP字符串匹配算法

简介: KMP是一种著名的字符串模式匹配算法,它的名称来自三个发明人的名字。这个算法的一个特点就是,在匹配时,主串的指针不用回溯,整个匹配过程中,只需要对主串扫描一遍就可以了。因此适合对大字符串进行匹配。搜了网上很多KMP的代码下来调试,发现不是下标越界,就是死循环的,相当诡异...最后重新拿起严老师那本《数据结构》来翻,各种费解,有个地方用下标值和字符串下标0的元素做判断,更是诡异了...过了一天,忽然觉悟了。

KMP是一种著名的字符串模式匹配算法,它的名称来自三个发明人的名字。这个算法的一个特点就是,在匹配时,主串的指针不用回溯,整个匹配过程中,只需要对主串扫描一遍就可以了。因此适合对大字符串进行匹配。

搜了网上很多KMP的代码下来调试,发现不是下标越界,就是死循环的,相当诡异...最后重新拿起严老师那本《数据结构》来翻,各种费解,有个地方用下标值和字符串下标0的元素做判断,更是诡异了...

过了一天,忽然觉悟了。网上这些代码都是来自《数据结构》或者和他同源的版本的,而它使用的是以下标1为起始的字符串!对这种字符串组织格式,下标0存放的是字符串的长度

可是如今主流的语言,几乎都是用的下标0作为起始,书本上的代码显然没法用,那就自己重写一个吧。

 

算法的原理

字符串匹配嘛,无非就是两个指针,分别指向主串和模式串,然后依次往后移,检查是否一致。在遇到不能匹配的情况时(简称“失配”),一般的方法,就是让两个指针回溯,主串指针往后再移动一位,从头开始匹配。这其中做了很多重复劳动,我们可以分析一下:

可以看到模式串在匹配到下标5时失配了。
我们抓出模式串和主串在前方匹配的5个字符,并在模式串部分的前端主串部分的后端找到了一对最长的相等的字串(不等于原来的串),用阴影标记一下,后面有用。

接着移动模式串,继续匹配:

看出什么规律了么?每次比较,其实都是“abaab”的前端后端的字串进行比较:
第一回是"abaa"vs"baab"
第二回是"aba"vs"aab"
第三回是"ab"vs"ab"
可见,只有在模式串部分的前端主串部分的后端重合的时候,才可能继续匹配。

是这样么?当然是的,因为我们之前找出的是最长的,相等的字串!

这样就能把中间无效的对比步骤省略,主串的指针不变,模式串的指针直接跳到下标2继续匹配。这里的下标2就等于最长相等字串的长度。

接着推广到更一般的情形:
假设主串s,模式串patten,s和patten分别在下标i,j处失配,

如果j>0,那么,
显而易见,'si-k...si-1' = 'patten0...pattenk-1',此串长度为k,故下一步模式串指针应当跳转到下标k继续匹配。
在这里,因为'si-k...si-1' = 'pattenj-k...pattenj-1',得到'patten0...pattenk-1' = 'pattenj-k...pattenj-1',所以给定patten和j的情况下,k的值也是固定的。

如果j=0,那么i应当往后挪一位,j不变,重头匹配

至此,对于给定的patten,可以得到一个j->k的映射关系,记为数组next,其中,k = next[j]:
next[j] = Max{ k | 0<=k<j 并且 'patten0...pattenk-1' = 'pattenj-k...pattenj-1' }
当且仅当j == 0时,next[j] = -1(-1其实是没有意义的,在这里为了计算方便)

 

依照这个定义,已经可以写出一个计算next的弱弱的实现了。不过我先买个关子,先把主串的匹配搞定再说。

 

主串匹配算法

有了之前的分析,主串匹配的代码基本就可以一蹴而就了(Java代码):

复制代码
static int Kmp(String s, String patten) {
    int i = 0, j = -1;
    int[] next = GetNext(patten);// 待实现

    while (i < s.length() && j < patten.length()) {
        if (j == -1 || s.charAt(i) == patten.charAt(j)) {
            i++;
            j++;
        } else {
            j = next[j];// 失配时跳转
        }
    }

    if (j == patten.length()) // 完全匹配
        return i - j;

    return -1;
}
复制代码

这儿有一处很巧妙地的地方:
next[0]是恒为-1的,所以如果在下标0处失配,则下一次循环j等于-1,i就会在循环中指向下一个字符,j也恢复为0。

 

模式串的next数组生成算法

看下面这张图

假设模式串上的下标i,模式串下的下标j,那么
显然next[5] = 2是由patteni=4 = pattenj=1推出的,
推广到一般的情况,也就是说当patten与自身错位匹配时,当他们在i,j(i>j)处匹配时,
此时可以得到next[i+1] = j+1
如果j = 0时就失配了的话,自然next[i+1]应当等于0

至此,写出代码也就不难了,有些小技巧却要注意一下(Java代码):

复制代码
static int[] GetNext(String s) {
    int i = 0, j = -1;
    int[] next = new int[s.length()];
    next[0] = -1; // 这个初始化时必须的

    while( i<s.length()-1)
    {
        if( j == -1 || s.charAt(i) == s.charAt(j))
        {
            i++;
            j++;
            next[i] = j;
        }
        else
        {
            j = next[j];// 当j在下标零处失配,代码会怎么执行呢?
        }
    }
    return next;
}
复制代码

 

这个求next数组的方式和KMP算法的主体是不是很像呢?

目录
相关文章
|
4月前
|
算法
字符串匹配算法(上)
字符串匹配算法(上)
44 0
|
1月前
|
算法
白话 KMP 算法
白话 KMP 算法
13 2
|
1月前
|
算法 Java 索引
算法基础:KMP算法详细详解
算法基础:KMP算法详细详解
|
5月前
|
机器学习/深度学习 算法 Serverless
基本的算法(续 2)之字符串匹配算法
基本的算法(续 2)之字符串匹配算法
34 0
|
8月前
|
存储 算法 C语言
KMP 字符串匹配算法
✅<1>主页:C语言的前男友 📃<2>知识讲解:KMP算法 🔥<3>创作者:C语言的前男友 ☂️<4>开发环境:Visual Studio 2022 🏡<5>系统环境:Windows 10 💬<6>前言:KMP 算法是一个非常牛逼的字符串匹配算法
|
存储 算法
数据结构与算法之美 | 字符串匹配算法原理讲解(Hash、KMP、BM、Sunday)
字符串的定位操作通常称作字符串的模式匹配,是各种字符串处理系统中最重要的操作之一,本文介绍Hash、KMP、BM、Sunday四种匹配算法。
数据结构与算法之美 | 字符串匹配算法原理讲解(Hash、KMP、BM、Sunday)
|
算法 C++
C++ 实现KMP字符串匹配算法
C++ 实现KMP字符串匹配算法
|
算法 JavaScript Go
一文帮你搞懂 | 串的模式匹配-朴素匹配和KMP算法及优化
目录 朴素模式匹配算法 KMP算法 求模式串的next数组 总结:求模式串的next数组 KMP算法优化
198 0
一文帮你搞懂 | 串的模式匹配-朴素匹配和KMP算法及优化
|
算法 Java
KMP字符串匹配算法
KMP算法是一种改进的字符串匹配算法,由D.E.Knuth,J.H.Morris和V.R.Pratt提出的,因此人们称它为克努特—莫里斯—普拉特操作(简称KMP算法)。KMP算法的核心是利用匹配失败后的信息,尽量减少模式串与主串的匹配次数以达到快速匹配的目的。
111 0
KMP字符串匹配算法
|
算法 C++
Horspool 字符串匹配算法
Horspool 字符串匹配算法对Boyer-Moore算法的简化算法。 Horspool 算法是一种基于后缀匹配的方法,是一种“跳跃式”匹配算法,具有sub-linear亚线性时间复杂度。 Horspool 算法:   对于每个搜索窗口,该算法将窗口内的最后一个字符和模式串中的最后一个字符进行比较。
1496 0

热门文章

最新文章