博客
关于我
26:算法--以自动机实现的字符串匹配
阅读量:735 次
发布时间:2019-03-21

本文共 2578 字,大约阅读时间需要 8 分钟。

字符匹配

性质

字符串匹配是一种常见的数据处理任务,旨在在源字符串中查找与给定模式完全匹配的位置。在这个过程中,算法需要同时考虑模式的长度以及源字符串的长度。

接口设计

类 CharacterMatch

template
class CharacterMatch {public: CharacterMatch(); ~CharacterMatch();public: DataStruct::Array::DynArray
& RunInAutoMachine( const DataStruct::Array::DynArray
& arrPattern_, const DataStruct::Array::DynArray
& arrSource_ );};

实现

构造函数

template
CharacterMatch
::CharacterMatch() {}

析构函数

template
CharacterMatch
::~CharacterMatch() {}

算法运行

template
DataStruct::Array::DynArray
&CharacterMatch
::RunInAutoMachine( const DataStruct::Array::DynArray
& arrPattern_, const DataStruct::Array::DynArray
& arrSource_) { int _nPatternLen = arrPattern_.GetSize(); int _nSourceLen = arrSource_.GetSize(); int _nPreMaxMatchLen = 0; int _nCurMaxMatchLen = 0; DataStruct::Array::DynArray
_arrRet; for (int _i = 0; _i < _nSourceLen; _i++) { if (_nPreMaxMatchLen == _nPatternLen) { int _nCurMayMaxMatchLen = _nPreMaxMatchLen; while (_nCurMayMaxMatchLen > 0) { bool _bSuccess = true; int _k = 0; while (_k < _nCurMayMaxMatchLen) { if (arrSource_(_i - _k) == arrPattern_(_nCurMayMaxMatchLen - 1 - _k)) { _k++; } else { break; } } if (_k == _nCurMayMaxMatchLen) { _bSuccess = true; } else { _bSuccess = false; } if (_bSuccess) { _nCurMaxMatchLen = _nCurMayMaxMatchLen; break; } } } else { if (arrSource_(_i) == arrPattern_(_nPreMaxMatchLen)) { _nCurMaxMatchLen = _nPreMaxMatchLen + 1; } else { int _nCurMayMaxMatchLen = _nPreMaxMatchLen; while (_nCurMayMaxMatchLen > 0) { bool _bSuccess = true; int _k = 0; while (_k < _nCurMayMaxMatchLen) { if (arrSource_(_i - _k) == arrPattern_(_nCurMayMaxMatchLen - 1 - _k)) { _k++; } else { break; } } if (_k == _nCurMayMaxMatchLen) { _bSuccess = true; } else { _bSuccess = false; } if (_bSuccess) { _nCurMaxMatchLen = _nCurMayMaxMatchLen; break; } } } if (_nCurMaxMatchLen == _nPatternLen) { _arrRet.Add(_i - _nPatternLen + 1); } _nPreMaxMatchLen = _nCurMaxMatchLen; } } return _arrRet;}

算法目标与正确性证明

算法目标

通过线性扫描源字符串,找到与模式匹配的所有起始位置。本算法结合了暴力匹配和回溯机制,以确保在最佳匹配点停止搜索。

正确性证明

循环不变式

在每次迭代开始时,当前位置之前的所有字符与模式的最大匹配长度保持不变。

证明过程

  • 初始化阶段:在首次迭代前,_nPreMaxMatchLen = 0,循环不变式成立。
  • 迭代过程:假设在第 $k`` 次迭代开始时,_nPreMaxMatchLen` 表示上一次匹配结束后可以与模式达到最大匹配长度。当检查当前字符时:
    • 如果当前字符与模式的下一个字符匹配,则当前最大匹配长度增加。
    • 如果当前字符与模式的下一个字符不匹配,则回溯匹配长度,寻求更短的子序列。
  • 终止条件:一旦当前匹配长度达到模式长度,则记录当前位置作为匹配起点。
  • 循环不变式维持:通过逐步增加或回退匹配长度,确保了循环不变式的持久性。
  • 通过上述步骤,可以确保每次迭代都能正确更新最大匹配长度,从而完成所有匹配起始位置的搜索。

    转载地址:http://lxmgz.baihongyu.com/

    你可能感兴趣的文章
    MySQL中的IO问题分析与优化
    查看>>
    MySQL中的ON DUPLICATE KEY UPDATE详解与应用
    查看>>
    mysql中的rbs,SharePoint RBS:即使启用了RBS,内容数据库也在不断增长
    查看>>
    mysql中的undo log、redo log 、binlog大致概要
    查看>>
    Mysql中的using
    查看>>
    MySQL中的关键字深入比较:UNION vs UNION ALL
    查看>>
    mysql中的四大运算符种类汇总20多项,用了三天三夜来整理的,还不赶快收藏
    查看>>
    mysql中的字段如何选择合适的数据类型呢?
    查看>>
    MySQL中的字符集陷阱:为何避免使用UTF-8
    查看>>
    mysql中的数据导入与导出
    查看>>
    MySQL中的时间函数
    查看>>
    mysql中的约束
    查看>>
    MySQL中的表是什么?
    查看>>
    mysql中穿件函数时候delimiter的用法
    查看>>
    Mysql中索引的分类、增删改查与存储引擎对应关系
    查看>>
    Mysql中索引的最左前缀原则图文剖析(全)
    查看>>
    MySql中给视图添加注释怎么添加_默认不支持_可以这样取巧---MySql工作笔记002
    查看>>
    Mysql中获取所有表名以及表名带时间字符串使用BetweenAnd筛选区间范围
    查看>>
    Mysql中视图的使用以及常见运算符的使用示例和优先级
    查看>>
    Mysql中触发器的使用示例
    查看>>