Aho-Corasick算法 - ac算法
简称ac算法,用来分词用的,还有一个tree树算法,也是分词用的,不过ac更有优势
pyahocorasick这是Aho-Corasick算法实现的python库
这个不是单纯的python库,是c++实现,所以需要c++编译支持
不然执行安装就会报错
pip install pyahocorasick
就会报错
error: Microsoft Visual C++ 14.0 or greater is required. Get it with "Microsoft C++ Build Tools": https://visualstudio.microsoft.com/visual-cpp-build-tools/
直接取下载这个工具,然后单独安装需要的组件
我这里直接简单点,直接选择[使用c++的桌面开发],一键安装好所有需要的编译环境
然后就安装成功了
KeywordTokenizer构建非常的耗时,所以,这里可以做一个优化
可以将构建的 KeywordTokenizer 存储在磁盘上
目前实现的是,初次会在目录下生成tokenizer.pkl,如果keywords.txt有更新
就把tokenizer.pkl删除,重新生成即可
编辑:
阅读量:11
url链接:https://www.qozr.com/cms_ahocorasick-suan-fa.html
Tag标签: ac算法 , Aho-Corasick , 算法
上一篇: Elasticsearch相关记录
下一篇: php microtime 函数
更多新闻
Copyright © 千欧中软 版权所有 https://www.qozr.com seo | 网站建设 [渝ICP备15005074号] 渝公网安备50011802011077