python

Aho-Corasick算法 - ac算法


简称ac算法,用来分词用的,还有一个tree树算法,也是分词用的,不过ac更有优势


pyahocorasick这是Aho-Corasick算法实现的python库

这个不是单纯的python库,是c++实现,所以需要c++编译支持

不然执行安装就会报错

pip install pyahocorasick

就会报错

error: Microsoft Visual C++ 14.0 or greater is required. Get it with "Microsoft C++ Build Tools": https://visualstudio.microsoft.com/visual-cpp-build-tools/


直接取下载这个工具,然后单独安装需要的组件

我这里直接简单点,直接选择[使用c++的桌面开发],一键安装好所有需要的编译环境

然后就安装成功了


KeywordTokenizer构建非常的耗时,所以,这里可以做一个优化

可以将构建的 KeywordTokenizer 存储在磁盘上

目前实现的是,初次会在目录下生成tokenizer.pkl,如果keywords.txt有更新

就把tokenizer.pkl删除,重新生成即可



编辑:

阅读量:11

url链接:https://www.qozr.com/cms_ahocorasick-suan-fa.html

Tag标签: ac算法 , Aho-Corasick , 算法

同类新闻

更多新闻

Copyright © 千欧中软 版权所有 https://www.qozr.com seo | 网站建设 [渝ICP备15005074号] 渝公网安备50011802011077