发布网友 发布时间:2024-09-30 07:33
共1个回答
热心网友 时间:2024-12-04 11:08
总结开源中文分词工具,以下列表供参考,欢迎大家补充,我会持续更新。
Jieba 分词
- 支持 Python Package Index
- 功能:分词、繁体分词、自定义词典、词性标注、关键词抽取
- 本地使用方便快速
NLPIR
- 功能:中文分词、词性标注、命名实体识别、自定义词典、微博分词、新词发现、关键词提取
- 本地使用,需要定期更新 License
StanfordCoreNLP
- 功能:中文分词及部分功能
- 不可在本地使用,需与平台连接
Smallseg
- 功能:分词、自定义词典
- 本地使用,兼容 Python2,少量代码调整后可兼容 Python3;速度快,可在 Google App Engine 上运行
Pymmseg
- 功能:分词、自定义词典
- 本地使用,快捷、占用内存小
THULAC(清华)
- 功能:中文分词、词性标注
- 能力强,准确率高,速度快
MMSEG(台湾)
- 功能:中文分词
- 本地使用
LTP(哈工大)
- 功能:分词、词性标注、句法分析
- 可在本地使用,提供云端接口
Fnlp(复旦)
- 功能:信息检索、文本分类、新闻聚类;中文处理、实体名识别、关键词抽取、依存句法分析、时间短语识别;结构化学习
- 本地使用,仅支持 Java 语言
Hanlp
- 功能:词法分析、句法分析、文本分类、情感分析
- 下载安装稍显复杂