你的位置：在路上 > 工作和技术 > ProgrammingLanguage > Python > 【整理】Jieba分词

【整理】Jieba分词

Python crifan 6年前 (2019-09-03) 823浏览 0评论

自然语言处理时，通常的文本清理流程是什么？ – 知乎

-》

Jieba分词

fxsjy/jieba: 结巴中文分词

Python中文分词 jieba 十五分钟入门与进阶 – FontTian的专栏 – CSDN博客

nlp 分词 tokenize

自然语言处理之中文自动分词 | 白宁超的官网

https://bainingchao.github.io/2019/02/13/自然语言处理之中文自动分词/

paladin-t/tokenizer: 一个简单的中文分词算法，可用于网游脏词过滤、搜索引擎文档解析、自然语言处理等需要中文分词的场合。

Python 自然语言处理（基于jieba分词和NLTK） – Xy-Huang的博客 – CSDN博客

【总结】

jieba 结巴

功能：中文分词
口号：做最好的 Python 中文分词组件

“Jieba” (Chinese for “to stutter”) Chinese text segmentation: built to be the best Python Chinese word segmentation module.

特点：

精确模式：试图将句子最精确地切开，适合文本分析
全模式：把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义
搜索引擎模式：在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词
支持繁体分词
支持自定义词典
MIT 授权协议

转载请注明：在路上 » 【整理】Jieba分词

与本文相关的文章

分类

85 queries in 0.223 seconds, using 20.27MB memory