摘要：介绍Python和R语言进行jieba分词的基本用法

2024-03-21 03:08:32 阅读 0

text函数法律一班_r语言t.test函数用法_函数test怎么用

人不是一个字一个字地说的，文章是由句子组成的。机器识别美丽的文字并欣赏汉语的广度和深度并非不可能。但首先它需要转化为它可以识别的模式——单词。分词是自然语言处理（NLP）中最底层、最基本的模块。分词的准确性将直接影响文本分析的结果。

这里介绍一下著名的分词方法：结巴分词以及R语言中基本分词方法的使用。

口吃分词

中文分词的三种常见模式

三种模式均默认使用隐马尔可夫模型分词；同时，口吃分词支持繁体中文分词和自定义词典方式。

导入模块：jieba

(1). 准确模式：

>>> test = '十堰有道教发祥地武当山'

>>> cut1 = jieba.cut(测试)

>>> 类型(剪切1)

>>> print('精确分词结果：',' '.join(cut1))

Cut1 无法直接查看。 ''.join(cut1)函数是指用空格来分隔cut1中的元素，然后可以通过print()函数查看。

精确分词结果：十堰有武当山，道教发祥地

(2)、全模式：

>>> cut2 = jieba.cut(测试, = True)

>>> print('全模式分词结果:',' '.join(cut2))

全模式分词结果：十堰有道教发祥地武当武当山

所有可能的词语都被考虑在内。 “精确模式”实际上有默认参数= False。显然，full模式并不关心分词后是否存在语义歧义，而只是快速分离出所有可能的词，不适合文本分析。

(3)、搜索引擎模式：

>>> cut3 = jieba.（测试）

>>> print('搜索引擎模式分词结果：',' '.join(cut3))

搜索引擎模式分词结果：十堰有道教发祥地、武当山发祥地

搜索引擎模式也会给出所有可能的分词结果，但是对于字典中不存在的单词，比如一些生僻词、生词，搜索引擎模式可以给出正确的分词结果。

添加自定义词典

Path = '字典路径'

解霸。（路径2）

然后就可以分段了。

提取关键词

对于一篇文章，提取关键词，例如指定提取5个关键词：

jieba..(dat,topK = 5)

注：个人测试，字典一般为.txt，默认为ASCII格式。应该以utf8模式保存。为什么？ ——有中文。其实帮助文档里就有。

更多用法：help('jieba') 更详细的介绍。

R语言结巴分词

R语言版“口吃”中文分词支持最大概率法、隐马尔可夫模型、索引模型、混合模型，共四种分词模式。它还具有词性标注、关键词提取、文本相似度比较等功能。

包下载及安装：

>.('')

> ()

分词

> 测试首先需要搭建分词引擎

> seg 这里“ seg (测试,seg)

[1]“革命”“还没有”“成功”“同志”“还在”“需要”“努力”

也就是说有两种写法：

(1)、>测试

>（测试，段）

vn dan zg v 广告

“革命”“还没有”“成功”“同志”“还”“需要”“努力”

这里 seg seg2> (测试,seg2)

6.13553

“同志”

距海明的距离：

计算中文文档的对应值。它是用于文本去重的算法，目前广泛应用于文本处理中。引擎首先进行分词和关键词提取，然后计算数值和汉明距离。

> 测试 > seg3> （测试，seg3）

[1]《》

6.13553 6.0229

“同志”“努力”

列出分词：

支持一次对多个列表（每个元素为文本）进行分词。

测试2>（列表（测试，测试2），段）

[[1]]

vn dan zg v 广告

“革命”“还没有”“成功”“同志”“还”“需要”“努力”

[[2]]

ns vnn ns

《十堰》《你》《道教》《发祥地》《武当山》

删除停用词

>分段

还有一些其他设置，例如：

()：显示默认的词典路径，包括jieba.dict.utf8（最大概率法）、.utf8（隐式马尔可夫模型），这两个都是分词需要的词典； idf.utf8（TF-IDF算法）、.utf8（停用词词典），这两个词典用于关键词提取。

(name = "user")：默认编辑用户自定义词典，有两个参数值可供选择（可以打开并编辑jieba.dict.utf8）和（禁用词典）。

还有一些其他参数。有关详细信息，请参阅帮助（“”）以获取更多详细信息。学会使用帮助信息对于学习R语言非常重要。

其实我们可以帮你设置具体的分词引擎():help('')会有：

（类型=“mix”，dict=，hmm=，用户=，idf=，=，write=T，qmax=20，topn=5，=“UTF-8”，=T，=F，行=1e+05 ，= NULL，= F，=“最大”）

以下是一些参数：

类型、发动机类型

dict，系统词典

嗯，HMM模型路径

用户、用户词典

idf, 以色列国防军字典

，对关键词使用停止词汇库

write，是否将文件分割结果写入文件，默认FALSE

qmax，一个单词的最大字符数，默认20个字符

topn，关键词数量，默认5

，输入文件的编码，默认为UTF-8

,是否检查编码,默认TRUE

,是否保留符号,默认FALSE

lines，每次读取文件的最大行数，用于控制读取文件的长度。大文件将被批量读取。

，输出路径

,按行输出

, 用户体重

欢迎留言和建议。如果觉得不错的话记得点赞和分享哦！

上一篇： Android简单计算器实现

下一篇：《有理数的力量》优秀教案

标签： jieba test 中文分词

排行榜

259℃1hustoj比赛作业里面的时间是什么含义，OI排名跟普通排名有何区别？
214℃2Ubuntu18.04搭建LAMP环境完成帝国CMS安装
212℃3LAMP环境如何搭建多站点
210℃4 linux 下基本文件操作
197℃5hustoj脚本把OJ装在哪里了？可以卸载么？
187℃6hustoj如何限制未登录用户访问？
170℃7hustoj比赛后题目看不见了怎么弄？
160℃8Apache如何做301重定向

图文教程

技术标签