人不是一个字一个字地说的,文章是由句子组成的。 机器识别美丽的文字并欣赏汉语的广度和深度并非不可能。 但首先它需要转化为它可以识别的模式——单词。 分词是自然语言处理(NLP)中最底层、最基本的模块。 分词的准确性将直接影响文本分析的结果。
这里介绍一下著名的分词方法:结巴分词以及R语言中基本分词方法的使用。
口吃分词
中文分词的三种常见模式
三种模式均默认使用隐马尔可夫模型分词; 同时,口吃分词支持繁体中文分词和自定义词典方式。
导入模块:jieba
(1). 准确模式:
>>> test = '十堰有道教发祥地武当山'
>>> cut1 = jieba.cut(测试)
>>> 类型(剪切1)
>>> print('精确分词结果:',' '.join(cut1))
Cut1 无法直接查看。 ''.join(cut1)函数是指用空格来分隔cut1中的元素,然后可以通过print()函数查看。
精确分词结果:十堰有武当山,道教发祥地
(2)、全模式:
>>> cut2 = jieba.cut(测试, = True)
>>> print('全模式分词结果:',' '.join(cut2))
全模式分词结果:十堰有道教发祥地武当武当山
所有可能的词语都被考虑在内。 “精确模式”实际上有默认参数= False。 显然,full模式并不关心分词后是否存在语义歧义,而只是快速分离出所有可能的词,不适合文本分析。
(3)、搜索引擎模式:
>>> cut3 = jieba.(测试)
>>> print('搜索引擎模式分词结果:',' '.join(cut3))
搜索引擎模式分词结果:十堰有道教发祥地、武当山发祥地
搜索引擎模式也会给出所有可能的分词结果,但是对于字典中不存在的单词,比如一些生僻词、生词,搜索引擎模式可以给出正确的分词结果。
添加自定义词典
Path = '字典路径'
解霸。 (路径2)
然后就可以分段了。
提取关键词
对于一篇文章,提取关键词,例如指定提取5个关键词:
jieba..(dat,topK = 5)
注:个人测试,字典一般为.txt,默认为ASCII格式。 应该以utf8模式保存。 为什么? ——有中文。 其实帮助文档里就有。
更多用法:help('jieba') 更详细的介绍。
R语言结巴分词
R语言版“口吃”中文分词支持最大概率法、隐马尔可夫模型、索引模型、混合模型,共四种分词模式。 它还具有词性标注、关键词提取、文本相似度比较等功能。
包下载及安装:
>.('')
>.('')
> ()
> ()
分词
> 测试首先需要搭建分词引擎
> seg 这里“ seg (测试,seg)
[1]“革命”“还没有”“成功”“同志”“还在”“需要”“努力”
也就是说有两种写法:
(1)、>测试
>(测试,段)
vn dan zg v 广告
“革命”“还没有”“成功”“同志”“还”“需要”“努力”
这里 seg seg2> (测试,seg2)
6.13553
“同志”
距海明的距离:
计算中文文档的对应值。 它是用于文本去重的算法,目前广泛应用于文本处理中。 引擎首先进行分词和关键词提取,然后计算数值和汉明距离。
> 测试 > seg3> (测试,seg3)
$
[1]《》
$
6.13553 6.0229
“同志”“努力”
列出分词:
支持一次对多个列表(每个元素为文本)进行分词。
测试2>(列表(测试,测试2),段)
[[1]]
vn dan zg v 广告
“革命”“还没有”“成功”“同志”“还”“需要”“努力”
[[2]]
ns vnn ns
《十堰》《你》《道教》《发祥地》《武当山》
删除停用词
>分段
还有一些其他设置,例如:
():显示默认的词典路径,包括jieba.dict.utf8(最大概率法)、.utf8(隐式马尔可夫模型),这两个都是分词需要的词典; idf.utf8(TF-IDF算法)、.utf8(停用词词典),这两个词典用于关键词提取。
(name = "user"):默认编辑用户自定义词典,有两个参数值可供选择(可以打开并编辑jieba.dict.utf8)和(禁用词典)。
还有一些其他参数。 有关详细信息,请参阅帮助(“”)以获取更多详细信息。 学会使用帮助信息对于学习R语言非常重要。
其实我们可以帮你设置具体的分词引擎():help('')会有:
(类型=“mix”,dict=,hmm=,用户=,idf=,=,write=T,qmax=20,topn=5,=“UTF-8”,=T,=F,行=1e+05 ,= NULL,= F,=“最大”)
以下是一些参数:
类型、发动机类型
dict,系统词典
嗯,HMM模型路径
用户、用户词典
idf, 以色列国防军字典
,对关键词使用停止词汇库
write,是否将文件分割结果写入文件,默认FALSE
qmax,一个单词的最大字符数,默认20个字符
topn,关键词数量,默认5
,输入文件的编码,默认为UTF-8
,是否检查编码,默认TRUE
,是否保留符号,默认FALSE
lines,每次读取文件的最大行数,用于控制读取文件的长度。 大文件将被批量读取。
,输出路径
,按行输出
, 用户体重
欢迎留言和建议。 如果觉得不错的话记得点赞和分享哦!