最近有几个群友询问Knime如何进行中文文本分析。 虽然我对自然语言处理不是很熟悉,但是看了几个例子之后,还是尝试了一下,发现可以做到,但是效果不好。 。 。 不能说不好。
Knime中文文本分析、词云及分类
我使用的数据是微博情感分析评价。 我们先看一下我的意见识别项目的结果:
对比一下其他人的会议提交的结果:
所以我只能说这还不是最糟糕的。 但话虽如此,我并不是在研究自然语言处理。 我不懂机器学习。 我只想在我的一个场景中使用机器学习的某种功能。 我没有钱聘请机器学习工程师,也没有学习的能力。 我还必须致力于机器学习! 我尝试使用 Knime。 结果表明它有效。
让我们看看如何做。 首先我引用两个官方的例子:《》(以下简称20)和《》(以下简称03)。 后者在《图解机器学习》一书中已有介绍。 下面综合看两个例子结合起来做中文文本分析。
其次,了解接下来的两个例子如何帮助我们进行中文情感分析。 20、关于中文的是这部分:
首先是数据读取,这里不再赘述。 从头开始观看。 这个元节点没有做太多事情。 即只选择一列(节点)并删除数字和标点符号(最后两个节点)。
然后看POS()。 这里的内容比较复杂,所以我们不需要考虑太多,只要知道自己在做什么就可以了。最主要的是去掉停用词。 停用词主要有两种类型。
就中文而言,常见的停用词有:
"的", "了", "在", "是", "我", "有", "和", "就", "人", "都", "一", "一个", "上", "也", "很", "到", "说", "要", "去", "你", "会", "着", "好", "自己", "这"
然后还有一些POS(Part Of)处理,一些标签等。
然后有条款
这里主要是创建一个词袋,统计频率,然后选择前 100 个。
其余的只是画画而已,所以我不关心它们。
03 不多说了。
我们来看看如何直接使用它。
我们先看一下整个工作流程。 上半部分是词云图,下半部分是分类。 这里我只做观点识别。
词云部分没有变化,这里不再赘述。 效果如下所示:
然后看分类部分
其实只要将03部分连接到20即可。使用了随机森林和逻辑回归,发现逻辑回归效果更好。
太棒了,我们有一个工作模型。