nlp学习笔记(三)——模型算法改进

 2024-03-12 02:08:02  阅读 0

模糊t s模型算法_模糊算法模型模型假设_模糊算法模型

典型的

上图是一个典型的模型结构。 从模型路径来看,与实际输出有一定的距离,这限制了反向传播。 它主要存在两个问题:OOV(Out-of- Words)和Word- 。

OOV:抽象星界的结果有时是没有准备好的。 例如,汇总结果可能输出德国队以2-1的比分击败阿根廷队,但实际比分是2-0。 其原因是言外之意(OOV)。 出现。

Word-:汇总结果中会有重复的信息,例如德国队多次击败阿根廷队。

这里有一些更有用的方法:

1.(参考/pdf/1603.06393.pdf)

模糊算法模型_模糊t s模型算法_模糊算法模型模型假设

向该部分添加了 -Mode 和 Copy-Mode 模式。 -Mode的主要任务是根据语义进行输出,与之前的预测结果类似; Copy-Mode根据输入文本的位置来决定是否进行复制,在此过程中,将上一步的输出作为当前步骤的输入。 在预测单词的结果时,使用生成结果的一部分来计算概率,从输入单词中复制来计算概率,并使用两个概率进行叠加计算。 假设隐藏层的状态变量为s_t,上一时刻的预测变量y_{t-1},注意力变量c_t,参数变量M。在t时刻预测y的概率为P(y_t|s_t ,y_{t-1 },C_t,M)=P(y_t,c|s_t,y_{t-1},C_t,M)+P(y_t,g|s_t,y_{t-1},C_t,米)。 如果输入中没有出现y_t,则只计算生成; 如果 y_t 只出现在输入中而没有出现在字典中,则仅计算复制。 为了复制较长的短语,作者添加了一个Read。 y_{t-1} 的表达式由两项组成。 第一项是word,第二项是Read。 其目的是复制较长的短语。 短语。

2.PGN(-)

模糊算法模型_模糊算法模型模型假设_模糊t s模型算法

该步骤是2个矩的生成过程。

指针生成网络将内部网络和指针网络结合起来,通过指针实现复制字。 这些生成的单词来自固定的来源,并通过称为 Pgen (Pgen\in[0,1]) 的概率从原始文本控制。 抽取了多少内容或者从中生成的单词被使用的概率很高。

假设t为,h_t^*为,s_t为状态,x_t为输入,则t时刻的Pgen公式为Pgen=\sigma(w_h^Th_t^*+w_s^Ts_t+w_x^Tx_t+b_{ptr})。 单词w出现的预测概率为:P(w)=PgenP(vocab(w))+(1-Pgen)\sum_{i:w_i=w}{\^t}。

PGN的优点: 1、PGN可以轻松复制输入的文本内容,可以通过Pgen进行调整; 2. PGN可以从输入文本内容中复制OOV词汇。 这是最大的优点。 这也可以用于较小的格式。 词汇量大,计算量和存储空间少。 3、PGN训练会更快,训练过程中用更少的迭代次数就能达到同样的效果。

重复加工

除了重复单词和句子之外,该模型还生成摘要。 之前的改进方法有两种: 1.设置系数S_{tj}^{temp}=\left\{ ^{exp(s^e_{tj}); t=1}_\frac{exp(s^e_{tj})}{\sum_{k=1}^{t-1}{exp(s^e_{tj})}} \right\} ,则使用惩罚机制计算的\alpha变量\{tj}^{temp}=\frac{S_{tj}^{temp}}{\sum_{k=1}^{J}{S_{tj}^{temp} } }; 2.内部-;

它是在前两种方法思想基础上的改进。 设置参数c^t=\sum_{i=0}^{t-1}\alpha^i(其中t>1),并计算状态变量e_i^t=v ^Ttanh(++^t+b ),t时刻的损失函数Loss公式=-logP(w_t^*)+\\(\^t,c_i^t),用c来记住出现和不出现的情况,让出现的词多得到较少的关注。

标签: 概率 变量 生成

如本站内容信息有侵犯到您的权益请联系我们删除,谢谢!!


Copyright © 2020 All Rights Reserved 京ICP5741267-1号 统计代码