典型的
上图是一个典型的模型结构。 从模型路径来看,与实际输出有一定的距离,这限制了反向传播。 它主要存在两个问题:OOV(Out-of- Words)和Word- 。
OOV:抽象星界的结果有时是没有准备好的。 例如,汇总结果可能输出德国队以2-1的比分击败阿根廷队,但实际比分是2-0。 其原因是言外之意(OOV)。 出现。
Word-:汇总结果中会有重复的信息,例如德国队多次击败阿根廷队。
这里有一些更有用的方法:
1.(参考/pdf/1603.06393.pdf)
向该部分添加了 -Mode 和 Copy-Mode 模式。 -Mode的主要任务是根据语义进行输出,与之前的预测结果类似; Copy-Mode根据输入文本的位置来决定是否进行复制,在此过程中,将上一步的输出作为当前步骤的输入。 在预测单词的结果时,使用生成结果的一部分来计算概率,从输入单词中复制来计算概率,并使用两个概率进行叠加计算。 假设隐藏层的状态变量为s_t,上一时刻的预测变量y_{t-1},注意力变量c_t,参数变量M。在t时刻预测y的概率为P(y_t|s_t ,y_{t-1 },C_t,M)=P(y_t,c|s_t,y_{t-1},C_t,M)+P(y_t,g|s_t,y_{t-1},C_t,米)。 如果输入中没有出现y_t,则只计算生成; 如果 y_t 只出现在输入中而没有出现在字典中,则仅计算复制。 为了复制较长的短语,作者添加了一个Read。 y_{t-1} 的表达式由两项组成。 第一项是word,第二项是Read。 其目的是复制较长的短语。 短语。
2.PGN(-)
该步骤是2个矩的生成过程。
指针生成网络将内部网络和指针网络结合起来,通过指针实现复制字。 这些生成的单词来自固定的来源,并通过称为 Pgen (Pgen\in[0,1]) 的概率从原始文本控制。 抽取了多少内容或者从中生成的单词被使用的概率很高。
假设t为,h_t^*为,s_t为状态,x_t为输入,则t时刻的Pgen公式为Pgen=\sigma(w_h^Th_t^*+w_s^Ts_t+w_x^Tx_t+b_{ptr})。 单词w出现的预测概率为:P(w)=PgenP(vocab(w))+(1-Pgen)\sum_{i:w_i=w}{\^t}。
PGN的优点: 1、PGN可以轻松复制输入的文本内容,可以通过Pgen进行调整; 2. PGN可以从输入文本内容中复制OOV词汇。 这是最大的优点。 这也可以用于较小的格式。 词汇量大,计算量和存储空间少。 3、PGN训练会更快,训练过程中用更少的迭代次数就能达到同样的效果。
重复加工
除了重复单词和句子之外,该模型还生成摘要。 之前的改进方法有两种: 1.设置系数S_{tj}^{temp}=\left\{ ^{exp(s^e_{tj}); t=1}_\frac{exp(s^e_{tj})}{\sum_{k=1}^{t-1}{exp(s^e_{tj})}} \right\} ,则使用惩罚机制计算的\alpha变量\{tj}^{temp}=\frac{S_{tj}^{temp}}{\sum_{k=1}^{J}{S_{tj}^{temp} } }; 2.内部-;
它是在前两种方法思想基础上的改进。 设置参数c^t=\sum_{i=0}^{t-1}\alpha^i(其中t>1),并计算状态变量e_i^t=v ^Ttanh(++^t+b ),t时刻的损失函数Loss公式=-logP(w_t^*)+\\(\^t,c_i^t),用c来记住出现和不出现的情况,让出现的词多得到较少的关注。