学习路线:NLP经典论文导读(推荐阅读顺序)
原文:https://jmlr.csail.mit.edu/papers/v3/bengio03a.html
参考:论文阅读: 一种神经概率语言模型神经概率语言模型论文阅读: 一种神经概率语言模型
一种神经概率语言模型
【为什么要叫神经概率? 】
统计语言模型的目标是学习同一种语言下单词序列的联合概率函数。 这本质上是困难的,因为维数灾难:在模型上被测试的单词序列极大可能和训练阶段 看到的所有单词序列都不一样。 传统但非常成功的基于n-gram的方法通过将训练集中的非常短的重叠序列连接实现了泛化。
【为什么非常短的序列连接在一起会实现泛化? 】
我们提出通过学习词的分布式表示来对抗维度灾难。 (这种方法)允许每个训练句子给模型提供关于语义相邻句子的指数级别数量的信息。 根据刚才的表述而言,这个模型同时学习(1)每个词的分布表达式 (2)单词序列的概率函数。 模型得到了泛化是因为单词序列不会被看见,除非它是由和已被看见的句子中的词的相似( 有附近的表示 )的词组成的,它得到高概率。
【最后一句话没有翻译得特别理解】
训练那么大的模型(上百万个参数)在一个合理的时间本身是一个巨大的挑战。 我们介绍了为了概率函数而用了神经网络的实验,在两个语料库上, 提出的方法极大地改善了先进的n-gram模型并且提出的方法允许利用长文本。
tips:
joint probability function - 联合概率函数
sequences of words - 单词序列
intrinsically - 本质上
generalization - 泛化
propose to - 提出
a distributed representation for words - 词的分布式表示
sequence 和 sentence - 序列和句子
inform sb about sth - 给某人提供sth信息
an exponential number 指数数量级别的
semantically neighboring sentences - 语义相同的句子
in the sense of doing 表示前文内容
report on - 介绍了
take advantage of 利用