【论文翻译未完成】翻给自己看的 A Neural Probabilistic Language Model
创始人
2025-05-29 08:24:26

学习路线:NLP经典论文导读(推荐阅读顺序)

原文:https://jmlr.csail.mit.edu/papers/v3/bengio03a.html

参考:论文阅读:  一种神经概率语言模型神经概率语言模型论文阅读:  一种神经概率语言模型

 

一种神经概率语言模型 

【为什么要叫神经概率? 】 

统计语言模型的目标是学习同一种语言下单词序列的联合概率函数。 这本质上是困难的,因为维数灾难:在模型上被测试的单词序列极大可能和训练阶段 看到的所有单词序列都不一样。 传统但非常成功的基于n-gram的方法通过将训练集中的非常短的重叠序列连接实现了泛化。

【为什么非常短的序列连接在一起会实现泛化? 】

我们提出通过学习词的分布式表示来对抗维度灾难。 (这种方法)允许每个训练句子给模型提供关于语义相邻句子的指数级别数量的信息。 根据刚才的表述而言,这个模型同时学习(1)每个词的分布表达式 (2)单词序列的概率函数。 模型得到了泛化是因为单词序列不会被看见,除非它是由和已被看见的句子中的词的相似( 有附近的表示 )的词组成的,它得到高概率。

【最后一句话没有翻译得特别理解】

训练那么大的模型(上百万个参数)在一个合理的时间本身是一个巨大的挑战。 我们介绍了为了概率函数而用了神经网络的实验,在两个语料库上, 提出的方法极大地改善了先进的n-gram模型并且提出的方法允许利用长文本。

tips:
joint probability function - 联合概率函数
sequences of words - 单词序列
intrinsically - 本质上
generalization - 泛化
propose to - 提出
a distributed representation for words - 词的分布式表示
sequence 和 sentence - 序列和句子
inform sb about sth - 给某人提供sth信息
an exponential number 指数数量级别的
semantically neighboring sentences - 语义相同的句子
in the sense of doing 表示前文内容
report on - 介绍了
take advantage of 利用

相关内容

热门资讯

百米炮仗花长廊盛放,橙红瀑布倾... 刷爆朋友圈、霸屏短视频,最近南宁人的春日快乐,被一条百米炮仗花长廊狠狠承包了。2月12日,暖阳洒向邕...
多所高校推出一分钱年夜饭,年味... 春节即将来临,年味愈加浓厚。对于选择留在校园过年的同学们来说,年夜饭成了一个热门话题。那么,留校过年...
【客家】不蒸甜粄不过年!客家人... 客家人有“不蒸甜粄不过年”的说法,在琳琅满目的年货里,甜粄是绝对的主角,更是亲戚拜年赠礼的首选。每逢...
马年开运指南!麦玲玲现身广州花... “玲玲姐有什么能帮大家马年行大运的技巧,可以教给街坊们?” “你还记得若曦吗?”…… 2月12日,春...