【期末复习向】n元gram的应用
2023-12-15 22:30:01
当
n
=1
时,
即出现
在
第
i
位
上
的基
元
w
i
独
立于
历
史
。
一元文法也
被
写
为
uni-gram
或
monogram;
当
n
=2
时
,
2-gram
(
bi-gram
)
被称
为
1
阶
马
尔
可夫
链;
当
n
=3
时
, 3-gram(
tri-gram
)
被称为
2
阶马尔
可
夫
链
,
依
次类推。
例如:
给定句子
:
John
read
a
book
增加标记
:
<BOS>
John
read
a
book
<EOS>
一元
:
<BOS>, John,
read,
a,
book, <EOS
二元:
(<BOS>John), (John read), (read a),
?
(a
book),
(book
<EOS>)
三元:(<BOS>John
read),
(John
read
a),
?
(read
a book),
(a
book
<EOS>
基于2元文法的概率是:p(John read a book) =p(John |<BOS>)× p(read|John)× p(a|read)×? p(book|a)× p( <EOS>|book)
?n元文法的应用:1.音字转换2.汉字分词等。
一个常考的应用:求句子的概率。会给定几个句子,对其进行分词后,重新给定一个句子求其出现的概率。
例如给定上面的句子,求一个新的句子“他是研究生物的”出现概率。那么解决这种问题的步骤:
1.分别统计几个句子分词后每个词出现的次数
2.把新的句子分词后求概率:
P(s) = P(他|<*BOS*>)P(是|他)P(研究|是)P(生物|研究)P(的|生物)P(<*EOS*>|的)
?3.根据2元文法模型,计算每个概率。计算方法是前一个词在后一个词出现的基础上出现的次数/后一个词出现的总次数。
P(s) = P(他|<*BOS*>)P(是|他)P(研究|是)P(生物|研究)P(的|生物)P(<*EOS*>|的)
= 3/6 * 1/4 * 2/3 * 3/4 * 3/5 * 3/4
文章来源:https://blog.csdn.net/weixin_62588253/article/details/135025788
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!