加急的英文译语怎么说-greed
2023年10月10日发(作者:safety什么意思)
LatentDirichletAllocation(隐狄利克雷分配模型)——论⽂翻
译与分析
本⽂是经典论⽂《Latent Dirichlet Allocation》的翻译及注解。
Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J]. J Machine Learning Research Archive, 2003,
3:993-1022.
本⽂虽然尽可能的讲解涉及的外围知识,但如果有看不懂的地⽅请点击“参考”后⾯的链接,进⾏阅读理解。
强烈建议结合通俗理解LDA主题模型阅读本篇内容。
(Papadimitriou et al。,1998)。然⽽,⽬前尚不清楚,考虑⽂本的⽣成模型的时候,为什么应该采⽤LSI⽅法 - (其实)可以尝试更直接地
进⾏,(⽐如)使⽤最⼤似然法或贝叶斯⽅法将模型与数据相匹配(即得到数据的模型)。
Hofmann(1999)在这⽅⾯迈出了重要的⼀步,他将LSI的概率LSI(pLSI)模型(也称为特征模型aspect model)作为LSI的替代品。我们在
第4.3节中详细描述的pLSI⽅法将⽂档中的每个单词作为混合模型中的样本进⾏建模,其中混合组件是多项随机变量,可以将其视为“主题
topics”的表⽰。因此,每个单词都是从单个主题⽣成的,⽽⽂档中的不同单词可以从不同的主题⽣成。每个⽂档都被表⽰为这些混合组件的混
合⽐例列表,从⽽将其简化为⼀组固定主题的概率分布。 这种分布是与⽂档相关的“简化描述”。
虽然霍夫曼的⼯作是向⽂本概率建模迈出的有⽤的⼀步,但它并不完整,因为它没有提供⽂档层⾯的概率模型。在pLSI中,每个⽂档都被表⽰为
⼀个数字列表(数字的值是主题的混合⽐例),并且这些数字没有⽣成概率模型。这导致了⼏个问题:(1)模型中参数的数量与语料库的⼤⼩成
线性增长,这导致过度拟合的严重问题;(2)不清楚如何将概率分配给训练集之外的⽂档。
要了解如何超越pLSI,让我们考虑包括LSI和pLSI在内的⼀类降维⽅法的基本概率假设。所有这些⽅法都基于“词袋”的假设 - ⽂档中的单词顺序
可以忽略不计。此外,尽管不经常正式说明,但这些⽅法也假定⽂档是可相互交换的; ⽂集中⽂档的具体排序也可以忽略不计。
受益于Finetti(1990),⼀个经典表⽰理论认为:任何可交换随机变量的集合都具有混合分布(通常是⽆限混合)的表⽰。因此,如果我们想考
虑⽂件和单词的可交换表⽰,我们需要考虑能捕获单词和⽂档的可交换性的混合模型。这⼀思路促使我们在当前论⽂中提出潜在狄利克雷分配
(LDA)模型。
需要强调的是,可交换性的假设并不等同于随机变量独⽴同分布的假设。相反,可交换性本质上可以被解释为“条件独⽴且分布相同”,其中的条
件是与概率分布的潜在隐参数有关的。在⼀定条件下,随机变量的联合分布是简单的,但如果围绕隐参数考虑,联合分布可能相当复杂。因此,虽
然可交换性的假设是⽂本建模领域的⼀个主要的简化假设,并且其主要理由是它是⼀种会导致计算效率较⾼的⽅法,但可交换性假设对简单频率的
计数或线性操作并不是⼀个必要的条件。在当前的论⽂中,我们的⽬标是,通过认真考虑de Finetti定理,可以通过混合分布获取重要的⽂档内统
隐在狄利克雷分配(LDA)是语料库的⽣成概率模型。 其基本思想是⽂档被表⽰为潜在主题的随机混合,每个主题都是有不同的⽂字(词)分布
特征的。
LDA为语料库D中的每个⽂档w假定以下⽣成过程:
1. 选择N〜泊松(ξ),即假设词典中的词服从泊松分布;
2. 选择θ〜Dir(α),即假设θ服从参数为α的狄利克雷分布,θ本⾝认为是⼀个多项式分布。θ表⽰⽂档t中所包含的每个话题的⽐例,它是
t
⽂档t的主题分布,是个向量。
3. 对于N中的每个词w(对于每篇分档中的第n个词的处理):
n
(a) 根据θ进⾏话题指派,得到⽂档t中词n的话题z,即从⽂档中的主题分布采样词n的主题z;
tt,nn
(b) 然后根据指派的主题所对应的词分布中采样出词w(每个主题有各⾃的词分布,词分布同样是多项分布,服从Dirichlet分布,参数为
n
β)。
重复上述过程,直到M篇⽂档都完成。
“主题”也常称为“话题”
在这个基本模型中做了⼏个简化的假设,其中⼀些我们在后⾯的章节中会删除。⾸先,Dirichlet分布的维度k(以及主题变量z的维度)被假定为
已知并且是固定的。其次,单词概率通过k×V矩阵β进⾏参数化,其中β = p(w = 1 | z = 1)(猜测:它表⽰在某个主题中索引为i的词出
ij
ji
现的条件下,⽂档中第j个词出现的概率),现在我们将其视为待估计的固定量。最后,泊松假设对随后的任何事情都不是关键的,并且可以根据
需要使⽤更真实的⽂档长度分布。此外,请注意,N与所有其他数据⽣成变量(θ和z)⽆关。 因此它是⼀个辅助变量,我们通常会忽略它在随后
发展中的随机性。
z表⽰主题向量,k是主题的个数
⼀个k维Dirichlet随机变量θ可以从(k − 1)-simplex(单形或单纯形)中取值,并且在这个单纯形中有以下概率密度:
在⼏何中,单形是将三⾓形或四⾯体概念推⼴到任意维的概念。具体来说,k单形是⼀个k维多⾯体,它是k + 1个顶点的
凸包。形式化的说,如果k + 1个点是仿射⽆关的,那么单形⽤这些点来定义的话,符合以下集合:
⽤图形来看可能更直观
⼀个常规3-单形或叫四⾯体
α参数是⼀个k维向量,并且α的每⼀项都满⾜α > 0,另外Γ(x)是伽马函数。狄利克雷分布在单形(属于指数族)上是⼀种实⽤的分布,具有有
i
限维数的充分统计量,并且与多项分布共轭。
图1,LDA的盘式记法图。 这些框是代表可以不断重复操作的“盘”。 外盘代表⽂件,⽽内盘代表⽂件中主题和词语的重
复选择。
其中,p(z | θ)表⽰的是主题分布为θ的情况下,从某篇⽂档w中采样得到词n的主题z的概率,对于⼀个词汇,若出现在主题z中,则z =
nnnn
i
1,对θ进⾏积分并在z上求和,我们得到⽂档的边际分布:
边际分布亦称“边缘分布”。边缘分布(Marginal Distribution)指在概率论和统计学的多维随机变量中,只包含其中
部分变量的概率分布。
参考:/item/%E8%BE%B9%E7%BC%98%E5%88%86%E5%B8%83/15571865?
fr=aladdin
上式表⽰给定参数α和β的条件下,⽂档的概率分布。
最后,利⽤单个⽂档边际概率的乘积,得到⼀个语料库的概率分布:
LDA模型在图1中表⽰为概率图模型。如图所⽰,LDA表⽰有三个层次。参数α和β是语料库层⾯的参数,假设在⽣成语料库的过程中抽样⼀次得
到。 变量θ是⽂档级变量,每个⽂档采样⼀次。 最后,变量z和w是字(词)级变量,并针对每个⽂档中的每个单词采样⼀次。
ddndn
z表⽰第d篇⽂档中第n个词的主题,w表⽰第d篇⽂档中的第n个词。注意不是原⽂档,⽽是⽂档的向量化表⽰之后的
dndn
w。
区分LDA和简单的Dirichlet多项式聚类模型很重要。 经典的聚类模型会涉及到⼀个两层模型:其中,⼀个Dirichlet为⼀个语料库抽样⼀次,⼀个
多项式聚类变量为语料库中的每个⽂档选择⼀次,并且以聚类变量为条件,为⽂档选择⼀组词语 。与许多聚类模型⼀样,这种模型将⽂档限制为
与单个主题相关联。另⼀⽅⾯,LDA涉及三个层次,特别是主题节点在⽂档中被重复采样。在这种模式下,⽂档可以与多个主题相关联。
图1所⽰类似结构通常在贝叶斯统计建模中研究,它们被称为分层模型(Gelman等,1995),或者更准确地说,是条件独⽴的分层模型(Kass
和Steffey,1989)。这种模型通常也被称为参数经验贝叶斯模型(parametric empirical Bayes models),这个术语不仅指特定的模型结
构,⽽且还指⽤于估计模型参数的⽅法(Morris,1983)。事实上,正如我们在第5节中讨论的那样,我们采⽤经验贝叶斯⽅法来估计⼀个LDA
简单实现中的参数(⽐如,α和β等),但我们也考虑了更充分的贝叶斯⽅法。
3.1 LDA和可交换性
如果联合分布对于置换是不变的,那么⼀个有限的随机变量集{z......z}被认为是可交换的。 如果π(此π⾮彼π)表⽰某种整数从1到N的置换规
1N
则,则:
p(z......z) = p(z......z)
1Nπ(1)π(N)
如果每个有限的⼦序列是可交换的,则⽆限序列的随机变量是⽆限可交换的。
De Finetti的表⽰定理指出,随机变量的⽆限可交换序列的联合分布就好像从⼀些分布中抽取的⼀个随机参数,以该参数为条件,所讨论的随机变
量是独⽴同分布的。
在LDA中,我们假设单词是由主题(通过固定的条件分布)⽣成的,⽽且这些主题在⽂档中是⽆限可交换的。根据菲内蒂定理,⼀组词汇和话题
的概率必须具有以下这种形式:
θ是关于主题的多项式的随机参数。通过边缘化主题变量并赋予θ狄利克雷分布,在公式(3)中,我们获得了⽂档的LDA分布。
3.2 ⼀元模型(unigrams)的连续混合
unigram ⼀元分词,把句⼦分成⼀个⼀个的汉字
bigram ⼆元分词,把句⼦从头到尾每两个字组成⼀个词语
2. 对于N中的每个词w:
n
(a) 从p(w | θ,β)中得到w的值。
nn
该过程将⽂档的边际分布定义为连续混合分布:(注意下式表⽰的是语料库,⽽⾮⼀篇⽂档 的分布)
其中,p(w | θ,β)是混合成分,p(θ | α)是混合权重。
n
图2说明了LDA的这种解释。 它描绘了LDA模型的⼀个特定实例引发的p(w| θ,β)的分布。请注意,在(V-1) - simplex中的这种分布仅通过k
+ kV个参数实现,但展现出⾮常有趣的多模式结构。
图2,本例⼦展⽰了LAD⽅法,对3个单词和4个主题的⼀元分布p(w| θ,β)产⽣的密度图⽰。嵌⼊x-y平⾯中的三⾓形是
代表三个单词上所有可能的多项分布的⼆维单纯形。三⾓形的每个顶点对应于⼀个确定分布,它逐个赋予每个单词概率; 边
缘的中点给出两个单词各0.5的概率; 三⾓形的质⼼是所有三个词的均匀分布。⽤x标记的四个点是四个主题中每个主题的
多项式分布p(w | z)的位置,单纯形顶部显⽰的外观是, LDA给出的(V-1) - 单纯形(词的多项分布)上的⼀个密度
表⽰的例⼦。
4 与其他潜在(latent)变量模型的关系
在本节中,我们将LDA与⽂本的简单潜(隐)变量模型(⼀元模型,⼀元模型的混合模型和pLSI模型)进⾏⽐较。 此外,我们提出了这些模型的
统⼀⼏何解释,突出了它们的主要区别和相似之处。
图3:离散数据的不同模型的图形模型化表⽰。
4.1 ⼀元模型( Unigram model)
在⼀元模型下,每个⽂档的单词都是独⽴的按照某个多项分布⽽绘制的,⽣成⽂档的概率为:
这在图3a中的图形模型中进⾏了说明。p(w)表⽰w的先验概率,w = (w......w)。
nn1N
4.2 混合⼀元模型(Mixture of unigrams)
如果我们⽤⼀个离散的随机主题变量z(图3b)来扩充⼀元模型,我们就可以得到⼀个混合⼀元模型(Nigam et al.,2000)。在这个混合模型
下,⾸先选择⼀个主题z,然后从条件多项式p(w | z)独⽴的⽣成N个单词,从⽽⽣成每个⽂档(该⽂档中的所有词都来⾃⼀个主题)。⼀篇⽂
档的概率分布:
在每个⽂档仅显⽰⼀个主题的假设背景下,当从语料库做概率估计时,可以将词语分布视为主题的表⽰。正如第7节的实证结果所⽰,这种假设通
常限制性太强,以⾄于⽆法有效地建模量⼤的⽂献。
相反,LDA模型允许⽂档在不同程度上展⽰多个主题。这是以(增加)⼀个额外参数为代价实现的:在混合⼀元模型中有与p(z)相关的参数有k-1
个,⽽在LDA中与p(θ | α)有关的参数有k个。
4.3 概率潜在语义索引
In the pixel space that you observe(⼀般的图像处理⽅法,⼤都考虑的像素这⼀维度), there is no immediate
similarity between any two images. However, if you were to map it to a latent space, you would want the
图4,以三个词为例,这三个词的主题单纯形是嵌⼊在词单纯形内的。词单纯形的⾓部对应于三个分布,其中每个词在这
⾥(分别)具有概率1。主题单纯形的三点对应于词的三种不同分布。混合⼀元模型将每个⽂档放在主题单纯形的⼀个⾓
落。pLSI模型引发了由x表⽰的主题单纯形的经验分布。LDA在由等⾼线表⽰的主题单纯形上进⾏平滑分布。
· 混合⼀元模型假设,对于每个⽂档,词单纯形中的k个点(即,主题单纯形的那些⾓中的⼀个)中的⼀个⼀旦随机选择后,⽂档的所有单词都从
对应于那⼀点的分布中获取。
· pLSI模型假定训练⽂档的每个单词来⾃随机选择的主题。这些主题本⾝来⾃于⽂档在主题上的特征分布,也就是主题单纯形上的⼀个⾓点。每
这是⼀个由于在潜在主题的总和中θ和β之间的耦合,⽽难以处理的函数(Dickey,1983)。Dickey表⽰这个函数是在Dirichlet分布的特定扩
展下的期望,可以⽤特殊的超⼏何函数表⽰。它在贝叶斯环境中可⽤于删除(或审查,censored 暂时不明⽩怎么翻译)离散数据,以表⽰θ的后
验(在该设置中,θ是随机参数)(Dickey等,1987)。
尽管后验分布对于精确推断是难以处理的,但是对于LDA可以考虑各种各样的近似推理算法,包括拉普拉斯近似,变分近似和马尔可夫链蒙特卡
罗(Jordan,1999)。在本节中,我们描述了⼀个简单的基于凸性的变分算法,⽤于推断LDA,并讨论了第8节中的⼀些替代⽅案。
5.2 变分推断
游子吟的英文翻译英语怎么说-火影忍者英文版漫画
加急的英文译语怎么说-greed
2023年10月10日发(作者:safety什么意思)
LatentDirichletAllocation(隐狄利克雷分配模型)——论⽂翻
译与分析
本⽂是经典论⽂《Latent Dirichlet Allocation》的翻译及注解。
Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J]. J Machine Learning Research Archive, 2003,
3:993-1022.
本⽂虽然尽可能的讲解涉及的外围知识,但如果有看不懂的地⽅请点击“参考”后⾯的链接,进⾏阅读理解。
强烈建议结合通俗理解LDA主题模型阅读本篇内容。
(Papadimitriou et al。,1998)。然⽽,⽬前尚不清楚,考虑⽂本的⽣成模型的时候,为什么应该采⽤LSI⽅法 - (其实)可以尝试更直接地
进⾏,(⽐如)使⽤最⼤似然法或贝叶斯⽅法将模型与数据相匹配(即得到数据的模型)。
Hofmann(1999)在这⽅⾯迈出了重要的⼀步,他将LSI的概率LSI(pLSI)模型(也称为特征模型aspect model)作为LSI的替代品。我们在
第4.3节中详细描述的pLSI⽅法将⽂档中的每个单词作为混合模型中的样本进⾏建模,其中混合组件是多项随机变量,可以将其视为“主题
topics”的表⽰。因此,每个单词都是从单个主题⽣成的,⽽⽂档中的不同单词可以从不同的主题⽣成。每个⽂档都被表⽰为这些混合组件的混
合⽐例列表,从⽽将其简化为⼀组固定主题的概率分布。 这种分布是与⽂档相关的“简化描述”。
虽然霍夫曼的⼯作是向⽂本概率建模迈出的有⽤的⼀步,但它并不完整,因为它没有提供⽂档层⾯的概率模型。在pLSI中,每个⽂档都被表⽰为
⼀个数字列表(数字的值是主题的混合⽐例),并且这些数字没有⽣成概率模型。这导致了⼏个问题:(1)模型中参数的数量与语料库的⼤⼩成
线性增长,这导致过度拟合的严重问题;(2)不清楚如何将概率分配给训练集之外的⽂档。
要了解如何超越pLSI,让我们考虑包括LSI和pLSI在内的⼀类降维⽅法的基本概率假设。所有这些⽅法都基于“词袋”的假设 - ⽂档中的单词顺序
可以忽略不计。此外,尽管不经常正式说明,但这些⽅法也假定⽂档是可相互交换的; ⽂集中⽂档的具体排序也可以忽略不计。
受益于Finetti(1990),⼀个经典表⽰理论认为:任何可交换随机变量的集合都具有混合分布(通常是⽆限混合)的表⽰。因此,如果我们想考
虑⽂件和单词的可交换表⽰,我们需要考虑能捕获单词和⽂档的可交换性的混合模型。这⼀思路促使我们在当前论⽂中提出潜在狄利克雷分配
(LDA)模型。
需要强调的是,可交换性的假设并不等同于随机变量独⽴同分布的假设。相反,可交换性本质上可以被解释为“条件独⽴且分布相同”,其中的条
件是与概率分布的潜在隐参数有关的。在⼀定条件下,随机变量的联合分布是简单的,但如果围绕隐参数考虑,联合分布可能相当复杂。因此,虽
然可交换性的假设是⽂本建模领域的⼀个主要的简化假设,并且其主要理由是它是⼀种会导致计算效率较⾼的⽅法,但可交换性假设对简单频率的
计数或线性操作并不是⼀个必要的条件。在当前的论⽂中,我们的⽬标是,通过认真考虑de Finetti定理,可以通过混合分布获取重要的⽂档内统
隐在狄利克雷分配(LDA)是语料库的⽣成概率模型。 其基本思想是⽂档被表⽰为潜在主题的随机混合,每个主题都是有不同的⽂字(词)分布
特征的。
LDA为语料库D中的每个⽂档w假定以下⽣成过程:
1. 选择N〜泊松(ξ),即假设词典中的词服从泊松分布;
2. 选择θ〜Dir(α),即假设θ服从参数为α的狄利克雷分布,θ本⾝认为是⼀个多项式分布。θ表⽰⽂档t中所包含的每个话题的⽐例,它是
t
⽂档t的主题分布,是个向量。
3. 对于N中的每个词w(对于每篇分档中的第n个词的处理):
n
(a) 根据θ进⾏话题指派,得到⽂档t中词n的话题z,即从⽂档中的主题分布采样词n的主题z;
tt,nn
(b) 然后根据指派的主题所对应的词分布中采样出词w(每个主题有各⾃的词分布,词分布同样是多项分布,服从Dirichlet分布,参数为
n
β)。
重复上述过程,直到M篇⽂档都完成。
“主题”也常称为“话题”
在这个基本模型中做了⼏个简化的假设,其中⼀些我们在后⾯的章节中会删除。⾸先,Dirichlet分布的维度k(以及主题变量z的维度)被假定为
已知并且是固定的。其次,单词概率通过k×V矩阵β进⾏参数化,其中β = p(w = 1 | z = 1)(猜测:它表⽰在某个主题中索引为i的词出
ij
ji
现的条件下,⽂档中第j个词出现的概率),现在我们将其视为待估计的固定量。最后,泊松假设对随后的任何事情都不是关键的,并且可以根据
需要使⽤更真实的⽂档长度分布。此外,请注意,N与所有其他数据⽣成变量(θ和z)⽆关。 因此它是⼀个辅助变量,我们通常会忽略它在随后
发展中的随机性。
z表⽰主题向量,k是主题的个数
⼀个k维Dirichlet随机变量θ可以从(k − 1)-simplex(单形或单纯形)中取值,并且在这个单纯形中有以下概率密度:
在⼏何中,单形是将三⾓形或四⾯体概念推⼴到任意维的概念。具体来说,k单形是⼀个k维多⾯体,它是k + 1个顶点的
凸包。形式化的说,如果k + 1个点是仿射⽆关的,那么单形⽤这些点来定义的话,符合以下集合:
⽤图形来看可能更直观
⼀个常规3-单形或叫四⾯体
α参数是⼀个k维向量,并且α的每⼀项都满⾜α > 0,另外Γ(x)是伽马函数。狄利克雷分布在单形(属于指数族)上是⼀种实⽤的分布,具有有
i
限维数的充分统计量,并且与多项分布共轭。
图1,LDA的盘式记法图。 这些框是代表可以不断重复操作的“盘”。 外盘代表⽂件,⽽内盘代表⽂件中主题和词语的重
复选择。
其中,p(z | θ)表⽰的是主题分布为θ的情况下,从某篇⽂档w中采样得到词n的主题z的概率,对于⼀个词汇,若出现在主题z中,则z =
nnnn
i
1,对θ进⾏积分并在z上求和,我们得到⽂档的边际分布:
边际分布亦称“边缘分布”。边缘分布(Marginal Distribution)指在概率论和统计学的多维随机变量中,只包含其中
部分变量的概率分布。
参考:/item/%E8%BE%B9%E7%BC%98%E5%88%86%E5%B8%83/15571865?
fr=aladdin
上式表⽰给定参数α和β的条件下,⽂档的概率分布。
最后,利⽤单个⽂档边际概率的乘积,得到⼀个语料库的概率分布:
LDA模型在图1中表⽰为概率图模型。如图所⽰,LDA表⽰有三个层次。参数α和β是语料库层⾯的参数,假设在⽣成语料库的过程中抽样⼀次得
到。 变量θ是⽂档级变量,每个⽂档采样⼀次。 最后,变量z和w是字(词)级变量,并针对每个⽂档中的每个单词采样⼀次。
ddndn
z表⽰第d篇⽂档中第n个词的主题,w表⽰第d篇⽂档中的第n个词。注意不是原⽂档,⽽是⽂档的向量化表⽰之后的
dndn
w。
区分LDA和简单的Dirichlet多项式聚类模型很重要。 经典的聚类模型会涉及到⼀个两层模型:其中,⼀个Dirichlet为⼀个语料库抽样⼀次,⼀个
多项式聚类变量为语料库中的每个⽂档选择⼀次,并且以聚类变量为条件,为⽂档选择⼀组词语 。与许多聚类模型⼀样,这种模型将⽂档限制为
与单个主题相关联。另⼀⽅⾯,LDA涉及三个层次,特别是主题节点在⽂档中被重复采样。在这种模式下,⽂档可以与多个主题相关联。
图1所⽰类似结构通常在贝叶斯统计建模中研究,它们被称为分层模型(Gelman等,1995),或者更准确地说,是条件独⽴的分层模型(Kass
和Steffey,1989)。这种模型通常也被称为参数经验贝叶斯模型(parametric empirical Bayes models),这个术语不仅指特定的模型结
构,⽽且还指⽤于估计模型参数的⽅法(Morris,1983)。事实上,正如我们在第5节中讨论的那样,我们采⽤经验贝叶斯⽅法来估计⼀个LDA
简单实现中的参数(⽐如,α和β等),但我们也考虑了更充分的贝叶斯⽅法。
3.1 LDA和可交换性
如果联合分布对于置换是不变的,那么⼀个有限的随机变量集{z......z}被认为是可交换的。 如果π(此π⾮彼π)表⽰某种整数从1到N的置换规
1N
则,则:
p(z......z) = p(z......z)
1Nπ(1)π(N)
如果每个有限的⼦序列是可交换的,则⽆限序列的随机变量是⽆限可交换的。
De Finetti的表⽰定理指出,随机变量的⽆限可交换序列的联合分布就好像从⼀些分布中抽取的⼀个随机参数,以该参数为条件,所讨论的随机变
量是独⽴同分布的。
在LDA中,我们假设单词是由主题(通过固定的条件分布)⽣成的,⽽且这些主题在⽂档中是⽆限可交换的。根据菲内蒂定理,⼀组词汇和话题
的概率必须具有以下这种形式:
θ是关于主题的多项式的随机参数。通过边缘化主题变量并赋予θ狄利克雷分布,在公式(3)中,我们获得了⽂档的LDA分布。
3.2 ⼀元模型(unigrams)的连续混合
unigram ⼀元分词,把句⼦分成⼀个⼀个的汉字
bigram ⼆元分词,把句⼦从头到尾每两个字组成⼀个词语
2. 对于N中的每个词w:
n
(a) 从p(w | θ,β)中得到w的值。
nn
该过程将⽂档的边际分布定义为连续混合分布:(注意下式表⽰的是语料库,⽽⾮⼀篇⽂档 的分布)
其中,p(w | θ,β)是混合成分,p(θ | α)是混合权重。
n
图2说明了LDA的这种解释。 它描绘了LDA模型的⼀个特定实例引发的p(w| θ,β)的分布。请注意,在(V-1) - simplex中的这种分布仅通过k
+ kV个参数实现,但展现出⾮常有趣的多模式结构。
图2,本例⼦展⽰了LAD⽅法,对3个单词和4个主题的⼀元分布p(w| θ,β)产⽣的密度图⽰。嵌⼊x-y平⾯中的三⾓形是
代表三个单词上所有可能的多项分布的⼆维单纯形。三⾓形的每个顶点对应于⼀个确定分布,它逐个赋予每个单词概率; 边
缘的中点给出两个单词各0.5的概率; 三⾓形的质⼼是所有三个词的均匀分布。⽤x标记的四个点是四个主题中每个主题的
多项式分布p(w | z)的位置,单纯形顶部显⽰的外观是, LDA给出的(V-1) - 单纯形(词的多项分布)上的⼀个密度
表⽰的例⼦。
4 与其他潜在(latent)变量模型的关系
在本节中,我们将LDA与⽂本的简单潜(隐)变量模型(⼀元模型,⼀元模型的混合模型和pLSI模型)进⾏⽐较。 此外,我们提出了这些模型的
统⼀⼏何解释,突出了它们的主要区别和相似之处。
图3:离散数据的不同模型的图形模型化表⽰。
4.1 ⼀元模型( Unigram model)
在⼀元模型下,每个⽂档的单词都是独⽴的按照某个多项分布⽽绘制的,⽣成⽂档的概率为:
这在图3a中的图形模型中进⾏了说明。p(w)表⽰w的先验概率,w = (w......w)。
nn1N
4.2 混合⼀元模型(Mixture of unigrams)
如果我们⽤⼀个离散的随机主题变量z(图3b)来扩充⼀元模型,我们就可以得到⼀个混合⼀元模型(Nigam et al.,2000)。在这个混合模型
下,⾸先选择⼀个主题z,然后从条件多项式p(w | z)独⽴的⽣成N个单词,从⽽⽣成每个⽂档(该⽂档中的所有词都来⾃⼀个主题)。⼀篇⽂
档的概率分布:
在每个⽂档仅显⽰⼀个主题的假设背景下,当从语料库做概率估计时,可以将词语分布视为主题的表⽰。正如第7节的实证结果所⽰,这种假设通
常限制性太强,以⾄于⽆法有效地建模量⼤的⽂献。
相反,LDA模型允许⽂档在不同程度上展⽰多个主题。这是以(增加)⼀个额外参数为代价实现的:在混合⼀元模型中有与p(z)相关的参数有k-1
个,⽽在LDA中与p(θ | α)有关的参数有k个。
4.3 概率潜在语义索引
In the pixel space that you observe(⼀般的图像处理⽅法,⼤都考虑的像素这⼀维度), there is no immediate
similarity between any two images. However, if you were to map it to a latent space, you would want the
图4,以三个词为例,这三个词的主题单纯形是嵌⼊在词单纯形内的。词单纯形的⾓部对应于三个分布,其中每个词在这
⾥(分别)具有概率1。主题单纯形的三点对应于词的三种不同分布。混合⼀元模型将每个⽂档放在主题单纯形的⼀个⾓
落。pLSI模型引发了由x表⽰的主题单纯形的经验分布。LDA在由等⾼线表⽰的主题单纯形上进⾏平滑分布。
· 混合⼀元模型假设,对于每个⽂档,词单纯形中的k个点(即,主题单纯形的那些⾓中的⼀个)中的⼀个⼀旦随机选择后,⽂档的所有单词都从
对应于那⼀点的分布中获取。
· pLSI模型假定训练⽂档的每个单词来⾃随机选择的主题。这些主题本⾝来⾃于⽂档在主题上的特征分布,也就是主题单纯形上的⼀个⾓点。每
这是⼀个由于在潜在主题的总和中θ和β之间的耦合,⽽难以处理的函数(Dickey,1983)。Dickey表⽰这个函数是在Dirichlet分布的特定扩
展下的期望,可以⽤特殊的超⼏何函数表⽰。它在贝叶斯环境中可⽤于删除(或审查,censored 暂时不明⽩怎么翻译)离散数据,以表⽰θ的后
验(在该设置中,θ是随机参数)(Dickey等,1987)。
尽管后验分布对于精确推断是难以处理的,但是对于LDA可以考虑各种各样的近似推理算法,包括拉普拉斯近似,变分近似和马尔可夫链蒙特卡
罗(Jordan,1999)。在本节中,我们描述了⼀个简单的基于凸性的变分算法,⽤于推断LDA,并讨论了第8节中的⼀些替代⽅案。
5.2 变分推断