学习笔记三:GMM以及EM算法

第三章 GMM模型以及EM算法

1.潜变量模型

使用潜变量解释观测变量的数学模型,称之为潜变量模型

潜变量模型将不完全数据(观测数据)的边缘分布转换成容易处理的完全数据(观测数据+潜变量)的联合分布。

观测变量:可以观测到的

潜变量:需要通过模型和观测变量进行推断的

学习笔记三:GMM以及EM算法

对于上图,这些点可以直接观测出来,属于潜变量,而对于这些点的分类却需要进行推理,故属于潜变量

2.K-means聚类

  • 问题定义:给定N个点,然后将这N个点聚类到K个类别中,K值已知
  • K-means思路
  • 引入K个向量μ,每个μ均表示当前的聚类中心
  • 计算出当前点位和所有聚类中心的距离(欧氏距离),来判断当前的点该属于哪个聚类
  • 根据聚类的结果,再次更新聚类中心
  • 重复第二步,直到所有的点不再变换类别为止
  • 引入潜变量
    • 对于每个数据点,都引入一个二进制标识,如果某个点属k类,则标为1,否则标为0
    • 目标函数


学习笔记三:GMM以及EM算法

    • 优化目标:需找合适的数据表示{r_{nk}}和聚类中心{μ_k},使得目标函数J最小
  • 模型优化:两阶段迭代优化(初识EM)
    • 选择初始μ_k,保持μ_k固定,寻找可以使得损失函数J最小的r_{nk}


学习笔记三:GMM以及EM算法

    • 保持r_{nk}固定,寻找可以使得损失函数最小的μ_k
学习笔记三:GMM以及EM算法

    • 此处 r_{nk }表示第k类中的数据点

3.GMM模型

高斯分布

学习笔记三:GMM以及EM算法

4.EM算法


学习笔记三:GMM以及EM算法

EM算法细节


5.实践


学习笔记三:GMM以及EM算法


gussian(x,mu,sigma)

参考公式:

学习笔记三:GMM以及EM算法

高斯模型


学习笔记三:GMM以及EM算法

计算高斯概率密度

对数似然函数:calc_log_likelihood(X)

参考公式7:

学习笔记三:GMM以及EM算法

对数似然参考公式


学习笔记三:GMM以及EM算法

计算对数似然

em_estimator(X) 重新计算对数似然

参考公式:

学习笔记三:GMM以及EM算法

EM参考公式


学习笔记三:GMM以及EM算法

EM算法实现


学习笔记三:GMM以及EM算法

EM算法实现-接上

运行结果示意:

学习笔记三:GMM以及EM算法

运行结果

发表评论
留言与评论(共有 0 条评论) “”
   
验证码:

相关文章

推荐文章