一个从数据中估计参数的基础机器学习问题

假如你有一个硬币。你把它投掷 3 次，出现了 3 次正面。下一次投掷硬币正面朝上的概率是多少? 这是一个从数据中估计参数的基础机器学习问题。在这种情况下，我们要从数据 d 中估算出正面朝上 h 的概率。
最大似然估计
一种方法是找到能最大化观测数据的似然函数（即 p(d;h)）的参数 h 的值。在这里，我们用「；」来表示 h 是一个关于概率分布 p 的参数，意味着参数 h 定义了分布 p，但是分布 p 只是说明了观测数据 d 成立的可能性有多大。
这是被称为「最大似然估计」的最常用的参数估计方法。通过该方法，我们估计出 h=1.0。
但是直觉告诉我们，这是不可能的。对于大多数的硬币来说，还是存在反面朝上的结果的可能性，因此我们通常希望得到像 h=0.5 这样的结果。
先验和后验
如何将这种直觉数学化地表述出来呢？我们可以定义一个观测数据和参数的联合概率：p(d, h) = p(d|h)p(h)。我们定义一个先验分布 p（h) 来表示在观测前关于 h 应该是什么值的直觉，以及在给定参数 h 的情况下的条件概率 p(d|h)。
如何利用现有的数据 d 估计参数 h 呢？我们需要得到后验分布 p（h|d），但是目前只有分布 p(d|h) 和 p(h)。这时候，你需要贝叶斯公式来帮忙!
贝叶斯公式：p(h|d)=p(d|h)*p(h)/p(d)
但是，这里的分母是一个问题：
一般来说，计算这个积分是不可能的。对于这个投硬币的例子来说，如果使用非常特殊的共轭先验分布，就可以绕过这个问题。
最大后验估计
但实际上，我们可以抛开归一化常数 p(d) 以更巧妙的方式讨论 p(h|d)。也就是说归一化常数不改变分布的相对大小，我们可以在不做积分的情况下找到模式：
这就是人们所熟知的最大后验估计（map）。有很多种方法可以算出变量 h 的确切值，例如：使用共轭梯度下降法。
贝叶斯参数估计
有了最大后验估计，可以通过先验分布来引入我们的直觉，并且忽略归一化积分，从而得到后验分布模式下的关于 h 的点估计。
但是如果我们试着用近似方法求积分呢？如果按通常的独立同分布假设，我们可以利用这个事实：未来可能出现的数据样本值 x 条件独立于给定参数 h 时的观测值 d。
这并非使用与后验概率 p(h|d) 模式相应的参数 h 的单一值来计算 p(x|h)，而是一个更加「严格」的方法，它让我们考虑到所有可能的 h 的后验值。这种方法被称为贝叶斯参数估计。
注意，存在两个关于概率分布的重要任务：
推断：给定已知参数的联合分布，通过其它变量的边缘概率和条件概率估计一个变量子集上的概率分布。
参数估计：从数据中估计某个概率分布的未知参数
贝叶斯参数估计将这两项任务构造成了「同一枚硬币的两面」：
估计在一组变量上定义的概率分布的参数，就是推断一个由原始变量和参数构成的元分布。
当然，实际上要做到这一点，需要计算困难的积分，我们将不得不用类似于「马尔可夫链蒙特卡洛算法」或者变分推断等方法取近似。

Vishay新款高温NTC热敏电阻适合应用于汽车快速、高精度温度检测
亚马逊推出云计算专用芯片支持NVMe固态硬盘
大朋DPVR正式发布VR一体机，主打“全景声巨幕观影”体验
中兴通讯携手合作伙伴打造精品5G网络
不看不知道原来朗科Z11移动固态硬盘这么多优势！
一个从数据中估计参数的基础机器学习问题
全面解析I2S、TDM、PCM音频总线
VBE标准及其在实时动态图像实时显示中的应用
2020性价比高的移动电源，双十二值得入手的爆款
防水透气膜是什么,防水透气膜有哪些应用？
2019年Q2季度印度出口太阳能电池和组件3480万美元
小米扫地机器人和科沃斯哪个好_小米和科沃斯、iRobot对比
华为邓泰华表示相比4G技术5G频谱带宽和天线通道数扩展了数十倍
手机射频开关领域的工艺纷争：RF-SOIVs.MEMS
电子芯闻早报:驾驶充电同时进行的高通新技术
圆管相贯线切割机五轴相贯线切割机
嵌入式行业需要什么样的技术人才？
应用于变压器油中气体检测的方法
关于新一代私有云产品kubernetes的微服务架构
一个简单的NMOS 驱动电路设计