记知识工程学习中帮助老师进行的一次证明。
证明 GLM 中,对数似然函数为凹函数(存在唯一最大值)
这种证明方法是从指数分布族入手的,我们的目标是证明:
log(p(y;η))=log[b(y)exp(ηTT(y)−a(η))]
为凹函数。
引理
对此我们需要利用几个引理。
1. 指数分布族中参数a(η)满足∇η2a(η)半正定
具体证明见参考资料
2. 凸函数的一个充要条件是H=[∂xi∂xj∂2f]的所有特征值≥0
3. 对称半正定矩阵特征值非负
证明
为了方便证明,我们将所求变形后取对数
log(p(y;η))=ηTT(y)−a(η)+log(b(y))
由于在这里自变量为η,那么易知第三项log(b(y))不影响凹凸性。
对于第一项,我们易知:
∂x∂xTT(y)=T(y)
$$ \frac{\partial^2x^TT(y)}{\partial x^2} = 0$$
故ηTT(y)也不影响凹凸性。
因此我们只需证明a(η)的凹凸性即可。
我们已知∇η2a(η)半正定(引理 1)
又可证明:
∇η2a(η)=∂ηi∂ηj∂2a(η)=H
其H为 Hessian Matrix。
所以利用引理 2,3,4 我们可以知道,a(η)为凸函数。
则log(p(y;η))=ηTT(y)−a(η)+log(b(y)) 为凹函数(存在唯一最大值)
此时证明完毕。
其他证明方法
一些其他讨论
虽然可以证明对数似然函数是凹函数,但是由于在一般条件下,若f为凹函数,则exp(f)不可确定凹凸性。所以无法直接证明似然函数的凹凸性。
当然,目前普遍的结论也是 GLM 是log-concave
的,并没有说似然函数的凹凸性。
参考文献
GLM :第 27 页开始提供了相关论述
Maximum likelihood estimation of cascade
point-process neural encoding models:提供了另一种严格证明的方法,但是研究对象微微有所不同
Exponential family of distributions
and generalized linear model : 本证明主要参考内容,提供了引理的证明