证明GLM中,对数似然函数为凹函数(存在唯一最大值)

📖记知识工程学习中帮助老师进行的一次证明。

证明 GLM 中,对数似然函数为凹函数(存在唯一最大值)

这种证明方法是从指数分布族入手的,我们的目标是证明:

log(p(y;η))=log[b(y)exp(ηTT(y)a(η))]log(p(y;\eta)) = log[b(y)exp(\eta^TT(y) - a(\eta))]

为凹函数。

引理

对此我们需要利用几个引理。

1. 指数分布族中参数a(η)a(\eta)满足η2a(η)\nabla_\eta^2a(\eta)半正定

具体证明见参考资料

2. 凸函数的一个充要条件是H=[2fxixj]H=[\frac{\partial^2 f}{\partial x_i \partial x_j}]的所有特征值0\ge0

3. 对称半正定矩阵特征值非负

证明

为了方便证明,我们将所求变形后取对数

log(p(y;η))=ηTT(y)a(η)+log(b(y))log(p(y;\eta)) = \eta^TT(y) - a(\eta)+log(b(y))

由于在这里自变量为η\eta,那么易知第三项log(b(y))log(b(y))不影响凹凸性。

对于第一项,我们易知:

xTT(y)x=T(y)\frac{\partial x^TT(y)}{\partial x} = T(y)

$$ \frac{\partial^2x^TT(y)}{\partial x^2} = 0$$

ηTT(y)\eta^TT(y)也不影响凹凸性。

因此我们只需证明a(η)a(\eta)的凹凸性即可。

我们已知η2a(η)\nabla_\eta^2a(\eta)半正定(引理 1) 又可证明:

η2a(η)=2a(η)ηiηj=H\nabla_\eta^2a(\eta)=\frac{\partial^2 a(\eta)}{\partial \eta_i \partial \eta_j} = H

HH为 Hessian Matrix。

所以利用引理 2,3,4 我们可以知道,a(η)a(\eta)为凸函数。

log(p(y;η))=ηTT(y)a(η)+log(b(y))log(p(y;\eta)) = \eta^TT(y) - a(\eta)+log(b(y)) 为凹函数(存在唯一最大值)

此时证明完毕。

其他证明方法

一些其他讨论

虽然可以证明对数似然函数是凹函数,但是由于在一般条件下,若ff为凹函数,则exp(f)\exp(f)不可确定凹凸性。所以无法直接证明似然函数的凹凸性。

当然,目前普遍的结论也是 GLM 是log-concave的,并没有说似然函数的凹凸性。

参考文献

GLM :第 27 页开始提供了相关论述

Maximum likelihood estimation of cascade point-process neural encoding models:提供了另一种严格证明的方法,但是研究对象微微有所不同

Exponential family of distributions and generalized linear model : 本证明主要参考内容,提供了引理的证明

Copyright © 2020 FKYnJYQ. All rights reserved.
Powered byNext.js& Made with ❤.