证明无偏估计量的例题（干货）

2025-08-13 06:42:01 阅读 757 评论 0

摘要：非线性工具变量回归的不确定性量化是一个困难的问题。我们提出一种基于高斯过程先验和拟贝叶斯分析的新方法，它可以与灵活的机器学习方法结合，并具有渐进最优的收敛保证。本期AI TIME PhD直播间，我们邀请到清华大学博士生——王子昱，为我们带来报告分享《对偶工具变量回归

非线性工具变量回归的不确定性量化是一个困难的问题。我们提出一种基于高斯过程先验和拟贝叶斯分析的新方法，它可以与灵活的机器学习方法结合，并具有渐进最优的收敛保证。

本期AI TIME PhD直播间，我们邀请到清华大学博士生——王子昱，为我们带来报告分享《对偶工具变量回归模型的拟贝叶斯推断》。

王子昱：清华大学在读博士生，导师为张钹、朱军教授。他的研究兴趣包括因果推断和贝叶斯方法。
本次研究为工具变量回归的不确定性度量工作。
Background: IV Regression
工具变量回归是一种从观测数值中估计因果效应的重要工具。在观测数值中，经常会存在混杂的情形，它可以用下面的因果图表示：
E(y∣x)≠f(x)
在存在混杂的情况下，u和x的条件期望是非0的。于是我们不能通过估计条件期望的方式来得到因果效应的无偏估计。但是在很多情况下，我们还是可以通过所谓的控制变量来得到我们估计的因果效应估计，工具变量就是满足上方因果图的Z，它对于因变量的影响会只通过自变量传递。但是在本研究中，我们会使用如下的条件矩约束的框架：
控制变量回归可以被应用在许多如社会科学、医学等关注因果效应的领域，条件值约束也会出现在其他问题中。
社会科学：
• x = education, y = return (e.g., future income), u = family socio-economic status; z: #siblings, school lottery, etc.
• x = education, y = return (e.g., future income), u = family socio-economic status; z: #siblings, school lottery, etc.
我们接下来首先看下该model是如何估计的。
我们要找到f来满足下图这样的一组条件值约束：
首先，我们要先能够计算条件值约束，即计算这样的条件期望算子。在这之后，我们就可以通过最小化近似条件值约束的方式来估计。但因为我们是有一组条件值约束的，我们需要通过下面公式做加权得到目标函数。
但是对于一般的非线性条件，情况会变得困难很多。这是因为我们估计条件期望算子的过程不再能够被轻松的解决。近期的一些工作使用核方法解决这一问题，它们用RKHS来表示H,J。并且我们把条件期望算子的估计定义成一种实际上等价于核岭回归的形式。也就是我们定义xi和zi是我们观测到的数值。
Background: Nonlinear IV Estimation
我们仍然需要找一个z空间上函数范数的来做加权。我们使用下面的一个范数，其好处主要体现在计算和理论分析上。
我们现在知道如何做估计，但是我们还需要关注收敛速度问题。
Nonlinear IV: Uncertainty Quantification?
NPIV是一个著名的不适定 (ill-posed) 反问题，即使在看起来非常简单的二维情况下，收敛速度也可能会非常的慢。因此不确定性量化是非常重要的。
Bayesian IV?
非线性IV模型的不确定性度量比较困难，比如我们很难使用贝叶斯方法。这是因为贝叶斯建模需要关于整个数据生成过程的知识，这是条件矩约束模型中不具有的。如果要使用标准的贝叶斯方法，我们需要引入额外的假设，比如假设第一阶段误差加性可分：
此时贝叶斯方法需要同时建模ux和uy得到(ux,uy),并且也对f,g建模。
• 计算昂贵且难以规模化(BNP)
• 误差加性可分的假设限制性过强
这些都是我们只关注点估计所不会遇到的问题。
Quasi-Bayesian Inference
在拟贝叶斯方法中，我们选定一个先验π ,之后使用下面的Gibbs 分布（拟后验分布）度量不确定性：
直观上 Gibbs 分布权衡了数据中包含的信息和先验知识：
但是也存在问题：首先是 Gibbs 分布难以计算，对每个固定的f去计算拟似然值都需要解决一个优化问题，这是非常昂贵的。除此之外，由于对条件期望的估计误差，拟后验分布的频率学派行为并不是很清晰。
Quasi-Bayesian Dual IV
Computation: Closed-form Quasi-Posterior
关于计算问题，如果我们将两个函数空间都使用RKHS来表示的话，我们的拟后验分布是有下面这样的闭式形式。
Computation & Heuristic Application to NN Models
下面的randomized prior trick提供了一种高效的推断方法：
这个结果说明从拟后验分布中采样只需要解一个优化问题，它相当于对MAP估计的目标进行扰动。该方法可以推广到基于宽神经网络的模型，其时间复杂度与集成训练相当。
Theory
在我们给定拟后验分布后，可以构造一系列的可信集 (credible set)。直观上这些可信集应该可以恰好包含真实参数，而不应该更大或者更小。
我们首先有下面的比较粗糙的结果。它们只需要两个RKHS满足一定的正则性就可以成立。
Theory: in extended arXiv version
如果我们引入一些在IV里标准的假设，我们可以得到更加精细的结果。我们可以建立L2和Sobolev范数下的收敛率。这些结果的量级是最优的:
由此我们可以推出，在上述两类范数下的可信集的半径有正确的数量级。
Simulation: 1D
使用固定形式的核的拟后验分布：
• 不确定度估计正确地反映了数据中可用的信息，并且在渐近前看来是有效的
• 在工具变量较弱的情况下同样比较可靠。
Simulation: Run Time
我们提出的模型更具有鲁棒性，而且具有相对更佳的时间复杂度。
Table 1: Average run time in seconds. N/A: does not converge after 20min. Tested on Tesla P100 / i9-9900k.
Simulation: Airline Demand
我们还在当下较为流行的模型中实验了我们的方法，它大概描述了航班票价和需求关系的关系。
由上图可见，我们的方法都表现出了比较好的性能。
论文题目：
Quasi-Bayesian Dual Instrumental Variable Regression
论文链接：
https://arxiv.org/abs/2106.08750