机器之心专栏
机器之心编纂部
在范畴泛化 (Domain Generalization, DG) 使命中,当范畴的散布随情况持续变革时,若何准确地捕获该变革以及其对模子的影响长短常重要但也极富挑战的问题。为此,来自 Emory 大学的赵亮传授团队,提出了一种基于贝叶斯理论的时间域泛化框架 DRAIN,操纵递归收集进修时间维度范畴散布的漂移,同时通过动态神经收集以及图生成手艺的连系更大化模子的表达才能,实现对将来未知范畴上的模子泛化及预测。本工做已入选 ICLR 2023 Oral (Top 5% among accepted paPErs)。
![漂移感知动态神经网络加持,时间域泛化远超领域泛化&适应方法 第1张 漂移感知动态神经网络加持,时间域泛化远超领域泛化&适应方法 第1张](https://www.yuneu.com/zb_users/upload/2023/02/20230224113552167720975296214.png)
做者:Guangji Bai*、Chen Ling*、Liang Zhao (* equal contribution)
单元:Emory University
论文链接:https://arxiv.org/abs/2205.10664
情景导入
范畴泛化是近几年十分热门的研究标的目的,它研究的问题是从若干个具有差别数据散布的数据集 (范畴) 中进修一个泛化才能强的模子,以便在未知 (Unseen) 的测试集上获得较好的效果。目前。大部门范畴泛化的工做假设范畴之间的鸿沟 (boundary) 是明白的且模子泛化是离线的 (offline)。然而在现实世界中,范畴之间的鸿沟往往是未知且难以获取的,同时范畴的散布是渐变的,从而范畴之间存在概念漂移 (concept drift) 。
例如,当一家银行操纵模子来预测一小我能否会成为「违约告贷人」时,会考虑「年收入」、「职业类型」和「婚姻情况」等特征。因为社会跟着时间不竭演化,那些特征关于最末预测的影响也会响应地随时间而变革。
如图 1 所示,另一个例子是通过每年的推特 (Twitter) 数据来预测好比流感的发作。推特数据每年城市不竭发作变革,例如用户数量逐年上升,新的老友关系不竭增加,支流用户的年龄散布不竭变革等等,而那种数据散布随时间的不竭变革将使得模子逐步过时。响应地,假设有一个抱负的、始末连结最新的模子,那么模子参数应该响应地逐步变革以匹敌数据散布随时间变革的趋向,它还能够「预测」模子参数在肆意 (不太远) 的将来时间点应该是什么样子。因而,我们需要时间域泛化的手艺来处理上述问题。
![漂移感知动态神经网络加持,时间域泛化远超领域泛化&适应方法 第2张 漂移感知动态神经网络加持,时间域泛化远超领域泛化&适应方法 第2张](https://www.yuneu.com/zb_users/upload/2023/02/20230224113553167720975394848.png)
图 1:时间域泛化的申明性示例
存在的挑战
将范畴索引 (domain index) 视为分类变量 (categorical variable) 的现有范畴泛化办法一般不适用于时间域泛化问题,因为它们需要范畴鸿沟做为先验来进修从源域到目的域的映射。扩展示有的范畴泛化办法来处理时间域泛化面对着以下挑战:
难以描绘数据散布的漂移及其对预测模子的影响。对随时间变革的散布建模需要使模子对时间敏感 (time-sensitive) 。现有办法无论是间接将时间做为输入数据的特征,或是将模子参数仅仅视做随时间变革的函数,只要模子的动态和数据的动态没有被整体建模,那些办法就不克不及很好地将模子泛化到将来的数据。
在逃踪模子动态时缺乏表达才能。现在,深度进修的胜利离不开大模子 (例如 Transformer),此中神经元和模子参数毗连成为一个复杂的计算图,然而那也极大增加了时间域泛化问题中逃踪模子动态的难度。一个具有强表达才能的模子动态描绘及预测需要将数据动态映射到模子动态,也就是模子参数诱导的计算图随时间变革的动态。
难以对模子性能给出理论上的保障。固然在独立同散布的假设下对机器进修问题有着丰硕的理论阐发,但类似理论难以推广到散布外 (Out-of-Distribution, OOD) 假设以及数据散布随时间变革的时间域泛化问题。因而,有需要加强关于差别时间域泛化模子的才能及关系的理论阐发。
处理思绪及奉献
基于上述挑战,我们提出了一种具有漂移感知的动态神经收集的时间域泛化框架 DRAIN (Drift-A ware DynamIc Neural Networks)。
详细而言,我们提出了一个基于贝叶斯理论的通用框架,通过结合建模数据和模子动态之间的关系来处置时间域泛化问题。为了实现贝叶斯框架,操纵了带有轮回构造的图生成场景来编码息争码跨差别时间点 (timestamp) 的动态图构造 (dynamic graph-structured) 神经收集。上述场景能够实现完全时间敏感 (fully time-sensitive) 的模子,同时允许端到端 (end2end) 的训练体例。该办法可以捕捉模子参数和数据散布随时间的漂移,而且能够在没有将来数据的情况下预测将来的模子。
该研究的次要奉献能够归纳综合为以下几点:
开发了一种全新的基于贝叶斯理论的自适应时间域泛化框架,能够根据端到端的体例停止训练。
缔造性地将神经收集模子视为动态图,并操纵图生成手艺来实现完全时间敏感的模子。
提出利用序贯 (sequential) 模子自适应地进修时间漂移,并操纵进修到的序贯模子来预测将来时域的模子形态。
我们对所提出办法在将来时域上的不确定性量化 (uncertainty quantification) 以及泛化误差 (generalization error) 停止了理论阐发。
DRAIN 框架在多个公开实在世界数据集上显著超越了以往的范畴泛化和范畴适应办法,在时间域泛化使命上获得 SOTA。
问题描述
我们给出正式的时间域泛化 (temporal DG) 的问题定义。
起首,我们考虑的是当数据散布随时间变革的情景。训练时,给定肆意 T 个时间点 t_1≤t_2≤⋯≤t_T,我们有每个时间点不雅测到的源范畴 D_1,D_2,⋯,D_T, 此中
![漂移感知动态神经网络加持,时间域泛化远超领域泛化&适应方法 第3张 漂移感知动态神经网络加持,时间域泛化远超领域泛化&适应方法 第3张](https://www.yuneu.com/zb_users/upload/2023/02/20230224113553167720975392467.png)
。那里,x_i^((s) )、y_i^((s) )、N_s 别离对应时间点 t_s 的样本输入特征、标签以及样本量,X_s、Y_s 暗示时间点 t_s 的特征及标签空间。训练好的模子将在未知的将来时刻 t_(T+1)>t_T 的范畴 D_(T+1) 长进行测试。因为是范畴泛化问题,因而训练过程中不允许呈现任何将来范畴 D_(T+1) 的信息,例如无标签数据。
时间域泛化进一步假设存在时间维度的概念漂移,即范畴 D_1,D_2,⋯,D_T 的散布遵照某种时间维度的形式而变革。例如,若是我们考虑小我收入每年若何变革,我们会发现因为通货膨胀,均匀收入凡是每年以某种比率增加。房价、教育成本等随时间的变革也存在类似规律。
我们的目的是成立一个可以主动且自适应地捕获概念漂移的模子。给定源范畴 D_1,D_2,⋯,D_T,我们希望对每一个范畴 D_s 进修一个映射 g_(ω_s ):X_s→Y_s,s=1,2,⋯,T。那里 ω_s 暗示时刻 t_s 时的模子参数。最末,我们预测将来某未知范畴 D_(T+1) 上的映射 g_(ω_(T+1) ):X_(T+1)→Y_(T+1) 对应的模子参数 ω_(T+1)。如上图 1 所示,因为数据散布的时间漂移 (例如推特用户的年龄散布和推文数量逐年增加),预测模子应当随之演变 (例如模子参数权重的大小逐年递加)。
手艺计划
那里介绍我们若何处理上述三个挑战。
关于挑战 1,我们通过构建一个系统的贝叶斯概率框架来显式地 (explicitly) 描述范畴间随时间的概念漂移,那也是该工做与现有 DG 办法的素质区别。
关于挑战 2,我们提出将具有随时间变革参数的神经收集建模为动态图,并实现能够通过图生成手艺停止端到端训练的时间域泛化框架;我们通过在差别域上引入残差毗连 (skip connection) 模块进一步进步所提出办法的泛化才能以及对遗忘的鲁棒性。
最初,关于挑战 3,我们摸索了在具有挑战性的时间域泛化设定下模子性能的理论包管,并供给了所提出办法的理论阐发,例如不确定性量化和泛化误差。
1. 时间漂移的概率学描述
想要在随时间变革的范畴长进行范畴泛化,我们需要获得给按时间间隔内的概念漂移。从概率学的角度来看,对每一个源范畴 D_s,s=1,2,⋯,T, 我们通过更大化前提概率 PR(ω_s│D_s ) 训练得到神经收集 g_(ω_s )。因为 D_s 概率随时间的演化,Pr(ω_s│D_s ) 也会不竭随时间改动。我们的末极目的是基于所有源范畴 D_1,D_2,⋯,D_T 来预测将来某未知范畴上的模子参数 ω_(T+1),即 Pr(ω_(T+1)│D_(1:T) )。通过全概率公式 (Law of Total Probability),我们晓得
![漂移感知动态神经网络加持,时间域泛化远超领域泛化&适应方法 第4张 漂移感知动态神经网络加持,时间域泛化远超领域泛化&适应方法 第4张](https://www.yuneu.com/zb_users/upload/2023/02/20230224113553167720975393441.png)
那里 Ω 暗示所有参数 ω_(1:T) 所在的空间。积分号里的第一项代表推理阶段 (inference phase),即若何通过所有源范畴上的汗青信息来揣度将来时刻的模子参数;第二项代表训练阶段,即若何通过每一个源范畴的数据来得到对应的每个时间点上的模子信息。进一步,通过概率链式法例 (chain rule of probability),上式傍边的训练阶段能够被合成为
![漂移感知动态神经网络加持,时间域泛化远超领域泛化&适应方法 第5张 漂移感知动态神经网络加持,时间域泛化远超领域泛化&适应方法 第5张](https://www.yuneu.com/zb_users/upload/2023/02/20230224113553167720975324354.png)
![漂移感知动态神经网络加持,时间域泛化远超领域泛化&适应方法 第6张 漂移感知动态神经网络加持,时间域泛化远超领域泛化&适应方法 第6张](https://www.yuneu.com/zb_users/upload/2023/02/20230224113554167720975464424.png)
图 2:DRAIN 总体框架示企图。
那里,我们假设在肆意时间点 t_s,模子参数 ω_s 只和当前范畴以及汗青范畴有关,即 \,同时,没有任何关于将来范畴的信息。通过上式,复杂的训练过程被合成为 T-1 步,而每一步对应于若何操纵当前范畴数据及模子汗青信息来进修当前时刻的模子参数,即
![漂移感知动态神经网络加持,时间域泛化远超领域泛化&适应方法 第7张 漂移感知动态神经网络加持,时间域泛化远超领域泛化&适应方法 第7张](https://www.yuneu.com/zb_users/upload/2023/02/20230224113554167720975497921.png)
2. 神经网路的动态图暗示
因为数据散布随时间的变革,模子参数也需要不竭更新来适应时间漂移。我们考虑通过动态图来建模神经收集,以求到达更大化表达才能。
曲不雅上讲,一个神经收集 g_ω 能够被暗示为一个边加权图 G=(V,E,ψ),此中节点 v∈V 暗示神经收集中的神经元,而边 e∈E 则对应差别神经元中的毗连。函数 ψ:E→R 暗示边的权重,即神经收集的参数值。留意,那里关于边加权图的定义长短常广义 (general) 的,涵盖了浅层模子 (即 linear model) 以及常见的深度模子 (MLP、CNN、RNN、GNN) 。我们通过优化边加权图中边的权重来进修得到神经收集参数随时间漂移的变革。
该工做中,我们考虑神经收集的构造是已知且固定的,即 V,E 稳定,而边的权重随时间变革。由此,能够得到 ω_s=ψ(E│s),此中 ψ(⋅│s) 只依赖时间 t_s。如许,三元组 G=(V,E,ψ_s ) 定义了一个带有动态边权重的时间图 (temporal graph) 。
3. 时间漂移的端到端进修
给定神经收集在汗青范畴上进修得到的汗青形态 \,我们的目的是若何端到端地外插得到神经收集在新的范畴上的参数形态 ω_(s+1),而且得到优良的预测性能。事实上,考虑到我们将神经收集的参数变革 视做一个动态收集的演化,一个天然的办法即为通过模仿 随时间若何演化来进修得到该动态收集的隐散布 (latent distribution)。最末,我们从动态收集的隐散布中采样即可得到将来时间点神经收集参数的预测值 ω_(s+1)。
我们将进修 的隐散布描绘为一个基于轮回构造的挨次进修过程。如上图 2 所示,在肆意训练时刻 t_s,递归收集会基于汗青信息 来生成 ω_s。详细而言,我们考虑 LSTM 做为递归收集的实现,并用 f_θ 来暗示 LSTM unit,那么 f_θ 在 t_s 时刻有两个输出:当前的记忆形态 (memory state) m_s,以及包罗了汗青信息的隐概率散布 h_s,而隐概率散布 h_s 使得我们可以操纵一个图解码器 F_ξ (⋅) 来生成得到动态收集当前时刻的参数形态 ω_s。
差别于现有的在单个域上训练和正则化神经收集的工做,在那里我们专注于间接搜刮具有「优良构造」的收集散布。最初,采样得到的当前时刻神经收集参数 ω_s 被图编码器 G_η (⋅) 转化为 f_θ 鄙人一时刻的输入。整个框架挨次地在每一个训练范畴上优化,即基于当前范畴训练集来生成 ω_s 来最小化以下目的函数
![漂移感知动态神经网络加持,时间域泛化远超领域泛化&适应方法 第8张 漂移感知动态神经网络加持,时间域泛化远超领域泛化&适应方法 第8张](https://www.yuneu.com/zb_users/upload/2023/02/20230224113554167720975491468.png)
那里丧失函数由详细使命决定,好比回归使命的 MSE 或者分类使命的 cross-entropy。
4. 更少的遗忘和更好的泛化才能
在训练递归神经收集时,可能会碰到性能下降的问题。因为范畴之间存在时间维度上复杂的相关性,该问题在时间域泛化中可能会更严峻。并且,当源范畴的数量很大的时候,我们发现还可能呈现灾难性遗忘 (catastrophic forgetting) 的问题。为了减轻该问题对模子性能的影响,我们提出了通过残差毗连手艺来加强差别范畴训练模子时的相关性。详细而言,
![漂移感知动态神经网络加持,时间域泛化远超领域泛化&适应方法 第9张 漂移感知动态神经网络加持,时间域泛化远超领域泛化&适应方法 第9张](https://www.yuneu.com/zb_users/upload/2023/02/20230224113554167720975445448.png)
此中 λ 为超参,s 为滑动窗口 (sliding window) 的宽度。残差毗连的利用可以使得重生成的模子参数 ω_s 包罗部门汗青范畴的信息,而定长的滑动窗口可以包管至多线性的算法复杂度。
理论阐发
我们从理论角度切磋了所提出框架 DRAIN 在时间域泛化问题上的优胜性:(1) 更小的预测不确定性;(2) 更小的泛化误差。起首给出一些需要的定义以及假设:
![漂移感知动态神经网络加持,时间域泛化远超领域泛化&适应方法 第10张 漂移感知动态神经网络加持,时间域泛化远超领域泛化&适应方法 第10张](https://www.yuneu.com/zb_users/upload/2023/02/20230224113555167720975519374.png)
接下来的定理 1 表白,通过进修潜在的时维度的概念漂移,DRAIN 可以在测试范畴上获得更小的预测方差,即更小的不确定性:
![漂移感知动态神经网络加持,时间域泛化远超领域泛化&适应方法 第11张 漂移感知动态神经网络加持,时间域泛化远超领域泛化&适应方法 第11张](https://www.yuneu.com/zb_users/upload/2023/02/20230224113555167720975520325.png)
下面的定理 2 表白,除了预测的方差,我们的办法 DRAIN 同样能够在测试范畴上获得更小的泛化误差,即更高的泛化精度:
![漂移感知动态神经网络加持,时间域泛化远超领域泛化&适应方法 第12张 漂移感知动态神经网络加持,时间域泛化远超领域泛化&适应方法 第12张](https://www.yuneu.com/zb_users/upload/2023/02/20230224113555167720975553804.png)
尝试成果
为了验证算法效果,我们在 7 个带有时间漂移的数据集 (5 个分类、2 个回归) 长进行试验,并与多个 DA 和 DG 办法停止比力。尝试成果可见下表 1,此中我们提出的框架 DRAIN 在几乎所有数据集均获得了更优的泛化性能。相较于 CDOT/CIDA/GI 等办法,DRAIN 通过递归收集从素质上处理概念漂移问题,从而可以以更强的表达才能来端到端地进修时间漂移。
![漂移感知动态神经网络加持,时间域泛化远超领域泛化&适应方法 第13张 漂移感知动态神经网络加持,时间域泛化远超领域泛化&适应方法 第13张](https://www.yuneu.com/zb_users/upload/2023/02/20230224113555167720975544370.png)
进一步,我们在 2-Moons 数据集上对各个办法的决策鸿沟 (decision boundary) 停止了可视化尝试,从而更明晰地展示出 DRAIN 的性能提拔。通过横向比力下图 3 (d) 和图 4 (a)-(f) 的右子图 (均为测试范畴上的决策鸿沟),我们发现 DRAIN 框架在将来范畴上拥有最准确的决策鸿沟,再一次验证所提出办法对概念漂移的捕获才能以及时间维度的泛化才能。
![漂移感知动态神经网络加持,时间域泛化远超领域泛化&适应方法 第14张 漂移感知动态神经网络加持,时间域泛化远超领域泛化&适应方法 第14张](https://www.yuneu.com/zb_users/upload/2023/02/20230224113556167720975687049.jpg)
关于所提出框架 DARIN,动态神经收集的层深是一个重要的参数,它控造着性能与计算成本的权衡。我们摸索了所提出框架 DRAIN 性能关于所生成神经收集层深的敏感性阐发,由下图 5 可见在 2-Moons 以及 Elec2 数据集曲线均呈现出倒 U 型。过浅的收集会缺乏表达才能,而过深的收集则会削弱泛化才能。
![漂移感知动态神经网络加持,时间域泛化远超领域泛化&适应方法 第15张 漂移感知动态神经网络加持,时间域泛化远超领域泛化&适应方法 第15张](https://www.yuneu.com/zb_users/upload/2023/02/20230224113556167720975621626.png)
最初,我们同样停止了消融尝试 (ablation study),来进一步探究差别模块 (module) 关于所提出框架 DRAIN 的奉献和影响。如下表 2 所示,每个模块都能够有效地促进整体框架的性能,通过递归模子对所有时间域的相关性停止建模能够供给相当大的性能增益。此外,删除挨次进修模子中的跳跃毗连会使 DRAIN 难以捕捉域之间的长途时间依赖性,因为在模子进修期间可能会忘记遥远的汗青范畴信息。
![漂移感知动态神经网络加持,时间域泛化远超领域泛化&适应方法 第16张 漂移感知动态神经网络加持,时间域泛化远超领域泛化&适应方法 第16张](https://www.yuneu.com/zb_users/upload/2023/02/20230224113556167720975654761.png)
结论
我们通过提出基于动态神经收集的框架来处理时间域泛化问题,构建了一个贝叶斯框架来对概念漂移停止建模,并将神经收集视为一个动态图来捕获随时间不竭变革的趋向。我们供给了所提出框架的理论阐发(例如预测的不确定性和泛化误差)以及普遍的实证成果,从而证明我们的办法与更先进的 DA 和 DG 办法比拟的有效性和效率。
发表评论