引 言
基于智能手机进行人体行为识别是移动情景识别的一个重要研究方向,在健康监控、行为检测、老年人监管等方面有广泛应用[1]。在构建行为识别模型时,利用智能手机中内置的三轴加速度传感器,对人们多种日常行为的加速度数据进行采集,并通过机器学习的方法,构建用户行为识别模型[2]。
由于每个用户的行为都有自身的特点和习惯,加之手机放置位置和方向的不确定性及多样性,导致不同用户的行为加速度数据特征的数据分布差异较大,以至于识别模型的不适用性大大增加。为了解决识别模型的自适应性问题,并且以最小的代价获得较大收获,这就需要利用迁移学习对通用模型进行修改。
为了解决通用行为模型在面对新用户时的不适用问题, 本文提出了TrELM 算法实现迁移学习。该方法是一种基于参数迁移的方法,通过对ELM 的目标函数进行修改,引入一个可以表示两域差异的迁移学习量,实现 ELM 模型的迁移学习。利用TrELM 算法实现通用模型的迁移,首先利用ELM 分类器构建通用行为识别模型,可以得到源域中识别模型的输出权值向量 βS ;之后通过对新用户的少量行为样本进行学习,修改通用模型的输出向量为 βt,实现对通用模型的修改, 完成具有迁移学习功能的行为识别模型。
1 已有研究
Dai 提出了一种 TrAdaBoost 方法[3],该方法的假设前提为源域和目标域实例数据的特征和标记相同,但数据分布不同。该方法利用AdaBoost 方法构建了一个数据样本权值自动调整的机制,在迭代过程中对源域和目标域的数据采取不同的权重调整机制,进而可以实现减少有害数据对目标域学习的影响。该方法虽然可以借助源域的部分数据样本作为辅助数据来在目标域进行学习,但是当源域和目标域的数据样本相似性较差时,负迁移效果会增加。Jiang 等在文献 [4] 中的处理办法是对源域数据样本进行领域适应性的转变,将产生负迁移效应的源域样本删除后再进行赋值,增加其在目标域中的权值大小,最终可以利用具有预测标签的目标域样本对源域样本的质量进行提升。
Dai 等人在文献 [5] 中提出翻译特征迁移学习方法,该方法是一种较为基础的特征迁移学习方法,主要通过对跨领域的特征进行学习,用以解决训练数据和测试数据所属特征空间不同的问题,利用不相关的数据帮助目标分类和聚类学习。
Lawrence 在文献 [6] 中提出了一种高效算法 MT-IVM, 该方法构建了多任务的高斯过程,在其特性上获取知识,以实现知识共享。Bonilla 在文献 [7] 中也研究了高斯过程下的多任务学习,提出了基于任务间自由形式的协方差矩阵,进而模拟交互任务的依赖性,最终利用高斯过程中知识对任务间的相互关系进行学习。Schwaighofer 等人构建了基于高斯过程和贝叶斯算法的统一模型,以解决多任务学习问题 [8]。在文献 [9] 中,Evgeniou 提出了一种以分层贝叶斯模型为前提的规则化框架,并实现了在迁移学习中的应用,解决了多任务学习的问题。该方法的实现基于如下假设,即在面临每个任务时, 将SVMs 中的特征分为两部分,一部分是所有任务都具有的共同体,另一部分是针对某个任务的专有部分,这种方法适用于具有较多样本,且源域和目标域样本较为单一的情况。
Mihalkova 在文献 [10] 中提出了 TAMAR 算法,通过马尔科夫逻辑网络在相关联领域间迁移相关知识。在马尔科夫模型中,关联领域的实体通过预测表现出来,他们的关联性可由一阶逻辑表示。该方法基于这样一个事实,若两个域是相关的,则存在一种从源域到目标域的实体之间及关系的映射。TAMAR 算法分为两个阶段,首先构造一个基于加权的对数似然度的从源域到目标域的映射;之后利用 FORTE 算法修正目标域的映射结构,修改后的马尔科夫逻辑网络可以用作目标域的关联模型来使用。此外,Davis 等人构建了二阶马氏逻辑, 实现相关知识的迁移学习,该方法根据反相马尔科夫链的形式实现源域中某一样本的架构构造,进而可以在目标域中获取该样本的公式。
本文所提出的 TrELM 算法结合了参数迁移方法,实现了ELM 在模型层面上的迁移学习功能。
2 基于迁移极速学习机的行为识别模型
目前,针对ELM 迁移学习方法的研究主要是基于实例迁移学习方法,基于参数的迁移学习大多是在SVM 结构中实现的。迁移学习算法TL-SVM 通过对 SVM 分类器进行深入研究,从判别函数 f(x)=wTx+b 中发现不同域间的差异体现在其 w 值上。通过构造可以体现两域间差异的项 μ‖w - w ‖2,将其添加至SVM 目标式中,根据一系列运算规则,即可实现不同域间的迁移学习。
用ELM 构建模型,会得到输出权值向量 β,针对数据分布不同的领域,在其上训练的 ELM 模型中的 β 向量必然不同, 虽然模型构建时输入节点加权值向量以及偏差向量均是随机赋值的,但其模型构建理论可以说明,以不同域数据样本构建的多个ELM 分类模型间的差异,可以用输出权值向量 β 表示。
鉴于SVM及ELM的相关性以及基于SVM的迁移学习研究,构造 TrELM(Transfer Extreme Learning Machine)算 法模型。通过在 ELM 的目标式中增加 μ‖βt - βS‖2 项,可以 表示两个域间的差异,通过严密的数学公式推导求解后,可 以得到目标域内的 ELM 目标式,进而实现两域间的迁移学习。 其中,‖βt - βS‖2 表示两域分类器之间的差异程度,该值越 大则分类器间的差异越大,反之越小 ;参数 μ 控制惩罚程度。 TrELM 算法原理如图 1 所示。
3 实验结果
项目组是以智能手机为背景的行为识别模型的迁移学习, 将九名测试者 p1至 p9 按其年龄分布分为 A、B、C 三组,其中, A 组成员为 p1-p3,年龄分布为 20-30 岁,相应样本集记 DA ; B 组成员为 p4-p6,年龄分布在 31-40 岁,相应样本集记 DB ; C 组成员为 p7-p9,年龄分布在 41-50 岁,相应样本集记 DC。 上述每个样本集均按比例(1 :3)分为两部分,即 DA1、DA2, DB1、DB2 和 DC1、DC2。
为了论证方法的有效性,实验将分为迁移学习前和迁移 学习后模型的适应性统计两部分。第一部分分别以 DA、DB 和 DC 作为训练集,构建 ELM 通用行为识别模型,之后对其余 两个样本集进行测试,统计测试集正确率,以衡量未迁移学 习时的模型适应性 ;第二部分是在第一部分的基础上,以其 余样本集中较少部分作为迁移学习训练样本集,对模型进行 TrELM 算法的自适应性修改,以测试集正确率作为迁移学习 后的模型适应性能力进行统计。每组实验均进行 20 次,统计 正确率的平均值。
在构建通用行为识别模型时,由于 ELM 算法的输入权值 向量是随机赋值的,故只需要确定隐藏层节点数即可。目前统 一规范确定隐藏层数量,只能靠经验值确定。选取隐藏层参 数为 100,以达到构建最优网络的目的。
另外,在 ELM 的输出函数中,C 的取值范围 [2^(-10),2^ (25)],选取分类器性能最优时的 C 值为 2^(18)。
在迁移学习过程中,假设 TrELM 算法的性能是由其相关 参数 μ 和 Ct 确定的。令 μ 的取值范围为 [0,1],Ct 的取值范 围为 [2^(-5),2^(20)] 。统计迁移训练集 20 次实验的平均 正确率如图 2 所示。图 2 中所示为三轴坐标,坐标系中每个点 表示取该点所在的 Ct 和 μ 值时,模型在迁移训练集上所得到 的正确率。由图2可知,在保证 TrELM 算法性能最优的前提下, 取 μ 为 0.4,Ct 为 2^(10)
表 1至表 6 为各交叉用户组在模型迁移学习前后的行为 识别准确率平均值的统计,上述两部分实验的相关样本集及 正确率统计结果分别列于各表中的第一行和第二行。
通过上述表格的第一行可以看出,对于所构建的通用行 为模型,在面临新用户时,行为识别正确率较低,平均值最 低为 64.75%,说明了对新用户进行行为识别时,通用模型的 不适应性以及迁移学习的必要性。通过对比各表格中第一二行 的测试集正确率,可以看出,利用新用户的行为数据进行了 基于 TrELM 算法的模型迁移学习后,行为识别正确率有了明 显提高,表 5 中正确率的增加幅度最大,为 24.63%,说明了 TrELM 算法可以有效达到迁移学习的目的。
另外,表 2 和表 5 中测试集正确率增加值要大于其余四 个表,这是由于当所迁移到的目标域用户组年龄组成与源域训 练组差异较大时,两组行为特征值的数据分布也会有较大不