您现在的位置:首页 > >

《Robust Face Recognition via Sparse Representation》论文翻译

发布时间:

摘要??我们考虑了自动识别有着不同的表情、光照、以及遮挡和伪装的正面人脸存在的问题。我们把这类识别问题描述为一个多线性回归模型中的分类问题,并且认为来自稀疏信号表示的新理论为这类问题提供了解决办法。基于由





l


1




l^1


l1最小化计算的稀疏表示,我们提出了一个通用分类算法用于目标识别(基于图像)。这个新的框架为两个人脸识别领域的关键课题(特征提取和对遮挡的鲁棒性)上提供了更好的见解。对于特征提取,我们证明了如果识别问题中的稀疏性能够被合理利用的话,特征的选择也就不再至关重要了。而真正重要的问题是:特征数是否足够大、稀疏表示是否被正确计算。根据稀疏表示理论的预测,只要特征空间维度超过一定阈值,非传统的特征(比如下采样图像(downsample images)和随机投影(random projection))和传统的特征(比如Eigenfaces和Laplacianfaces)表现得一样好。由于遮挡和腐蚀而导致的误差关于标准(像素)正交基通常是稀疏的,因而这个框架可以一致的处理这些误差。稀疏表示的理论能够帮助预测识别算法可以处理多大面积的遮挡以及怎么选择训练图像才能最大化遮挡条件下的鲁棒性。为了证实所提出的算法的有效性和验证以上的结论,我们在公共数据库上进行了大量的实验。
关键字:人脸识别、特征提取、遮挡和腐蚀(corruption)、稀疏表示、压缩感知、





l


1




l^1


l1最小化、验证和异常值拒绝


1 引言

??简约法(parsimony)作为推理的一个指导原则已经有非常久远的历史了。一个最有名的例子就是在模型选择[1],[2]中的最小描述长度准则(MDL),它明确提出,在模型类的一个层次中能生成最紧凑表示的模型应该更适用于要做出决策的任务,比如分类。高维数据处理中的一个相关但是更简单的简约法是挑选那些只依赖于少数观察的模型,这些模型只选择一个特征的较小子集来进行分类和可视化(比如稀疏PCA[3],[4]和其他)。这种稀疏特征选择方法,在某种程度上等同于[5]和[6]中的支持向量机方法(SVM)。SYM选择相关训练样本的一个较小子集来描述类之间的决策边界。虽然这些工作仅仅包括一小部分用于推理的简约法文献,但它们确实致力于阐述一个共同的主题:它们都是用简约法作为一个原则来从训练数据中选择一个有限制的特征子集或者模型,而不是直接使用训练数据对输入(测试)信号进行表示或者是分类。
??简约法在人类感知中的作用也得到了人类视觉研究结果的强烈支持。研究者们最*发现,在中低水*的人类视觉功能中,视觉皮层的许多神经元对于各种具体的刺激,比如说颜色,纹理,方向,尺度甚至是视角不同的物体图像,具有选择性。考虑到这些神经元在每一个视觉阶段能形成一个关于基础信号元素的过完备字典,这些神经元关于给出的输入图像的激励过程是高度稀疏的。
??在统计信号处理领域,根据基本元素或者信号原子的一个过完备字典计算稀疏线性表示的算法问题已经成为最*的研究热点[9],[10],[11],[12]。大部分研究热点都围绕着一个发现,即任何时候只要最优表示足够稀疏,它就能够通过凸优化有效的计算[9],即使在通常情况下此类问题很难解决[13]。由此引发的优化问题和统计学中的Lasso方法[12]相似,[14]惩罚了线性组合中系数的





l


1




l^1


l1范数,而不是直接惩罚非零系数的个数(比如





l


0




l^0


l0范数)。
??这些工作的初始目标本质上并不是推理和分类,而是利用可能比香农-奈奎斯特采样定理限制值的更低的采样频率对信号进行表示和压缩[14]。因此算法的效果可以根据表示的稀疏性和原始输入的保真度来衡量。此外,字典中单个的基本元素并不会有任何特别的语义,它们都是从标准基(比如傅里叶、小波、Curvelet、Gobor)中选出的,甚至是从随机矩阵[11],[15]中生成。然而,最稀疏的表示自然具有判别力:在基向量的所有子集中,它选择能够最紧凑表示输入信号的子集,并且拒绝其他所有可能没有那么紧凑的表示子集。
??本文中,我们提出了系数表示的自然判别性来进行分类。我们用一个基本元素是训练样本自身的过完备字典来表示测试样本,而不是用上述提到的一般的字典。如果每个类的训练样本足够多,就有可能将测试样本表示为来自同一类的训练样本的线性组合。这个表示自然是稀疏的,因为表示集只包含了总体训练数据的一小部分。在很多有趣的问题上,我们提出,测试样本在在过完备字典上的最稀疏线性表示可以有效利用





l


1




l^1


l1最小化得到。寻找最稀疏表示,从而在训练集中不同的类找出测试样本所属的类。图1用人脸识别作为一个例子阐述了这个简单的想法。稀疏表示也提供了一个简单但是及其有效的的方法来拒绝不属于训练数据中任何类的无效测试样本:这些样本的最稀疏表示往往包含跨越多个类的大量字典元素。

??我们对用来分类的稀疏性的使用和上述提到的各种简约法则有着显著的不同。我们的方法把每个单独测试样本的稀疏表示直接用于分类,并自适应的挑选有着最紧凑表示的训练样本,而不是使用稀疏性来得到一个之后能够用来区分所有测试样本的相关模型或者特征。已经提出的分类器可以被归纳为两种流行的分类器:NN(nearest neighbor)[18]和NS(nearest subspace)[19](子空间中关于来自每一个目标类的所有训练样本的最小距离)。NN分类器是基于单个训练样本的最好的表示来区分测试样本的,而NS是基于每一类所有训练样本的最好的线性表示来分类。NFL(nearest feature line)算法[20]是NN和NS两个极端的折中办法,基于一部分训练样本的最好的仿射表示来进行分类。我们的方法同样也是折中,但却考虑了所有可能的支集(在每一个类中或者交叉在多个类中)并且自适应的选择了所需的最小数量的训练样本来表示每一个测试样本。
??我们将在自动人脸识别的环境下激励和研究这个分类的新方法。人脸无疑是基于图像的识别领域中最广泛的研究对象。这在一定程度上是由于人类视觉系统的卓越的人脸识别能力[21]以及人脸识别技术的广泛而又重要的应用[22]。除此之外,与人脸识别相关的技术问题一般而言就是目标识别和数据分类的代表。反过来,稀疏表示和压缩感知理论使得我们对自动人脸识别中两个关键课题上有了更深的理解,这两个关键问题分别是:特征提取的作用以及由于遮挡所导致的困难。
??特征提取的作用。“一个目标图像的哪个低维特征对于分类是最有价值的或者能提供最多信息?”这个问题通常是人脸识别以及目标识别的中心问题。已经有大量的文献致力于研究各种依赖数据的特征变换,用于把高维测试数据投射到低维特征空间:比如Eigenfaces[23],Fisherfaces[24],Laplacianfaces[25]以及许多变种(variants)[26],[27]。对于这么多已经提出的特征,孰好孰坏几乎没有一致的看法,使用者们缺乏指导原则来决定使用哪一个特征。然而,在我们提出的框架中,压缩感知理论表明:具体选择哪一个特征空间已经变得不再至关重要。甚至随机的特征也包含了足够的信息来获得稀疏表示,从而能够正确的区分任何测试图像。特征空间的维度是否足够大才是关键的,只有这样稀疏表示才能够被正确计算。
??对遮挡的鲁棒性。遮挡对于稳健的真实人脸识别造成了相当大的阻碍[16],[28],[29]。这个困难主要是由于遮挡所导致的误差存在不可预测的自然性:它可能影响到图像的任何一部分并且可能是任意量级的。然而,这个误差通常只腐蚀图像像素的一小部分,因此在单个像素给出的标准基下是稀疏的。当误差有这样一个稀疏表示时,在我们的框架中,它能够被一致的处理:这些用于误差稀疏表示的基可以被视为是训练样本中一个特殊的类。随后,在这个扩展的字典上(训练样本+误差基)对一个有遮挡的测试图像进行稀疏表示,自然的就把测试样本遮挡部分的成分和测试对象的主体成分分离(如图1)。在这个背景下,稀疏表示和压缩感知理论描述了什么时候这个主体和误差分离可以发生,从而推断出识别算法可以容忍多大面积的遮挡。
??关于这片文章的组织。在第2部分,我们提出了一个基本的通用框架用于基于稀疏表示的分类,这个框架可以应用于基于图像的目标识别的各种各样的问题。我们也将会讨论为什么稀疏表示能够通过





l


1




l^1


l1范数最小化计算,并且稀疏表示怎么样才能被用于对任何给出的测试样本进行分类和验证。第3部分展示了怎么样运用这个通用的分类框架来研究基于图像的人脸识别领域中两个重要的问题:特征提取和对遮挡的鲁棒性。在第4部分,我们在流行的人脸数据集上用大量的实验证明了我们所提出的方法的有效性,并和其他最先进的人脸识别方法进行比较。我们所提出的方法和NN、NS的进一步关系会在增补的附录中所讨论到,相关内容请访问计算机协会数字图书馆:http://doi.ieeecomputersociety.org/10.1109/TPAMI.2008.79。
??虽然所提出的方法对于总体意义上的目标识别有着广泛的前景,但是本文的研究和实验结果仅局限于正面的人脸识别。我们将会处理光照和表情,但是我们并没有明确的考虑到目标姿势或者是依赖人脸的3D模型。再比如,由于配准误差,所提出的算法对于姿势和位移的小变化具有鲁棒性。然而,我们需要假设在应用我们的算法之前,人脸的检测、裁剪和标准化已经预先被执行。


2 基于稀疏表示的分类

??目标识别中的一个基本问题是,用来自




k



k


k 个不同类的带有标签的训练样本来正确的判定新的测试样本属于哪一类。我们把给出的来自第




i



i


i 类的





n


i




n_i


ni? 个训练样本表示为矩阵





A


i



?


[



v



i


,


1




,



v



i


,


2




,





,



v



i


,



n


i





]






R



m


×



n


i






A_idoteq[v_{i,1},v_{i,2},dots,v_{i,n_i}]inmathbb{R}^{m imes n_i}


Ai??[vi,1?,vi,2?,…,vi,ni??]∈Rm×ni? 的列。在人脸识别的背景下,我们会将一张




w


×


h



w imes h


w×h 的灰阶图像定义为向量




v






R


m



(


m


=


w


h


)



v inmathbb{R}^m(m=wh)


v∈Rm(m=wh) ,这个向量是用图像的各列堆叠出来的;从而





A


i




A_i


Ai? 中的所有列向量表示就是第




i



i


i 个目标类的所有训练人脸图像。


2.1 测试样本表示为训练样本的稀疏线性组合

??大量的统计学的模型、生成模型和判别模型被提出,利用





A


i




A_i


Ai? 的结构来进行识别。一个及其简单但是有效的方法就是利用来自单个类的样本在线性子空间上建模。子空间模型对于抓取真实数据集中尽可能多的变量足够灵活,尤其在人脸识别的环境中(在这个环境中,不同光照下和表情的人脸图像位于一个特殊的低维子空间(通常叫做人脸子空间)[24],[30])能够被很好的激励。尽管所提出的框架和算法能够引用于多模型或者是非线性分布(在增补的附录中了解更多细节,请访问计算机协会数字图书馆http://doi.ieeecomputersociety.org/10.1109/TPAMI.2008.79),为了使表示更轻松,我们首先应该假设来自于单个类的训练样本确实处于同一个子空间上。这将是我们会在结论中用到的唯一一个关于训练样本的预备知识。
??给出第




i



i


i 个目标类足够的训练样本,





A


i



?


[



v



i


,


1




,



v



i


,


2




,





,



v



i


,



n


i





]






R



m


×



n


i






A_idoteq[v_{i,1},v_{i,2},dots,v_{i,n_i}]inmathbb{R}^{m imes n_i}


Ai??[vi,1?,vi,2?,…,vi,ni??]∈Rm×ni?,任何同样来自第




i



i


i 类的新(测试)样本将大致能由处于同一个线性子空间的训练样本线性表示如下:







(1)





y


=



α



i


,


1





v



i


,


1




+



α



i


,


2





v



i


,


2




+


?


+



α



i


,



n


i






v



i


,



n


i





,






y=alpha_{i,1} v_{i,1}+alpha_{i,2} v_{i,2}+cdots +alpha_{i,n_i} v_{i,n_i}, ag{1}


y=αi,1?vi,1?+αi,2?vi,2?+?+αi,ni??vi,ni??,(1)
其中





a



i


,


j





a_{i,j}


ai,j?是标量,





a



i


,


j







R


,


j


=


1


,


2


,


?



n


i




a_{i,j}inmathbb{R},j=1,2,cdots n_i


ai,j?∈R,j=1,2,?ni?。
??由于测试样本属于哪个样本在初始条件下是未知的,我们为整个训练集定义了一个新的矩阵




A



A


A 来表示来自




k



k


k 个目标类所有的




n



n


n 个训练样本:







(2)





A


?


[



A


1



,



A


2



,


?


,



A


K



]


=


[



v



1


,


1




,



v



1


,


2




,


?


,



v



k


,



n


k





]


.






Adoteq [A_1,A_2,cdots ,A_K]=[v_{1,1},v_{1,2},cdots ,v_{k,n_k}]. ag{2}


A?[A1?,A2?,?,AK?]=[v1,1?,v1,2?,?,vk,nk??].(2)
然后y关于所有训练样本的线性表示可以写成:







(3)





y


=


A



x


0







R


m



,






y=Ax_0inmathbb{R}^m, ag{3}


y=Ax0?∈Rm,(3)
其中,





x


0



=


[


0


,


?


,


0


,



α



i


,


1




,



α



i


,


2




,


?


,



α



i


,



n


i





,


0


,


?


,


0



]


T







R


n




x_0=[0,cdots,0,alpha_{i,1},alpha_{i,2},cdots,alpha_{i,n_i},0,cdots,0]^Tinmathbb{R}^n


x0?=[0,?,0,αi,1?,αi,2?,?,αi,ni??,0,?,0]T∈Rn,向量





x


0




x_0


x0? 中除了和第




i



i


i 类相关的元素是非零元素之外,其他的元素都是0。
??由于测试样本




y



y


y 是由向量





x


0




x_0


x0? 中的元素来识别的,所以我们需要去通过对线性方程组




y


=


A


x



y=Ax


y=Ax 进行求解,从而得到稀疏表示





x


0




x_0


x0? 。注意,尽管如此,使用整个训练集来解得




x



x


x 还是和使用一个样本的NN以及使用一个类的NS有很大的区别的。之后我们将会论证,我们可以从这样一个全局表示中得到一个更具有判别性的分类器。对于识别用训练集表示的目标和拒绝用训练集表示的但是并不来自于任何类的异常样本,我们也将会解释为什么我们的全局表示的方法要比这些局部表示的方法(NN或者NS)要好。这些优点并非来自于计算量的提升:我们可以看出,算法的复杂度在训练集的大小上仍然保持线性。
??显然,当m>n时,方程组




y


=


A


x



y=Ax


y=Ax 是超定的,如果该方程组




y


=


A


x



y=Ax


y=Ax 存在精确解,那么它一定是唯一的。然而,我们将会在第3部分看到,在稳健的人脸识别中,方程组




y


=


A


x



y=Ax


y=Ax 往往是欠定的,也就是解不唯一。按照惯例,这个问题可以通过选择最小





l


2




l^2


l2 范数解来解决:







(4)





(



l


2



)


:




x


2



^



=


a


r


g


m


i


n







x






2



subject


?


to


?


A


x


=


y


.






(l^2): hat{x_2}=arg minleft | x ight |_2 extbf{subject} extbf{to} Ax=y. ag{4}


(l2):x2?^?=argmin∥x∥2?subject?to?Ax=y.(4)
尽管这个优化问题能够被轻松解决(通过A的伪逆),但是






x


^



2




hat{x}_2


x^2? 并不能很好的用来识别测试样本




y



y


y。如例1中所示,






x


^



2




hat{x}_2


x^2? 通常是稠密的,有着与很多来自与不同类的训练样本对应的非零元素。为了解决这个问题,我们转而利用了以下的观察:一个有效的测试样本




y



y


y通常可以被只来自同一类的训练样本充分的表示。只要目标类的数量k足够大,这个表示往往是稀疏的。举个例子,当k=20的时候,解向量






x


^



0




hat{x}_0


x^0? 中只有5%的元素是非零的。






x


^



0




hat{x}_0


x^0? 越稀疏,测试样本y属于哪一个类就越容易被准确的判定。
??以上结论促使我们通过解决以下优化问题来寻找




y


=


A


x



y=Ax


y=Ax 的最稀疏的解:







(5)





(



l


0



)


:




x


0



^



=


a


r


g


m


i


n







x






0



subject


?


to


?


A


x


=


y


.






(l^0): hat{x_0}=arg minleft | x ight |_0 extbf{subject} extbf{to} Ax=y. ag{5}


(l0):x0?^?=argmin∥x∥0?subject?to?Ax=y.(5)
其中









?






0




left | cdot ight |_0


∥?∥0? 表示





l


0




l^0


l0 范数,就是向量中非零元素的个数。事实上,如果




A



A


A 中的列处于一般的位置,




y


=


A


x



y=Ax


y=Ax 的一些解x中,只要




x



x


x 中的非零元素小于m/2,




x



x


x 就是唯一的稀疏解:即






x


^



0



=


x



hat{x}_0=x


x^0?=x[33]。然而,求解一个欠定线性方程组从而寻找最稀疏的解是一个NP难问题,即使求大约解[13]也很难:也就是说,在一般情况下,没有比遍历元素的所有子集更高效的方法来寻找




x



x


x 最稀疏的解。


2.2 通过





l


1




l^1


l1 最小化求稀疏解

??稀疏表示和压缩感知新兴理论[9],[10],[11]最*的发展表明,如果





x


0




x_0


x0?被认为是足够稀疏的,





l


0




l^0


l0 最小化问题的求解可以等同于以下的





l


1




l^1


l1 最小化问题的求解:







(6)





(



l


1



)


:




x


1



^



=


a


r


g


m


i


n







x






1



subject


?


to


?


A


x


=


y


.






(l^1): hat{x_1}=arg minleft | x ight |_1 extbf{subject} extbf{to} Ax=y. ag{6}


(l1):x1?^?=argmin∥x∥1?subject?to?Ax=y.(6)
这个问题可以通过线性编程方法在多项式时间内求解[34]。当解非常稀疏时,甚至会有更高效的解决方法。比如说,homotopy算法求得有t个非零元素的解时,时间复杂度为




O


(



t


3



+


n


)



O(t^3+n)


O(t3+n),在训练集大小上是线性的[35]。


2.2.1 几何解释


??图2给出了为什么





l


1




l^1


l1范数最小化能够求出足够稀疏解的几何解释[36]。





P


α




P_alpha


Pα? 表示为半径为




α



alpha


α 的





l


1




l^1


l1-球(或者是正轴体):







(7)






P


α



?



{


x


:







x






1






α


}







R


n



.






P_alphadoteq left { x:left | x ight |_1leq alpha ight }inmathbb{R}^n. ag{7}


Pα??{x:∥x∥1?≤α}∈Rn.(7)
在图2中,





l


1




l^1


l1-球





P


1




P_1


P1? 被映射成多面体




P


?


A


(



P


1



)


?



R


m




Pdoteq A(P_1)subset mathbb{R}^m


P?A(P1?)?Rm ,




P



P


P 是由所有满足




y


=


A


x



y=Ax


y=Ax(其中x的





l


1




l^1


l1 范数是小于1的)的




y



y


y 组成。
??





P


α




P_alpha


Pα? 和多面体




A


(



P


α



)



A(P_alpha)


A(Pα?) 的几何关系在比例上是不变的。也就是说,如果我们对





P


α




P_alpha


Pα?进行比例变换,




A


(



P


α



)



A(P_alpha)


A(Pα?) 也会进行同样的比例变换。在几何意义上,寻找





l


1




l^1


l1 范数最小化的解






x


^



1




hat{x}_1


x^1? 就相当于放大





l


1




l^1


l1-球





P


α




P_alpha


Pα?直到多面体




A


(



P


α



)



A(P_alpha)


A(Pα?) 第一次碰到




y



y


y。此时




α



alpha


α 的值就等于











x


^



1







1




left | hat{x}_1 ight |_1


∥x^1?∥1?。
??现在,假设对于




y


=


A



x


0




y=Ax_0


y=Ax0? 存在稀疏解





x


0




x_0


x0? 。我们希望知道怎样才能通过(6)正确的解得





x


0




x_0


x0?。这个问题通过图2中的几何表示很容易就能够被解决:由于






x


^



1




hat{x}_1


x^1? 是通过同时放大





P


α




P_alpha


Pα? 和




A


(



P


α



)



A(P_alpha)


A(Pα?),直到




A


(



p


α



)



A(p_alpha)


A(pα?) 碰到




y



y


y ,故





l


1




l^1


l1 最小化的解






x


^



1




hat{x}_1


x^1?一定会在




P



P


P 的边界上生成




A




x


^



1




Ahat{x}_1


Ax^1?。
??因此,如果点




A


(



x


0



/








x


0







1



)



A(x_0 /left | x_0 ight |_1)


A(x0?/∥x0?∥1?) 在多面体




P



P


P 的边界上,那么






x


^



1



=



x


0




hat{x}_1=x_0


x^1?=x0?。如图2中举的例子,很容易看出





l


1




l^1


l1 最小化解出了所有只有一个非零元素的





x


0




x_0


x0?。这个等式能够成立是因为




P


1



P1


P1 的所有顶点都映射在




P



P


P 的边界上。
??通常情况下,如果




A



A


A 将




P


1



P1


P1 所有




t



t


t 维*面都映射到




P



P


P 上,那么多面体




P



P


P 就被称为是(中心)t邻多面体(任意k个顶点均为某个面的顶点集的多面体)[36]。从以上我们可以看出,只有当




P



P


P 是




t



t


t邻多面体时,





l


1




l^1


l1 最小化(6)才能正确求出所有含有小于等于t+1个非零元素的





x


0




x_0


x0?,在这种情况下,





l


1




l^1


l1 最小化才等同于





l


0




l^0


l0 最小化(5)。这种情况非常常见:即使是由随机矩阵给出的(比如:均匀,高斯和偏傅里叶矩阵)多面体P都是高度相邻的[15],都能够用





l


1




l^1


l1 最小化正确的求解。
??不幸的是,没有一个已知的算法能够有效的计算出给出多面体P的邻度。最好的已知算法是组合(combinatorial),并且当维度m合适时才有效[37]。当m很大时,一个随机选择的多面体的邻度有很大的概率在







(8)





c


?


m


<


t


<



?


(


m


+


1


)


/


3


?



,






ccdot m<t<left lfloor (m+1)/3 ight floor , ag{8}


c?m之间浮动,其中c是一个很小的正数[9],[36]。不严格的说,只要





x


0




x_0


x0? 中非零元素的个数远小于维度m的话,





l


1




l^1


l1 最小化就能够求出





x


0




x_0


x0?。


2.2.2 处理小的稠密噪声

??至此,我们假设等式(3)已经被精确的处理。但是由于真实的数据存在噪声,测试样本不可能由训练样本精确的稀疏表示。模型(3)可以通过加上一个足够小的稠密噪声做出改进,表示如下:







(9)





y


=


A



x


0



+


z


,






y=Ax_0+z, ag{9}


y=Ax0?+z,(9)
其中




z






R


m




zinmathbb{R}^m


z∈Rm 是一个有界噪声符号,并且








z






<


ε



left | z ight |<varepsilon


∥z∥<ε。稀疏解





x


0




x_0


x0? 仍然可以通过以下稳定的





l


1




l^1


l1 最小化**獬觯







(10)





(



l


s


1



)


:




x


^



1



=


a


r


g


m


i


n







x






1



subject


?


to


?







A


x


?


y






2






ε


.






(l^1_s): hat{x}_1=arg minleft | x ight |_1 extbf{subject} extbf{to} left | Ax-y ight |_2leq varepsilon . ag{10}


(ls1?):x^1?=argmin∥x∥1?subject?to?∥Ax?y∥2?≤ε.(10)
??这个凸优化问题可以通过二阶锥编程有效的解决[34]。




(



l


s


1



)



(l^1_s)


(ls1?) 的解一定可以在全体随机矩阵A[38]中*似的求出:




ρ



ho


ρ 和




ζ



zeta


ζ 是常量,有很大的概率认为,如果










x


0







0



<


ρ


m



left | x_0 ight |_0< ho m


∥x0?∥0?<ρm 并且









z






2






ε



left | z ight |_2leq varepsilon


∥z∥2?≤ε ,那么计算得到的






x


^



1




hat{x}_1


x^1? 需要满足:







(11)











x


1



^



?



x


0










ζ


ε


.






left | hat{x_1}-x_0 ight |leq zeta varepsilon. ag{11}


∥x1?^??x0?∥≤ζε.(11)


2.3 基于稀疏表示的分类(SRC)


??从训练集的一个类中给出一个新的测试样本




y



y


y,我们首先通过 (6) 和 (10)来计算




y



y


y 的稀疏表示






x


^



1




hat{x}_1


x^1?。理想状况下,所预测的稀疏表示






x


^



1




hat{x}_1


x^1? 中的非零元素将仅仅和




A



A


A 的部分列关联(即这些非零元素是这些列前面的系数),这些列都来自于同一个目标类




i



i


i,然后我们可以很轻松的把测试样本




y



y


y 归为这一类。然而,噪声和模型误差可能导致一小部分非零元素与不同目标类关联(如图3)。基于全局的稀疏表示,我们可以设计很多可能的分类器来解决这个问题。比如,我们可以简单的将y归为与






x


^



1




hat{x}_1


x^1? 中最大元素相关联的目标类中。但是,这种方法并没有利用到与人脸识别中的图像相关的子空间结构。为了更好的利用这样的线性结构,我们通过比较






x


^



1




hat{x}_1


x^1? 中与哪个目标类中所有训练样本的相关联的元素能够更好的重构y,来对y分类。
??对于每一类




i



i


i,令





δ


i



:



R


n







R


n




delta_i:mathbb{R}^n omathbb{R}^n


δi?:Rn→Rn 为一个描述函数,作用是选择只和第




i



i


i 类相关联的系数。对于




x






R


n



,



δ


i



(


x


)






R


n




xinmathbb{R}^n,delta_i(x)inmathbb{R}^n


x∈Rn,δi?(x)∈Rn是一个新的向量,





δ


i



(


x


)



delta_i(x)


δi?(x)中所有的非零元素是向量




x



x


x 中只与目标类




i



i


i 相关联的元素。使用只与第




I



I


I 类相关联的系数,我们可以大概重构出给出的测试样本




y



y


y,记为






y


^



i



=


A



δ


i



(




x


^



1



)



hat{y}_i=Adelta_i(hat{x}_1)


y^?i?=Aδi?(x^1?)。然后我们就可以根据哪个类能够使得




y



y


y 和






y


^



i




hat{y}_i


y^?i? 之间的残差最小,来对




y



y


y 进行分类:







(12)







min


?



i




r


i



(


y


)


?





y


?


A



δ


i



(




x


^



1



)






2



.






mathop {min }limits_i r_i(y)doteq|y-Adelta_i(hat{x}_1)|_2. ag{12}


imin?ri?(y)?∥y?Aδi?(x^1?)∥2?.(12)
以下的算法1概括了完整的识别步骤。我们的执行通过一个基于[39]和[40],用于线性编程的对偶算法来最小化





l


1




l^1


l1范数。


例1(





l


1




l^1


l1最小化 vs





l


2




l^2


l2 最小化)


为了阐述算法1是怎么工作的,我们随机选择了Extended Yale B 数据库中2414张图像的一半作为训练集,剩下的部分用于测试。在这个例子中,我们对所有的图像进行下采样(subsample),使得每一张图片的大小从初始的192




×



imes


× 168降到了12




×



imes


× 10。下采样图像的所有像素值构成一个120维的特征,堆叠成算法中




A



A


A 的列。因此,矩阵




A



A


A 的大小为120




×



imes


× 1207,并且方程组




y


=


A


x



y=Ax


y=Ax 是欠定的。图3a展示了一个来自第1类的测试图像通过算法求出的稀疏系数。该图也展示了对于于两个最大系数的特征图像和原始图像。这两个最大的系数都来自于目标类1中的训练样本。图3b展示了38个类的投影系数





δ


i



(


x


)


,


i


=


1


,


2


,





,


38



delta_i(x),i=1,2,dots,38


δi?(x),i=1,2,…,38 的残差。使用12




×



imes


× 10


热文推荐
猜你喜欢
友情链接: 团党工作范文 工作范文 表格模版 社科文档网 营销文档资料 工程文档大全