特征选择与稀疏学习 – cyl9413的博客

版权陈述:本文是视频博客作者的原件文字。,无博主批准,不得以为转载。。 https://blog.csdn.net/cyl9413/article/details/73694819

https://stackedit.io/editor#

1子类搜索与评价

  • 我们家可以用好多属性来特点描述每一西瓜。:色彩、根蒂、敲声、用线标出、触摸等!

  • 根蒂、敲声!

  • 属性(feature)={(relevantfeature)(irrelevant)

  特点选择:要紧最高纪录预期。在真实机具结论作业中,最高纪录收集后,通常率先中止特点选择。,后来的,对结论战略中止锻炼。。why?

  • 1。维数灾荒。

  • 2.去除不相干特点动会贬值结论的争论。(像侦探俱),先决条件复杂的相干被拆开,只遗体关键反应式,事实动更轻易注意。。)

特点选择必需品确保要紧特点将不会垂下。,不然,后续结论进程将无法购置物良好的机能,因。先决条件最高纪录集,如作业差额,相干的特点可能性是差额的。。这么,特点选择说得中肯无干特点是指不相干的特点。。

  冗余特点:他们所包住的书信可以从及其他书信中推断浮现。。譬如:规模,下侧积,形成大块。

既然有偌多特点:到何种地步选择甚至更好的特点子类?

  • 1。遍历自己的事物可能性的特点子类。

  • 2。使产生候选子类。,评价其才能,鉴于评价出路使产生下一候选子类。,持续,直到无甚至更好的候选子类。。

最优子类搜索法有两种

  • 1。特点集a1,a2,…,ad},招待每个特点作为候选子类。,对D候选单特点子类中止了评价。,先决条件a2最优,将a2作为第弧形的全集;当时的,在前弧形的选择中添加每一特点。,产生包住两个特点的候选子类。,承认在刚过去的D-1候选子类中a2,a4}最优,胜过a2,将{a2a4被选为本轮竞赛。,承认低K 1轮,最优候选(K 1)特点子类不如前SE好。,中止。

  • 2。从一组全部的特点开端。,任何时候尝试切除不相干的特点。。

  • 显然,是你这么说的嘛!战略是渴望的。,因他们只思索容易丰满的的冠选择。。

使连续二:子类评价

  • 先决条件最高纪录集D,承认D类中I类范本的使均衡为pi(i=1,2,...,|y|)。在流行中的属性子类A,承认D鉴于其值分为V子类。D1,D2,…,DV},每个子类的值在A上是势均力敌的的。,这么,我们家可以计算属性子类A的书信增益。:Gain(A)=Ent(D)Vv=1|Dv|DEnt(D)Ent(D)=|y|k=1pklog2pk。书信增益越大。,特点子类包住的书信越多,它就越可通行的东西。。

1渗透选择

过滤办法率先选择最高纪录集的特点集。,当时的培育结论者。,特点选择进程与后续结论者无干。;执意说,率先过滤特点。,当时的应用过滤后的特点对模仿中止锻炼。。

给予帮助(相干) 特点是一种著名的过滤特点选择办法。,该办法设计了每一相干统计学量来评判F的要紧性。。

详细的办法是计划每个锻炼范本。 xi 找到具有势均力敌的分类学的最邻国范本。 xj,它过失最邻国范本。 xk。先决条件 微分方程(XI), XJ) 体现 xi 和 xj 在优质的上 t 矛盾在,当时的计算相干的统计学最高纪录。:微分方程(XI), XK方阵) 与 微分方程(XI), 自己的事物范本的XJ均方差均为平均值。

绝眼睛的,每一要紧的属性麝香使范本放量性几乎它。,并放量采取差额类别的战利品。。这么,每一属性的相干统计学值越大,

过滤特点选择的处置逻辑如次所示:

2 地块特点选择

包装袋选择正好评价结论者的体现;鉴于结论辅佐的选择最关切演技。、量身定做的特点子类

概括地说,因包装特点选择办法正好用于GIV,这么,从终极的结论体现看待,包装袋法优于过滤法。,当在另一方面,鉴于在特点选择中资格对结论者中止屡次锻炼,这么,包装袋选择的计算常常费用通常很大。

LVW(Las) Vegas 包装器是一种类型的包装袋特点选择算法。。它是在拉斯维加斯算法(LAS) Vegas 办法采取随机战略搜索子类。,结局分类学器的错误作为特点子类的规范。。

理想化了详细实施。:


  • 〔1〕设定初始最优错误 E 无穷大,冠特点子类是全部的属性集。 A,故态复萌次数 t = 0

  • 〔2〕随机使产生一组特点子类。 A’,应用特点子类计算分类学器的错误。 E’

  • [ 3 ]先决条件 E’ 比 E 小,则令 A = A’, E = E’ ;不然 t++,并故态复萌[ 2 ]、〔3〕途径,当 t 中止或把持决定反应式大于或发展成为 T 跳出动员。

LVW算法归结。,不管到什么水准鉴于随机子类选择,每回重行计算渗透,重行计算结论者错误。,若 A 和 T 很大时,该算法可能性无法许久抵达中止遗产。。先决条件有运转工夫限度局限,你可能性无法通行receiver 收音机。。

包装特点选择的处置逻辑如次所示:

三。嵌入式特点选择

与前两种特点选择办法差额,特点选择进程,嵌入特点选择将特点选择进程与结论者团结起来,这两个是在势均力敌的的使最优化进程中使臻于完善的。;执意说,在锻炼进程中无意识或下意识行为中止特点选择。。

譬如,决策树是在发枝的进程中。,这是嵌入式特点选择办法。,它是鉴于度量的向内的或排序。。

4  稀疏体现与字典结论

最高纪录集可以用矩阵体现。,每个举措每俱本。,每个列都是每一属性。。特点选择所思索的成绩是特点具有“稀疏性”,执意说,矩阵说得中肯好多列与容易的结论无干。,我们家资格经过特点选择来移除这些列。。

我们家现时思索可供选择的事物稀疏性:在最高纪录集合 D 在应和的矩阵中有好多零点。,不管到什么水准这些零点过失整列。、整条线在。。当范本具有稀疏体现时,结论作业有很多好人。,譬如稀疏体现的最高纪录更轻易一次的可分。同时,稀疏体现的最高纪录在往事上的担负罕有地。

这么我们家可以经过将最高纪录替换为“恰当稀疏”的外形,购置物稀疏体现的好人,理想化结论作业。这是为了找到通常集中的的范本的真正的字典。,将范本转变为稀疏体现外形,这样的事物可以理想化结论作业。,贬值了模仿的复杂性。,通常崇高的字典结论(字典) 结论),亦称“稀疏编码”(sparse 编码)。

这两个术语轻蔑地差额。,“字典结论”更侧重于习得字典的进程,而“稀疏编码”更侧重于将范本稀疏表达的进程,但它们都是在势均力敌的的使最优化进程中使臻于完善的。,因而无更多的或附加的人或事物的分别。。

稀疏体现的详细的进程简略特点描述如次:

  • **
  • [1 ]决定晒字典的难词汇编。 k,设定初值字典 B,d*k,穿着 d 范本属性编号

  • 〔2〕集中字典 B,获取范本集 X 经过字典晒后的稀疏体现 Z

  • 〔3〕集中 Z 重复强调字典。 B

  • [4]故态复萌第[2]、〔3〕途径,结局,你可以通行真正的的字典。 B 战利品 X 的稀疏体现 Z

在是你这么说的嘛!词典的结论进程中,用户可以设置词汇。 k 大块来把持字典的大块。,到这水准印象稀疏水准

5紧缩认识(紧缩) 传感)

在实践作业中,我们家常常祝福鉴于些许书信回复自己的事物书信。。这种资格的缘故是,在实施中,为了便于最高纪录传动装置、往事,流传民间的通常紧缩最高纪录。,它可能性会垂下少量地书信。,在传动装置进程中可能性会垂下少量地书信。。要紧的是能胜任的回复鉴于收执的自己的事物最高纪录。,紧缩传感为处理这类成绩粮食了新的思绪。。

紧缩认识的胸部思惟是:一般而言,垂下少量地书信的最高纪录不克不及回复到OrrIi。,不管到什么水准先决条件将原始最高纪录经过字典结论体现成稀疏体现时,但它可以甚至更好地回复。。这是因稀疏性使得未知反应式的印象大大地的增加。

与特点选择、稀疏体现差额,紧缩认识关怀的是到何种地步应用发信号完全地的稀疏性,从评论范本中回复原始发信号。通常以为,紧缩认识分为认识测和再认识两个阶段。。

“认识测”关怀到何种地步对原始发信号中止处置以购置物其稀疏体现,这归结起来我们家后面提到的特点选择。、稀疏体现等容量

重新组装回复的关键点是到何种地步回复原始发信号。,这执意紧缩认识的实质。,当我们家报告紧缩认识时,,通常指的是这部分的。。

发表评论

电子邮件地址不会被公开。 必填项已用*标注

`