特征选择与稀疏学习 – cyl9413的博客

版权资格:冠词是视频博客作者的独创的文字。,未必博主答应,不得武断地转载。。 https://blog.csdn.net/cyl9413/article/details/73694819

https://stackedit.io/editor#

1参加搜索与评价

  • 笔者可以用差不多属性来描写任何人西瓜。:染色的、根蒂、敲声、办法、触摸等!

  • 根蒂、敲声!

  • 属性(feature)={(relevantfeature)(irrelevant)

  特点选择:要紧资料选。在真实机具默想布道所中,资料收集后,通常率先中止特点选择。,随后,对默想装备中止锻炼。。why?

  • 1。维数灾荒。

  • 2.去除不相干特点屡次地会折扣默想的难度系数。(像侦探类似于),条件复杂的相干被拆开,只遗体关键反应式,证据屡次地更轻易领会。。)

特点选择必然的确保要紧特点不熟练的缩减。,要不,后续默想快速地流动将无法开腰槽良好的功能,鉴于。补助金的资料集,如布道所形形色色的,相干的特点能够是形形色色的的。。因而,特点选择达到目标有关特点是指不相干的特点。。

  冗余特点:他们所牵制的新闻可以从那个新闻中推断出现。。譬如:根本,后表面积,大量。

既然有这么些特点:什么选择甚至更好的特点参加?

  • 1。遍历一切能够的特点参加。

  • 2。体格候选参加。,评价其大规模的,争辩评价出路体格下一候选参加。,持续,直到不注意甚至更好的候选参加。。

最优参加搜索法有两种

  • 1。特点集a1,a2,…,ad},处置每个特点作为候选参加。,对D候选单特点参加中止了评价。,假说a2最优,将a2作为第朝反方向选择;这么,在前朝反方向选择中添加任何人特点。,指派牵制两个特点的候选参加。,补助金在下面所说的事D-1候选参加中a2,a4}最优,胜过a2,将{a2a4被选为本轮竞赛。,补助金低K 1轮,最优候选(K 1)特点参加不如前SE好。,中止。

  • 2。从一组完好无损的特点开端。,任何时候尝试拟出不相干的特点。。

  • 显然,是你这么说的嘛!战略是渴望的。,鉴于他们只思索现时的整数的的粹选择。。

关系二:参加评价

  • 补助金的资料集D,补助金D类中I类范本的使相称为pi(i=1,2,...,|y|)。就属性参加A,补助金D争辩其值分为V参加。D1,D2,…,DV},每个参加的值在A上是势均力敌的的。,因而,笔者可以计算属性参加A的新闻增益。:Gain(A)=Ent(D)Vv=1|Dv|DEnt(D)Ent(D)=|y|k=1pklog2pk。新闻增益越大。,特点参加牵制的新闻越多,它就越有用处。。

1拒波器选择

过滤办法率先选择资料集的特点集。,这么培育默想者。,特点选择快速地流动与后续默想者有关。;执意说,率先过滤特点。,这么应用过滤后的特点对模子中止锻炼。。

赔偿(相干) 特点是一种著名的过滤特点选择办法。,该办法设计了任何人相干统计数字量来估量F的要紧性。。

详细的办法是反击每个锻炼范本。 xi 找到具有势均力敌的搭配的最比邻范本。 xj,它做错最比邻范本。 xk。条件 微分方程(XI), XJ) 体现 xi 和 xj 在类型上 t 离题在,这么计算相干的统计数字资料。:微分方程(XI), XK方阵) 与 微分方程(XI), 一切范本的XJ均方差均为平均值。

去用眼的,任何人要紧的属性麝香使范本尽能够近亲它。,并放量采取形形色色的类别的战利品。。因而,任何人属性的相干统计数字值越大,

过滤特点选择的处置逻辑列举如下所示:

2 地块特点选择

一批选择立即的评价默想者的体现;因为默想附带的选择最赞成表演。、量身专用化的特点参加

概括地说,鉴于包装特点选择办法立即的用于GIV,因而,从终极的默想体现自己去看,一批法优于过滤法。,当在另一方面,鉴于在特点选择中需要量对默想者中止屡次锻炼,因而,一批选择的计算头顶上的通常很大。

LVW(Las) Vegas 包装器是一种类型的一批特点选择算法。。它是在拉斯维加斯算法(LAS) Vegas 办法采取随机战略搜索参加。,末尾搭配器的偏航作为特点参加的准则。。

使容易了详细满足。:


  • 〔1〕设定初始最优偏航 E 无穷大,粹特点参加是完好无损的属性集。 A,再三地次数 t = 0

  • 〔2〕随机体格一组特点参加。 A’,运用特点参加计算搭配器的偏航。 E’

  • [ 3 ]条件 E’ 比 E 小,则令 A = A’, E = E’ ;要不 t++,并再三地[ 2 ]、〔3〕着手处理,当 t 中止或把持参量大于或比得上 T 跳出流通工夫。

LVW算法归结。,但鉴于随机参加选择,每回重行计算拒波器,重行计算默想者偏航。,若 A 和 T 很大时,该算法能够无法许久抵达中止事态。。条件有运转工夫限度局限,你能够无法到达receiver 收音机。。

包装特点选择的处置逻辑列举如下所示:

三。嵌入式特点选择

与前两种特点选择办法形形色色的,特点选择快速地流动,嵌入特点选择将特点选择快速地流动与默想者混合起来,这两个是在势均力敌的的最优化快速地流动中使臻于完善的。;执意说,在锻炼快速地流动中天然产生的中止特点选择。。

譬如,决策树是在分科快速地流动中。,这是嵌入式特点选择办法。,它是争辩度量的衣服的胸襟或排序。。

4  稀疏体现与字典默想

资料集可以用矩阵体现。,每个举措任何人范本。,每个列都是任何人属性。。特点选择所思索的成绩是特点具有“稀疏性”,执意说,矩阵达到目标差不多列与现时的的默想有关。,笔者需要量经过特点选择来移除这些列。。

笔者现时思索备选的稀疏性:在资料集合 D 在中肯的的矩阵中有差不多零点。,但这些零点做错整列。、整条线在。。当范本具有稀疏体现时,默想布道一切很多有益于。,譬如稀疏体现的资料更轻易直线的可分。同时,稀疏体现的资料在贮藏上的担负难得。

这么笔者可以经过将资料替换为“恰当稀疏”的模式,开腰槽稀疏体现的有益于,使容易默想布道所。这是为了找到通常集结的范本的适当的字典。,将范本转变为稀疏体现模式,这么大的可以使容易默想布道所。,折扣了模子的错综复杂的状态。,通常混字典默想(字典) 默想),亦称“稀疏编码”(sparse 编码)。

这两个术语轻微地形形色色的。,“字典默想”更侧重于学识字典的快速地流动,而“稀疏编码”更侧重于将范本稀疏表达的快速地流动,但它们都是在势均力敌的的最优化快速地流动中使臻于完善的。,因而不注意而且的分别。。

稀疏体现的详细的快速地流动复杂描写列举如下:

  • **
  • [1 ]决定有代理人字典的难词汇编。 k,设定初值字典 B,d*k,就中 d 范本属性编号

  • 〔2〕使停止流通字典 B,获取范本集 X 经过字典有代理人后的稀疏体现 Z

  • 〔3〕使停止流通 Z 现代化字典。 B

  • [4]再三地第[2]、〔3〕着手处理,末尾,你可以到达适当的的字典。 B 战利品 X 的稀疏体现 Z

在是你这么说的嘛!词典的默想快速地流动中,用户可以设置词汇表。 k 上胶料来把持字典的上胶料。,那么挤入稀疏平均的

5紧缩观念(紧缩) 传感)

在现实布道所中,笔者常常抱有希望的理由争辩相当多的新闻回复一切新闻。。这种需要量的记述是,在满足中,为了便于资料迁移、贮藏,民众通常紧缩资料。,它能够会缩减些许新闻。,在迁移快速地流动中能够会缩减些许新闻。。要紧的是能耐回复因为接纳的一切资料。,紧缩传感为处理这类成绩布置了新的思绪。。

紧缩观念的去核思惟是:总而言之,缩减些许新闻的资料不克不及回复到OrrIi。,但条件将原始资料经过字典默想体现成稀疏体现时,但它可以甚至更好地回复。。这是鉴于稀疏性使得未知反应式的挤入大大地的缩减。

与特点选择、稀疏体现形形色色的,紧缩观念关怀的是什么应用征象自身的稀疏性,从当观察员范本中回复原始征象。通常以为,紧缩观念分为观念测和再观念两个阶段。。

“观念测”关怀什么对原始征象中止处置以开腰槽其稀疏体现,这屈尊做某事笔者后面提到的特点选择。、稀疏体现等愿意的

再形成某事物回复的有力是什么回复原始征象。,这执意紧缩观念的实质。,当笔者唠紧缩观念时,,通常指的是这部分地。。

发表评论

电子邮件地址不会被公开。 必填项已用*标注

`