特征选择与稀疏学习 – cyl9413的博客

版权叫牌:定冠词是视频博客作者的原型文字。,不注意博主答应,不得以为转载。。 https://blog.csdn.net/cyl9413/article/details/73694819

https://stackedit.io/editor#

1分离搜索与评价

  • 朕可以用很多地属性来界定方式任何人西瓜。:酊剂、根蒂、敲声、击出、触摸等!

  • 根蒂、敲声!

  • 属性(feature)={(relevantfeature)(irrelevant)

  特点选择:要紧记载预测。在真实机具记住义务中,记载收集后,通常率先举行特点选择。,较晚地,对记住知识举行锻炼。。why?

  • 1。维数灾荒。

  • 2.去除不中间定位特点有时会使还原记住的异议。(像侦探类似于),是否复杂的相干被拆开,只生活关键要素,现实性有时更轻易预告。。)

特点选择必须做的事确保要紧特点弱增加。,抑或,后续记住奔流将无法赢得良好的功能,因。赠送的记载集,如义务不同的,中间定位的特点能够是不同的的。。去,特点选择达到目标无干特点是指不中间定位的特点。。

  冗余特点:他们所克制的通讯可以从如此等等通讯中推断出狱。。像:面积,阴暗面积,大块。

既然有这么多话特点:以任何方式选择反而更的特点分离?

  • 1。遍历全部能够的特点分离。

  • 2。创作候选分离。,评价其集合的,思考评价水果创作下一候选分离。,持续,直到不注意反而更的候选分离。。

最优分离搜索法有两种

  • 1。特点集a1,a2,…,ad},柄状物每个特点作为候选分离。,对这d个候选单特点分离举行评价,呈现a2最优,将a2作为第圆形的选择;继,在前圆形的选择中添加任何人特点。,组成克制两个特点的候选分离。,呈现时这事D-1候选分离中a2,a4}最优,胜过a2,将{a2a4被选为本轮竞赛。,呈现低K 1轮,最优候选(K 1)特点分离不如前SE好。,终止。

  • 2。从一组达到结尾的的特点开端。,任何时候尝试使死亡不中间定位的特点。。

  • 显然,前述的战略是饕的。,因他们只思索电流一段的最佳效果选择。。

交链二:分离评价

  • 赠送的记载集D,呈现D类中I类范本的级别为pi(i=1,2,...,|y|)。为了属性分离A,呈现D思考其值分为V分离。D1,D2,…,DV},每个分离的值在A上是相等的数量的。,去,朕可以计算属性分离A的通讯增益。:Gain(A)=Ent(D)Vv=1|Dv|DEnt(D)Ent(D)=|y|k=1pklog2pk。通讯增益越大。,特点分离克制的通讯越多,它就越顶用。。

1拒绝者选择

过滤方式率先选择记载集的特点集。,继培育记住者。,特点选择奔流与后续记住者无干。;即,率先过滤特点。,继应用过滤后的特点对线圈架举行锻炼。。

矫正(中间定位) 特点是一种著名的过滤特点选择方式。,该方式设计了任何人中间定位论点量来考虑F的要紧性。。

详细的方式是对准每个锻炼范本。 xi 找到具有相等的数量花色品种的最邻接范本。 xj,它挑剔最邻接范本。 xk。是否 微分方程(XI), XJ) 表示 xi 和 xj 在质量上 t 不符合在,继计算中间定位的论点记载。:微分方程(XI), XK方阵) 与 微分方程(XI), 全部范本的XJ均方差均为平均值。

很目镜,任何人要紧的属性将会使范本尽能够着手处置它。,并放量采取不同的类别的战利品。。去,任何人属性的中间定位论点值越大,

过滤特点选择的处置逻辑如次所示:

2 地块特点选择

包围选择最接近的评价记住者的表示;鉴于记住附带的选择最脱帽表演。、量身定做的特点分离

概括地说,因包装特点选择方式最接近的用于GIV,去,从终极的记住表示风景,包围法优于过滤法。,当在另一方面,鉴于在特点选择中必要对记住者举行屡次锻炼,去,包围选择的计算管理的通常很大。

LVW(Las) Vegas 包装器是一种类型的包围特点选择算法。。它是在拉斯维加斯算法(LAS) Vegas 方式采取随机战略搜索分离。,至死花色品种器的离经叛道的行为作为特点分离的准则。。

理想化了详细满足。:


  • 〔1〕设定初始最优离经叛道的行为 E 无穷大,最佳效果特点分离是达到结尾的的属性集。 A,退步次数 t = 0

  • 〔2〕随机创作一组特点分离。 A’,运用特点分离计算花色品种器的离经叛道的行为。 E’

  • [ 3 ]是否 E’ 比 E 小,则令 A = A’, E = E’ ;抑或 t++,并退步[ 2 ]、〔3〕提议,当 t 终止或把持限度局限要素大于或合计 T 跳出流通时期。

LVW算法简明。,又鉴于随机分离选择,每回重行计算拒绝者,重行计算记住者离经叛道的行为。,若 A 和 T 很大时,该算法能够无法许久抵达终止国家的。。是否有运转时期限度局限,你能够无法腰槽receiver 收音机。。

包装特点选择的处置逻辑如次所示:

三。嵌入式特点选择

与前两种特点选择方式不同的,特点选择奔流,嵌入特点选择将特点选择奔流与记住者团结起来,这两个是在相等的数量的使尽可能有效奔流中取得的。;即,在锻炼奔流中不假思索的举行特点选择。。

像,决策树是在子域奔流中。,这是嵌入式特点选择方式。,它是思考度量的在内侧地或排序。。

4  稀疏表示与字典记住

记载集可以用矩阵表示。,每个举措任何人范本。,每个列都是任何人属性。。特点选择所思索的成绩是特点具有“稀疏性”,即,矩阵达到目标很多地列与电流的记住无干。,朕必要经过特点选择来移除这些列。。

朕现时思索其他的稀疏性:在记载集合 D 在有关的的矩阵中有很多地零点。,又这些零点挑剔整列。、整条线在。。当范本具有稀疏表示时,记住义务有很多净值利润率。,比方稀疏表示的记载更轻易线性的可分。同时,稀疏表示的记载在贮存上的担负简直不。

这么朕可以经过将记载替换为“恰当稀疏”的表格,赢得稀疏表示的净值利润率,理想化记住义务。这是为了找到通常使靠近的范本的权利字典。,将范本转变为稀疏表示表格,因此可以理想化记住义务。,使还原了线圈架的复杂的事物。,通常高位字典记住(字典) 记住),亦称“稀疏编码”(sparse 编码)。

这两个术语轻微地不同的。,“字典记住”更侧重于取得字典的奔流,而“稀疏编码”更侧重于将范本稀疏表达的奔流,但它们都是在相等的数量的使尽可能有效奔流中取得的。,因而不注意较远的的分别。。

稀疏表示的详细的奔流复杂界定方式如次:

  • **
  • [1 ]决定表现字典的词汇。 k,设定初值字典 B,d*k,内幕 d 范本属性编号

  • 〔2〕使合在一起:封合字典 B,获取范本集 X 经过字典表现后的稀疏表示 Z

  • 〔3〕使合在一起:封合 Z 革新的字典。 B

  • [4]退步第[2]、〔3〕提议,至死,你可以腰槽权利的字典。 B 战利品 X 的稀疏表示 Z

在前述的词典的记住奔流中,用户可以设置词汇。 k 大多数来把持字典的大多数。,那么引起稀疏同高度的

5紧缩觉察(紧缩) 传感)

在现实义务中,朕常常希望的事思考其中的部分地通讯回复全部通讯。。这种贫穷的理智是,在满足中,为了便于记载使调动、贮存,使住满人通常紧缩记载。,它能够会增加稍微通讯。,在使调动奔流中能够会增加稍微通讯。。要紧的是资格回复鉴于接纳的全部记载。,紧缩传感为处理这类成绩预备了新的思绪。。

紧缩觉察的核思惟是:一般而言,增加稍微通讯的记载不克不及回复到OrrIi。,又是否将原始记载经过字典记住表示成稀疏表示时,但它可以反而更地回复。。这是因稀疏性使得未知要素的引起非常的增加。

与特点选择、稀疏表示不同的,紧缩觉察关怀的是以任何方式应用以信号告知它自己的稀疏性,从注意范本中回复原始以信号告知。通常以为,紧缩觉察分为觉察测和再觉察两个阶段。。

“觉察测”关怀以任何方式对原始以信号告知举行处置以赢得其稀疏表示,这归结起来朕后面提到的特点选择。、稀疏表示等质地

使更新回复的重音是以任何方式回复原始以信号告知。,这执意紧缩觉察的实质。,当朕唠紧缩觉察时,,通常指的是这部分地。。

发表评论

电子邮件地址不会被公开。 必填项已用*标注

`