数据降维(Dimensionality Reduction):维度灾难与降维技术的几何本质(数据降维处理的常用方法有)

在机器学习实践中,常常面临一个普遍而棘手的问题:过拟合!模型在训练集上表现出色,却在测试集中泛化能力不足。

为了解决这一问题,曾引入正则化技术,并取得了很好的效果。

但接下来,我们将要讨论另一条同样重要却更为根本的路径——降维

文章速览

ARITCLE CONTENTS

PART .01 >>>

过拟合现象

PART .02 >>>

“维度灾难”

PART .03 >>>

降维的三大方法

01

过拟合现象

机器学习中的知识诅咒

在深入降维之前,首先需要理解机器学习中最经典的现象:过拟合

模型过度迎合训练数据中的细节与噪声。

导致其决策边界变得异常复杂,失去了捕捉数据低效普遍规律的能力。

其结果就是,训练误差可能极低,但泛化误差(在未知数据上的误差)却可能高得惊人。

对抗过拟合,通常有三大策略:

1. 增加数据量:最直接有效的方法,但往往需要高昂的成本。

2. 正则化技术:过在损失函数中增加对模型复杂度的惩罚项,限制模型的参数空间(如岭回归,Lasso回归)。

3. 降维技术:通过减少特征数量来降低模型的复杂度,这也是本文要深入探讨的主题

那么,高维度本身为何会成为“祸源”呢?

02

维度灾难

高维空间的几何悖论

“维度灾难”一词,精准地描述了在高维空间中机器学习模型所面临的根本困境。

它并非是指计算复杂度的增加,而是指数据结构的极度稀疏与分布畸变。

这与我们在低维空间中的几何直觉是背道而驰的。以下是两个经典的例子:

超立方体与内切超球体

在高维空间中,单位超立方体内切球的体积占比趋近于0。

这意味着数据点更多地分布在立方体的“角落”,而非中心区域,导致数据稀疏且分布不均匀。

超球体的“壳层”现象

在高维单位球中,一个任意薄的球壳(环形带)的体积占比会趋近于1。

即,几乎所有“体积”都集中在表面,内部几乎是“空”的。

这再次印证了高维数据的稀疏性和分布特性与低维直觉完全不同。

这两个例子揭示了维度灾难的核心:

在高维空间中,数据点不再“稠密”,而是变得极度稀疏,并且以一种反直觉的方式(集中在边界或壳层)不均匀分布。

这使得任何基于“邻近”或“密度”的算法都变得异常困难,因为“大多数地方都是空的”。

模型极易捕捉到这些稀疏样本分布中的偶然噪声模式,从而导致过拟合。

03

降维方法

如何对抗维度灾难?

既然高维是症结,降维便是药方。降维方法根据其哲学与技术的不同,可分为三大类:

直接降维:特征选择

这是最直观的方式——根据领域知识或统计指标,从原始 个特征中,直接选择或保留 个重要特征,丢弃其余 个。

这种方法可以人工经验选择,也可以通过算法(如Lasso回归)自动实现。

例如,Lasso回归通过L1正则化将不重要的特征系数压缩至零,天然实现了特征选择。

此法简单高效,但风险在于可能丢弃特征间蕴藏的交互信息。

线性降维:寻求最优投影

线性降维旨在通过一个线性变换,将原始高维数据投影到一个有意义的低维子空间上,并尽可能保留关键信息。

🤗 主成分分析(PCA):最经典和重要的方法,下一期重点讲解。

PCA通过寻找数据方差最大的方向(主成分)进行投影,旨在用最少的信息损失保留最多的数据变异性。

它是理解数据结构、去除噪声相关的强大工具。

🤗 多维尺度分析(MDS):其核心目标是在保持样本间距离不变的前提下进行降维。当距离采用欧氏距离时,MDS与PCA在本质上等价。

非线性降维:流形学习

假设高维数据实际上分布在一个潜在的低维流形(Manifold)上,就像是一张揉皱的纸(高维观测)蕴藏着平坦的内在结构(低维流形)。

此时,流形学习的目标就是发现并展开这个低维结构

🤗 等度量映射(Isomap):摒弃了高维空间中的直线距离(欧氏距离),转而计算并保持数据在流形曲面上的真实距离(测地线距离),然后进行降维映射。

🤗 局部线性嵌入(LLE):假设了每个数据点都可以由其最近邻的线性组合来重构。

降维时,它不再保持全局距离,而是尽力保持每个局部邻域内这种线性重构关系

这三种方法构成了一个从简单到复杂、从全局线性到局部非线性的完整降维技术谱系。

结语

维度灾难揭示了高维空间的几何悖论,而降维技术则是我们对抗这一悖论的智慧结晶。

从直接特征选择到复杂的流形学习,降维不仅仅是技术操作,更是我们对数据本质理解的深化。

注:文章中未声明图片均来源于『互联网』

特别声明:[数据降维(Dimensionality Reduction):维度灾难与降维技术的几何本质(数据降维处理的常用方法有)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

蜜蜡的优雅运用之道:点亮家居美学的秘密(关于蜜蜡的介绍)

蜜蜡作为古老又时尚的家居装饰材料,其正确的使用方式不仅能彰显艺术品味,更能延长使用寿命。本文深入探讨蜜蜡的特点、保养秘籍及实际应用场景,助您轻松驾驭这一天然宝藏。

蜜蜡的优雅运用之道:点亮家居美学的秘密(关于蜜蜡的介绍)

洗脸熊新品发布:面颈手护理定义年轻力(洗脸猫百科)

洗脸熊此次推出的三款护理项目在消费场景与定价上也充分适配大众需求。品牌通过聚焦核心护理部位、优化产品成分与服务体验、贴合大众消费能力,不仅满足了消费者的实际需求,也为行业提供了“精准定位+ 高效创新”的发…

洗脸熊新品发布:面颈手护理定义年轻力(洗脸猫百科)

体考党必看|这双无钉竞速鞋,真的能帮你在考试中稳住发挥(体考项目有哪些?)

V-CFLEX助推抗扭科技:加强前掌刚性,提升足弓稳定性,跑动时不容易打滑或变形,尤其适合短跑发力阶段。整体来看,这双鞋虽然不是碳板鞋,但通过结构优化实现了类似碳板的推进感,同时保留了无钉鞋的灵活性和安全…

体考党必看|这双无钉竞速鞋,真的能帮你在考试中稳住发挥(体考项目有哪些?)

 米白+玫红,小姐姐把『运动装』穿成街头焦点

下装的玫红色瑜伽裤是整套搭配的点睛之笔,高饱和度的玫红打破了浅色系的单调,瞬间抓住视线。 这套『穿搭』将运动功能性与时尚美学结合,既保留了『运动装』的舒适自在,又通过色彩搭配和版型选择营造出松弛又时髦的氛围,无…

 米白+玫红,小姐姐把『运动装』穿成街头焦点

分享5部经典的短剧,好评如潮百看不厌,你看过几部?(有哪些经典)

剧情的不适完全可以忽略,家法是鞭打的陆家,男女主演技还不错,柯淳的表情演的很好,人设加持下更是帅到没边。女主鹿鸣野绝非柔弱可欺的菟丝花,她表面上是温顺乖巧的乖乖女,实则内心坚韧、冷静聪慧。 是一部内地古装,仙…

分享5部经典的短剧,好评如潮百看不厌,你看过几部?(有哪些经典)