到不安之中。
仔细思索林灰话里的含意。
首先伊芙·卡莉觉得林灰想说的应该不是将高维数据降低成低维数据。
在进行自然语言处理时如果出现了高维数据的话。
在分析高维数据时,确实是可以进行降维的。
也必须要进行降维!
高维数据模型虽然收集到的数据点很多。
但是所收集到的数据通常会散布在一个极其分散广袤的高维空间中。
这种情况下很多统计方法都难以应用到高维数据上。
这也是“维度灾难”存在的原因之一。
遇到这种维度灾难,不降维的话高维数据是很难进行处理的。
(ps:……数学天赋点满的人高维也能硬上)
作为数据去噪简化的一种方法,降维处理对处理大多数现代机器学习数据很有帮助。
通过降低数据的维度,理论上讲可以把这个复杂棘手的问题变得简单轻松。
机器学习领域中所谓的降维就是指采用某种映射方法。
将原高维空间中的数据点映射到低维度的空间中。
这么做是为了除去噪音同时保存所关注信息的低维度数据。
这样对研究人员理解原本的高维数据所隐含的结构和模式很有帮助。
原始的高维度数据通常包含了许多无关或冗余变量的观测值。
降维可以被看作是一种潜在特征提取的方法。
降维这种方法经常用于数据压缩、数据探索以及数据可视化。
话虽如此,但降维并不是像科幻书里描述的那般扔一个二向箔就完事了。
涉及到降维是一件极其麻烦的事情!
在选择降维方法的时候,人们不得不考虑很多因素。
首先要考虑输入数据的性质。
比如说,对于连续数据、分类数据、计数数据、距离数据,它们会需要用到不同的降维方法。
对数据的性质和分辨率的考虑是十分重要的。
如果不考虑输入数据的性质贸然进行降维的话虽然能够使得这些这些高维模型低维化。
极有可能使得原本离散的数据直接“糊”在一起。
这种情况比高维离散还要糟糕。
在应用正式的降维技术之前。
还要对高维数据进行适当的预处理。
毕竟不是所有的数据都是样本数据。
而有的时候进行预处理时。
最佳的预处理方式又是引入降维。
这就会陷入一个疯狂套娃的循环之中。
总而言之,对高维数据进行降维是一件超级麻烦的事情。
在实际进行处理时一般自然语言处理方向的研究人员一般都竭力避免出现高维爆炸的情况。
而不是等出现高维数据之后再进行低维处理。
高维数据的低维处理某种程度更像是一种迫不得已的异常麻烦的补救措施。
很多东西因为麻烦就足以让人说再见了。
繁复的过程意味着容易出错。
而美好的事物所呈现的形式应该是简洁的。
请收藏:https://m.tmfq.cc
(温馨提示:请关闭畅读或阅读模式,否则内容无法正常显示)