什么有的什么有的什么作用?

湛心锦湛心锦最佳答案最佳答案

这个问题问得真是时候,刚好最近在学用随机森林(random forest)做分类,这个算法其实就是一个基于树的分类方法。树模型中非常重要的一环就是划分样本数据,划分越合理算法效果越好。今天学的这节课就主要讲如何划分样本数据。 划分的思想非常简单,就是把输入的数据集合分成若干部分,每一部分都拥有相似的属性,而不同的部分则拥有截然不同的属性。这样我们就可以把具有相似属性的数据归为一类,而不同类的数据往往代表了不同的类别。

举一个简单的例子,假设我们想要分类的数据是一些图片,那么我们可以把每张图都放大到相同尺寸,然后找一张没见过的图片作为测试图(为了便于观察,可以把图像换成二值图像,即黑色背景的白色方框,或者反过来),然后把剩下的所有图分割成大小相等的方块,这样我们就得到了每个类别的图像,如下图 这样做的好处是每一个类别里的图片都有很多张,而不同类别的图片相比起同类图片有非常明显的不同。这样的划分对于后面的分类器学习是一个很好的奠基,使得分类器可以学习到良好的特征。

不过这种划分完全是基于人的主观判断,可能一个比较好的想法是会首先找到一个没有错误分类的测试集(这里错误就是分类的错误),然后根据这个测试集对全部数据进行划分。例如,可以使用K-means聚类的方法先找出没有错误分类的k个样本点(实际上也可以不找最多数的,只要保证最后分类的准确度能接受就可以),然后用这k个样本点的中心作为划分线,把数据分成两部分。当然,使用K-means的前提是这个数据是稠密的,也就是不能存在大量孤立的点,不然K-means就无法找到正确的聚集中心了。

上面介绍的是简单直观的数据分裂方法。但是实际上的数据往往比这要复杂很多。如果使用简单直观的方法,很可能造成“亚聚类”的问题,也就是很多属于同一个类数据的样本被分到了不同的两类中。这种情况在数据量很小的时候尤其容易发生。这是因为在小样本的情况下,划分线很容易受到噪声的影响。所以小样本问题是一个值得研究的方向。

我来回答
请发表正能量的言论,文明评论!