样本集确定后,近邻法的错误率确定吗

如题所述

推荐答案 2022-12-08

清华大学http://202.197.191.206:8080/30/text/chapter03/3_4_2.htm

本转载不以任何商业利益为目的，只为方便学习，如有侵权请联系删除。

3.4.2.1 最近邻法错误率分析
　　其实近邻法的错误率是比较难算的，因为训练样本集的数量总是有限的，有时多一个少一个训练样本对测试样本分类的结果影响很大。譬如图中

红点表示A类训练样本，蓝点表示B类训练样本，而绿点O表示待测样本。假设以欧氏距离来衡量，O的最近邻是A3，其次是B1，因此O应该属于A类，但若A3被拿开，O就会被判为B类。这说明计算最近邻法的错误率会有偶然性，也就是指与具体的训练样本集有关。同时还可看到，计算错误率的偶然性会因训练样本数量的增大而减小。因此人们就利用训练样本数量增至极大，来对其性能进行评价。这要使用渐近概念，以下都是在渐近概念下来分析错误率的。

图 3.17
当最近邻法所使用的训练样本数量N不是很大时，其错误率是带有偶然性的。为了说明这一点我们拿图3.17所示一个在一维特征空间的两类别情况来讨论。图中X表示一特测试样本，而X'是所用训练样本集中X的最邻近者，则错误是由X与X'分属不同的类别所引起的。由于X'与所用训练样本集有关，因此错误率有较大偶然性。但是如果所用训练样本集的样本数量N极大，即N→∞时，可以想像X'将趋向于X，或者说处于以X为中心的极小邻域内，此时分析错误率问题就简化为在X样本条件下X与一个X(X'的极限条件)分属不同类别的问题。如果样本X的两类别后验概率分别为P(ω1|X)与P(ω2|X)，那么对X值，在N→∞条件下，发生错误决策的概率为：
　　　　　　　(3-64)
　　当训练样本数量无限增多时，一个测试样本X的最近邻在极限意义上讲就是X本身。如果在X处对某一类的的后验概率为P(ω1|X)，则另一类为1- P(ω1|X)。那么当前测试样本与它的最近邻都属于同一类才能分类正确，故正确分类率为，故有(3-64)式。
　　而在这条件下的平均错误率
　　　　　　　(3-65)
　　P称为渐近平均错误率，是PN(e)在N→∞的极限。
　　为了与基于最小错误率的贝叶斯决策方法对比，下面写出贝叶斯错误率的计算式。
　　基于最小错误率贝叶斯决策的错误率是出错最低限，因此要与它作比较。
　　　　　　　(3-66)
　　其中　　　　　(3-67)
　　而　　　　　(3-68)

温馨提示：答案为网友推荐，仅供参考

当前网址：http://66.wendadaohang.com/zd/UpUn9vvpnn9n9nsvsxv.html

其他回答

第1个回答 2022-12-09

当最近邻法所使用的训练样本数量N不是很大时，其错误率是带有偶然性的。为了说明这一点我们拿图3.17所示一个在一维特征空间的两类别情况来讨论。图中X表示一特测试样本，而X'是所用训练样本集中X的最邻近者，则错误是由X与X'分属不同的类别所引起的。由于X'与所用训练样本集有关，因此错误率有较大偶然性。但是如果所用训练样本集的样本数量N极大，即N→∞时，可以想像X'将趋向于X，或者说处于以X为中心的极小邻域内，此时分析错误率问题就简化为在X样本条件下X与一个X(X'的极限条件)分属不同类别的问题。如果样本X的两类别后验概率分别为P(ω1|X)与P(ω2|X)，那么对X值，在N→∞条件下，发生错误决

相似回答

kNN(k-NearestNeighbor)算法答：需要考虑几个关键要素（1）训练集；（2）用于计算对象之间临近的程度或者其他相似的指标；（3）最近邻的个数 k；（4）基于 k 个最近邻及其类别对目标对象类别进行判定的方法。kNN方法很容易理解和实现，在一定条件下，其分类错误率不会超过最优贝叶斯错误率的两倍。一般情况下，kNN...

人工智能算法,急需帮助!答：6. K近邻算法通过计算待分类项与数据集中样本的距离，选择最近的k个样本进行投票，以确定待分类项的类别。该方法准确性高，对异常值和噪声有较好的容忍度，但计算量较大，对内存需求也较高，常用于文本分类、模式识别等。7. 聚类计算方法是对数据集进行分组的一种方法，有助于获取数据的有意义结构。...

人工智能十大算法答：决策树计算方法属于非参数型，较为容易解释，但其趋向过拟合;可能陷入局部最小值中;无法在线学习。决策树的生成主要分为两步：1.节点的分裂：当一个节点所代表的属性无法给出判断时，则选择将该节点分成2个子节点 2. 阈值的确定：选择适当的阈值使得分类错误率最小。3、人工智能十大算法——集成计算...

作业用身高/体重数据进行性别分类的实验(二)答：clear all;a=[171 53 168 57 160 58 161 45 153 51 160 53 165 53.2 163 44 164 55 160 50.5 161 50 154 63 152 50 166 52 165 55 183 67 165 57.5 169 57.1 170 60 163 47 165 50 160 51 140 46 170 60 171 57 164 55 149 50 167 57 165 57 163 44 163 50 166...

谁有模式识别与智能计算答：常用的准则有以下几种：1）最小错分准则，完全以减少分类错误为原则；2）最小风险准则，宁肯扩大一些总的错误率，但也要使总的损失减小；3）近邻准则，是分段线性判别函数的一种典型方法，主要依据同类物体在特征空间具有聚类特性的原理；4）Fisher准则，如何找到最好的直线方向以及如何实现向最好方向投影...

大家正在搜

样本量的确定方法样本量的确定怎样确定样本量抽样样本数怎么确定如何确定研究样本大小如何确定样本代表性如何确定调查样本数量预调查样本量如何确定样本是什么