数据挖掘中的KNN-创新互联

K最近邻算法是分类问题中经常使用的一种非参数方法。算法的思路清晰简洁：对于待分类的样本，找出与其最近的K个样本（即训练样本中的K个）。然后对这K个样本进行投票，待分样本与多数样本的类别一致。

成都创新互联公司专注于新北企业网站建设,成都响应式网站建设,商城网站制作。新北网站建设公司,为新北等地区提供建站服务。全流程定制制作，专业设计，全程项目跟踪，成都创新互联公司专业和态度为您提供的服务

在该算法中有两个最主要的问题：1、最近怎么评价？2、到底K等于多少？

对于第一个问题，我们分三种情况讨论：

A.标称属性：如果样本的属性值相同，则两个样本的距离为0，否则为1。举例:有两个样本，其中有个属性是性别，如果两个样本的性别都是男，则距离为0，若一个为男一个为女，则距离为1。

B.序数属性：如考虑学生的成绩评定有如下的等级{poor,fair,ok,good,perfect}。我们可以这样处理，将每个等级映射到从0开始的相继整数{poor=0,fair=1,ok=2,good=3,perfect=4}。如何两个学生的成绩分别是good和fair,我们可以定义距离distance=3-1=2。

C.连续属性：可以用欧氏距离来衡量√∑(〔x-y〕(x-y))。如两个点（1,2）和（3,4）之间的距离distance = √((1-3)*(1-3) + (2-4)*(2-4)) = √8 = 2√2 .

假如一个样本中包含以上三种属性，我们需要对各属性做归一化之后再求距离。或者是选择其他算法如决策树、朴素贝叶斯等。

对于第二个问题，我觉得比较好的办法就是试探。设立一个确认样本集，然后试探看看选定哪个K值的效果比较好。当然对于大规模数据这种方法可能不太行，这时工程师的经验和判断就显得尤为重要了。很多资料建议K值在3-10之间，经验显示这样的K值能较好的控制噪声的干扰。

K最近邻算法的特点：a.不需要建立模型（也称消极学习方法），但是计算开销很大，每次判断一个样本都要计算该样本到所有训练样本的距离。

b.可以生成任意形状的边界，而像决策树算法只能生成线性的边界。

c.适当的距离度量准则非常重要。

另外有需要云服务器可以了解下创新互联scvps.cn，海内外云服务器15元起步，三天无理由+7*72小时售后在线，公司持有idc许可证，提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案，具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势，专为企业上云打造定制，能够满足用户丰富、多元化的应用场景需求。

网页标题：数据挖掘中的KNN-创新互联
文章源于：http://myzitong.com/article/dhejoo.html

数据挖掘中的KNN-创新互联

其他资讯