机器学习算法：补一个k-近邻算法的测试-阿里云开发者社区

机器学习算法：补一个k-近邻算法的测试

2017-11-08 966

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

之前写k-近邻算法（http://boytnt.blog.51cto.com/966121/1569629）的时候，没附上测试数据，这回找了一个，测试一下算法的效果。数据来源于http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data，关于乳腺癌的样本，属性描述见breast-cancer-wisconsin.names。

样本的大致形式如下：

 
          1000025,5,1,1,1,2,1,3,1,1,2

第1个属性是编号，我们不关心，最后一个属性是结果，2表示benign（良性），4表示malignant（恶性）。其余9个属性是样本特征。注意里面有缺失数据（用？表示，共计16行，占2.3%），计算时要先做数据清洗，这里简单填充成0即可。

用k-近邻算法来测试一下：

 
          public 
          void 
          TestNearestNeighbour() 
         
          {
         
          var 
          trainingSet = 
          new 
          List<DataVector<
          double
          >>(); 
         
          var 
          testSet = 
          new 
          List<DataVector<
          double
          >>(); 
         
          //读取数据 
         
          var 
          file = 
          new 
          StreamReader(
          "breast-cancer-wisconsin.txt"
          , Encoding.Default); 
         
          for
          (
          int 
          i = 0;i < 699;++i) 
         
          { 
         
          string 
          line = file.ReadLine(); 
         
          var 
          parts = line.Split(
          ','
          ); 
         
          var 
          p = 
          new 
          DataVector<
          double
          >(9); 
         
          for
          (
          int 
          j = 0;j < p.Dimension;++j) 
         
          { 
         
          if
          (parts[j + 1] == 
          "?"
          ) 
         
          parts[j + 1] = 
          "0"
          ; 
         
          p.Data[j] = Convert.ToDouble(parts[j + 1]); 
         
          } 
         
          p.Label = Convert.ToInt32(parts[10]) == 2 ? 
          "benign" 
          : 
          "malignant"
          ; 
         
          //用600个样本做训练，剩下99个做测试 
         
          if
          (i < 600) 
         
          trainingSet.Add(p); 
         
          else 
         
          testSet.Add(p); 
         
          } 
         
          file.Close(); 
         
          //检验 
         
          var 
          nn = 
          new 
          NearestNeighbour(); 
         
          nn.Train(trainingSet); 
         
          int 
          error = 0; 
         
          foreach
          (
          var 
          p 
          in 
          testSet) 
         
          { 
         
          var 
          label = nn.Classify(p); 
         
          if
          (label != p.Label) 
         
          ++error; 
         
          } 
         
          Console.WriteLine(
          "Error = {0}/{1}, {2}%"
          , error, testSet.Count, (error * 100.0 / testSet.Count)); 
         
          }

运行结果是99个测试样本猜错2个，错误率2.02%，效果不错。

附件：http://down.51cto.com/data/2365048

本文转自 BoyTNT 51CTO博客，原文链接：http://blog.51cto.com/boytnt/1572149，如需转载请自行联系原作者

机器学习算法：补一个k-近邻算法的测试

热门文章

最新文章

相关课程

相关电子书

相关实验场景