之前写k-近邻算法(http://boytnt.blog.51cto.com/966121/1569629)的时候,没附上测试数据,这回找了一个,测试一下算法的效果。数据来源于http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data,关于乳腺癌的样本,属性描述见breast-cancer-wisconsin.names


样本的大致形式如下:

1
1000025,5,1,1,1,2,1,3,1,1,2

第1个属性是编号,我们不关心,最后一个属性是结果,2表示benign(良性),4表示malignant(恶性)。其余9个属性是样本特征。注意里面有缺失数据(用?表示,共计16行,占2.3%),计算时要先做数据清洗,这里简单填充成0即可。


用k-近邻算法来测试一下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
public  void  TestNearestNeighbour()
{
     var  trainingSet =  new  List<DataVector< double >>();
     var  testSet =  new  List<DataVector< double >>();
     
     //读取数据
     var  file =  new  StreamReader( "breast-cancer-wisconsin.txt" , Encoding.Default);
     for ( int  i = 0;i < 699;++i)
     {
         string  line = file.ReadLine();
         var  parts = line.Split( ',' );
         
         var  p =  new  DataVector< double >(9);
         for ( int  j = 0;j < p.Dimension;++j)
         {
             if (parts[j + 1] ==  "?" )
                 parts[j + 1] =  "0" ;
             p.Data[j] = Convert.ToDouble(parts[j + 1]);
         }
         p.Label = Convert.ToInt32(parts[10]) == 2 ?  "benign"  "malignant" ;
         
         //用600个样本做训练,剩下99个做测试
         if (i < 600)
             trainingSet.Add(p);
         else
             testSet.Add(p);
     }
     file.Close();
     
     //检验
     var  nn =  new  NearestNeighbour();
     nn.Train(trainingSet);
     int  error = 0;
     foreach ( var  in  testSet)
     {
         var  label = nn.Classify(p);
         if (label != p.Label)
             ++error;
     }
     
     Console.WriteLine( "Error = {0}/{1}, {2}%" , error, testSet.Count, (error * 100.0 / testSet.Count));
}


运行结果是99个测试样本猜错2个,错误率2.02%,效果不错。