实际中常用的一个随机数产生器（分类别概率随机-阿里云开发者社区

这是刚做完的一小段代码，经测试已经无误，呵呵，这里share给大家看看，有朋友觉得有用，可以拿去用。

这个程序解决的问题如下：

已知一件事物有几种状态，每种状态出现的概率不一样，要求做一个随机数产生器，返回状态值，要求状态值出现的规律，符合输入的概率。

这是小弟上午问我的问题，我们正在做一个工业测试模型，实际的例子是，根据实际情况，某种设备返回的状态概率符合下表：

设备状态	百分比
1	12%
2	40%
3	40%
4	7%
5	1%

要求写段代码，模拟设备的上述行为。

我下午上班想了一下，花了半个小时为他写了一个随机数产生器，经测试，0bug，呵呵。他现在正在用。

Code:

#define CTonyRandomArea_TOKEN_MAX 100 //最大类型数
#define CTonyRandomArea_TOKEN_AREA_MAX 10000 //类型数组单元数，精确到小数点后两位
//输入最大100个元素的数组，每个数组表示每类占有的百分比，内部自带百分比调整。
//即如果外部输入的数字之和不是整数100，内部会根据百分比，自动调整其比例，使总和=100.0
//然后内部建立10000个单元的类型数组，根据传入的每种类型的比例，在类型数组中批量填充对应的类型值
//总之，类型数组中每种类型的数量，占据的比例正好是输入的百分比
//最后，在0~10000中取随机，然后在对应的类型数组单元中取类型值，即为返回的类型
class CTonyRandomArea
{
public:
CTonyRandomArea(double* pTokenPercentArray,char cTokenCount)
{
m_nTokenCount=cTokenCount;
if(CTonyRandomArea_TOKEN_MAX<m_nTokenCount)
m_nTokenCount=CTonyRandomArea_TOKEN_MAX;
int i=0;
for(i=0;i<m_nTokenCount;i++)
{
m_dTokenPercentArray[i]=*(pTokenPercentArray+i);
}
//动态调整内部的值
//有时候试验人员，测得几个状态出现的数字，可能懒得再计算成百分比
//程序帮忙自动计算
double dNumberCount=0;
for(i=0;i<m_nTokenCount;i++)
{
dNumberCount+=m_dTokenPercentArray[i];
}
if(100.0!=dNumberCount)
{
for(i=0;i<m_nTokenCount;i++)
{
m_dTokenPercentArray[i]/=dNumberCount;
m_dTokenPercentArray[i]*=100;
}
}
//以小数点后两位精度，开始计算在10000个总单元中，每种类型对应的数量。
for(i=0;i<m_nTokenCount;i++)
{
m_sTokenPercentArray[i]=(short)(m_dTokenPercentArray[i]*100);
}
//按比例填充类型数组
int j=0;
int nFillMin=0;
int nFillMax=0;
for(i=0;i<m_nTokenCount;i++)
{
m_cTokenPercentArrayAreaUp[i]=-1;
}
for(i=0;i<m_nTokenCount;i++)
{
nFillMax=nFillMin+m_sTokenPercentArray[i];
for(j=nFillMin;j<nFillMax;j++)
{
m_cTokenPercentArrayAreaUp[j]=i;
}
nFillMin=nFillMax;
}
// m_cTokenPercentArrayAreaUp[CTonyRandomArea_TOKEN_AREA_MAX-1]=i-1;
}
~CTonyRandomArea(){}
void PrintfInfo(void)
{
int i=0;
double dNumberCount=0;
for(i=0;i<m_nTokenCount;i++)
{
dNumberCount+=m_dTokenPercentArray[i];
printf("%d = %f\n",i,m_dTokenPercentArray[i]);
}
printf("All = %f\n",dNumberCount);
//打印10000个单元的类型分布，看看排得对不对
//这段打印起来太长，一般隐掉，需要了再打印
// int nOutMax=400;
// int nInMax=25; //二者相乘为10000
// int j=0;
// for(i=0;i<nOutMax;i++)
// {
// printf("%05d - ",i*nInMax);
// for(j=0;j<nInMax;j++)
// {
// printf("%d ",m_cTokenPercentArrayAreaUp[i*nInMax+j]);
// }
// printf("\n");
// }
}
//取类型数组对应单元的值
char GetType(int nTypeIndex) //输入参数0~10000
{
if(10000<=nTypeIndex) nTypeIndex=9999;
if(0>nTypeIndex) nTypeIndex=0;
return m_cTokenPercentArrayAreaUp[nTypeIndex];
}
//真实的工作函数，利用输入的概率来产生随机type
char GetRandomType(void)
{
return GetType(GetRandomBetween(0,10000));
}
private:
double m_dTokenPercentArray[CTonyRandomArea_TOKEN_MAX]; //比例数组
short m_sTokenPercentArray[CTonyRandomArea_TOKEN_MAX]; //比例数组,短整型，1~10000，相当于精确到小数点后两位
char m_nTokenCount;
char m_cTokenPercentArrayAreaUp[CTonyRandomArea_TOKEN_AREA_MAX]; //类型数组
};
//这是测试代码
void TestCTonyRandomArea(void)
{
double dTokenPercentArray[100];
dTokenPercentArray[0]=12.0;
dTokenPercentArray[1]=40.0;
dTokenPercentArray[2]=40.0;
dTokenPercentArray[3]=7.0;
dTokenPercentArray[4]=1.0;
CTonyRandomArea Area1(dTokenPercentArray,5);
Area1.PrintfInfo();
int i=0;
for(i=0;i<20;i++)
{
printf("RandType = %d\n",Area1.GetRandomType());
}
}

其实这个原理很简单：

1、我先从外部导入一个比例列表，在100以内的数组单元，每个单元里面放置一个double值，相当于对应类别的比例。这样，我预设最大有100种状态，具体本次试验有多少种状态，即100个状态比例数组多少个单元是有效的，看构造函数的第二个参数，就是这个参数输入的。

2、这里面我做了点人性化考虑，因为很多时候，我们测试的设备状态是直接的采样值，即每种状态出现了多少次，懒得计算成百分比，因此，我内部自动帮他重新计算一遍百分比。这样用起来很方便。

3、我根据各种类型的比例，内部准备一个10000个单元的大数组，我根据每种状态的比例，在这个数组中填充足够的状态数，这样，构建了一个比例分配表。这实际上是把计算精度放大到小数点后两位，即99.99%这种精度

4、我真正提供随机数的函数，是在0~10000中取值，即随机命中比例分配表的某个单元，这个单元取出来是哪种状态，就返回哪种状态。由于比例分配表决定了各种状态被命中的比例，因此，我返回值是符合出现比例的。

5、最后我给了一个测试函数TestCTonyRandomArea，这是我团队的规矩，任何人写一个模块，必须同时提供相应的白盒测试函数，并将测试结果展示给使用者看，作为验收标准，即“你必须自己证明自己的工作是有效的，并接受检验”，我这个leader也不能例外。

6、PrintfInfo函数也是我团队的规矩，位于底层的类，有责任提供一个PrintInfo函数，供调用者随时查阅你的内部数据，“把你的数据暴露给大家看，想出来混江湖，就不怕裸奔被人看！”，呵呵《0bug-C/C++商用工程之道》里面很多类都有这个函数的。

嗯，中间有个GetRandomBetween这个函数，就是《0bug-C/C++商用工程之道》这本书P199页的源代码，这里我也给一份Copy，另外，其工作原理，有兴趣的读者可以看看书中的描述。

Code:

inline int _GetNot0(void)
{
int nRet=rand();
if(!nRet) nRet++;
return nRet;
}
inline int GetRandomBetween(int nBegin,int nEnd)
{
int n=_GetNot0();
int nBetween=0;
if(0>nBegin) nBegin=-nBegin;
if(0>nEnd) nEnd=-nEnd;
if(nBegin>nEnd)
{
nBetween=nEnd;
nEnd=nBegin;
nBegin=nBetween;
}
else if(nBegin==nEnd)
nEnd=nBegin+10;
nBetween=nEnd-nBegin;
n=n%nBetween;
n+=nBegin;
return n;
}

上述代码是我匆忙写的，属于测试用代码，不完全符合0bug一书里面的C/C++无错化程序设计原则，各位读者请注意哈。

不过，虽然是测试代码，但是带了很多工程型代码的影子，大家有兴趣可以看看。

另外，上述代码没有做锁封装，但是，仍然是多线程安全的。大家有注意到没有？

因为其工作原理是查表法，所有的表构造时一次生成，以后仅仅是纯读，请《0bug-C/C++商用工程之道》的读者注意2.3.6节，P50页的论述，“用锁的最高境界--不用”，这里符合第1条特例，“针对一个资源的所有操作都是读的时候，可以不加锁”。我这段代码可以算作实例了。各位读者可以参考一下。

好吧，就这么多，大家有兴趣可以看看。

嗯，有人可能说，这里的随机数产生器没有使用srand初始化，记住，我在用我自己的工程库，也就是《0bug-C/C++商用工程之道》的工程库，工程库的init动作里面已经做过这种动作了。

代码是VS2008下测试的，不过，我的理解，应该是跨平台的。

上述代码在很多游戏开发中可以投入实用的。

比如说，某个NPC哨兵，他可能在某个时刻，看前后左右，或者抽烟，或者睡觉，或者和另一个哨兵聊天，这时候，可以用这个随机数产生器，根据预设的每种动作的概率，权重，随时求出他的行为种类，并予以展示。

再或者，暗黑里面，我们使用暗金的装备，每次攻击，有百分之多少的概率出现压碎性打击，有多少概率出现冰冻属性，等等，也可以用这个随机数产生器来求。

大家慢慢想吧，呵呵。

嗯，这里网友发现一处bug，我已经修改了，请昨天看过的朋友注意：

Code:

if(100.0!=dNumberCount)
{
for(i=0;i<m_nTokenCount;i++)
{
m_dTokenPercentArray[i]/=dNumberCount;
m_dTokenPercentArray[i]*=100; //这里少乘了个100，百分比动态调整失效，因此，我加上了这一句。
}
}

这段代码出来后，一些网友表示看不懂我的原意，我们在CSDN博客有一些问答，我觉得对大家理解本程序的设计思路有帮助，因此，整理了一下，摘录在这里：

网友问：if(100.0!=dNumberCount) 浮点数直接用等于作比较是不正确的
我答：通常的做法是if((100.0-dNumberCount)<0.00000001)，我知道的，不过，我为什么这么写，你看得懂吗？
网友问：不懂，老师教教吧，谢谢
我答：这里主要的目的是否定，是为了验证所有输入的double数加起来不是100.0，然后内部重新计算一次。由于外部人员输入，通常都不是正好100.0，因此，这里使用否定的严厉校验，即只要不是绝对==100.0，内部就重新计算。看好了，我是否定严厉，不是肯定严厉，因此不用教科书做法。
网友问：同意这样直接比较在此处也不会产生错误，我还是有如下观点： 1. 这样严厉的否定可能会拒绝一些本可以接受的输入，当然概率比较小，而且即使拒绝了也顶多是多计算一下，不会有bug 2. 即使是通过代码中的“自动调整其比例“的计算以后，仍然有可能会出发您的”否定严厉“ 所以我认为还是不应该用直接比较。 3. (100.0-dNumberCount)<0.00000001 这样的比较还是不合适的，一是要用绝对值，当然这里可能是您忘记写了；二是0.00000001的取定要推敲，用float.h中提供的常数宏更好
我答：嗯，你说的有理，我下回注意，呵呵。不过，你说的计算后仍然有否定严厉误差的问题，看我61行，我写那行代码的目的就是为了弥补这个误差的。不过后来看了没有误差，所以就隐掉了。
网友问：不是我挑错，但我总觉的你的代码显的很长。好多没必要。比如 GetRandomBetween函数，其实很简单。 GetRandomBetween(int nBegin,int nEnd) { int n = abs(nBegin); int nBetween= abs(nEnd) - n; if(nBetween < 0) { n = abs(nEnd); } if(nBetween == 0) nBetween = 10; n += _GetNot0(); return n; } 这样不是更简洁点么？完成的功能是完全一样的。
我答：把每句话尽量简化，简化到大家看起来一目了然的时候，程序就不容易出错。你的方案，一句话里面有多个计算，很绕。不是每个项目成员都有你的水平的。
网友问：再比如，你的 GetType和GetRandomType这2个函数，完全可以结合成一个嘛。 char GetType(int nTypeIndex) //输入参数0~10000 { return m_cTokenPercentArrayAreaUp[GetRandomBetween(0,10000)]; } 注意，这里的GetRandomBetween(0,10000)返回范围，就是0-9999. 这样不是简单多了？
我答：看下面，是故意拆分的，留两个api，给别人一个中间查表的切入点。
网友问：哦。原来是故意拆分的。
网友问：还有一点，为什么程序中，有好多char和short来替代int？这样有什么好处？是为了节约空间么？我认为，char和short在做参数传进传出，或者与int比较时，每次都要扩展为int，还不如直接用int好。在32位系统中，用int最快了。只是自己的一些看法，有说的不对的，我们互相学习。
我答：嗯，看在你说出互相学习这句话，我回答你的问题：这段代码之所以写得像你说的这么繁琐，是为了尽可能提供api给使用者用，就是我小弟，他觉得用得方便。因为他是用户。我必须站在用户的需求角度设计api，方便调用。因此，很多稍微复杂一点的api函数，我会尽量拆细，每一步都提供一个函数接口给用户用。用不用在他，但是我尽量给全。
api接口设计，应该站在用户使用方便来设计的。反而是我的构造函数很复杂，是因为这些是我内部动作，我要屏蔽，无须通报外部，这体现高内聚，低耦合的原则。
char和short确实是为了节约空间考虑，因为里面有个10000个单元的大数组，用char是10k，用int是40k。
网友问：这么考虑的话也可以。我感觉在这种情况的话，用unsigned char会不会更好？
我答：我预设100个类型，<127，char的正数范围足以。
网友问：我倒是感觉这次的需求这么简单，没必要给更多的中间接口。设计以需求为目标，不是程序员觉的客户怎么方便怎么设计，有很多接口，客户也许根本用不到。反而造成不必要的设计，程序复杂度上升。
我答：这个算我个人习惯吧，基础模块的公有接口我习惯留得越多越好，越简单越好，最好每个接口一句话。这样，哪天有新需求，省的我改接口。因为这类基础模块的使用者，通常就是我团队成员，大家这么做也习惯了。不过，对外的接口，还是应该越少越好，这是原则，比如功能层向业务层输出的接口，和其他小组的接口，暴露越少越好。不同的需求导致不同的设计。
最后再补充一点，你有想过这个程序的效率没有？它用查表法，你可以和普通计算法比较一下，每个都跑个1000万次，你就看出时间差别了。而且，它不用锁，并行环境和串行环境效率一样高。
网友问：查表法肯定比每次都计算省时间。但第一次构造要花时间，而且牺牲一部分空间。就你这次的实现来看，用查表法是对的。
我答：实话跟你讲吧，这段代码是有前提的，我们要做5000万条记录，中间有20万个设备的记录，每个设备的采样频率不一样，我要并发模拟，你再想想我写这么复杂有道理没？

最后，还有网友反映，构造函数太复杂，看不懂，我这里也解释一下。当时情况比较急，小弟赶着用，我也没时间精雕细琢这个代码，所以，构造函数写得就很复杂，基本上想到哪写到哪。

这个函数的设计，并不符合《0bug-C/C++商用工程之道》第三章的“C/C++无错化设计原则”，所以看起来就难懂。看见没，只要不符合这个原则，只要一个函数内有多个循环主体，即多个逻辑意思，大家看起来就混乱。希望大家以后开发引以为戒，尽量还是写简单的程序。

本文转自

51CTO博客，原文链接：http://blog.51cto.com/tonyxiaohome/296530 ，如需转载请自行联系原作者