遗传算法主要借用生物进化中的“适者生存”的规律。

遗传算法包括两个数据转换操作,一个是从表现型到基因型的转换,将搜索空间中的参数或解转化成遗传空间中的染色体或者个体,这个过程叫做编码(coding)。另一个就是从基因型到变现型的转换,即将个体转换成搜索空间中的参数,这个过程叫做解码(decode)。

遗传算法中包含了五个基本要素:参数编码,初始群体的设定,适应度函数的设计;遗传操作设计和控制参数设定。

由于遗传算法不能直接处理问题空间的参数,因此,必须通过编码将要求解的问题表示成遗传空间的染色体或者个体。它们由基因按一定的结构组成。由于遗传算法的健壮性,对编码的要求并不苛刻。对一个具体的应用问题如何编码是应用遗传算法的首要问题,也是遗传算法应用的难点。事实上,还不存在一种通用的编码方法,特殊的问题往往采用特殊的方法。

1、编码

1.1 位串编码

将问题空间的参数编码为一维排列的染色体的方法,称为一维染色体编码方法。一维染色体编码中最常用的符号集是二值符号集 { 0 , 1 } \{0,1\} {01},即采用二进制编码(Binary Encoding)。

(1)二进制编码
二进制编码是用若干二进制数表示一个个体,将原问题的解空间映射到位串空间 B = { 0 , 1 } B=\{0,1\} B={01}上,然后在位串空间上进来遗传操作。<>/font

优点:二进制编码类似于生物染色体的组成,从而使算法易于用生物遗传理论来解释,并使得遗传操作若交叉、变异等很容易实现。另外,采用二进制编码时,算法处理的模式数最多。

缺点:
①相邻整数的二进制编码可能具有较大的Hamming举例。例如,15和16的二进制表示为01111和10000,因此,算法要从15改进到16则必须改变所有的位。这种缺陷造成了Hamming悬崖(Hamming Cliffs),将降低遗传算子的搜索效率。
②二进制编码时,一般要先给出求解的精度。但求解的精度确定后,就很难在算法执行的过程中进行调整,这就是算法缺乏微调(fine-tuning)的功能。若在算法一开始就选择较高的精度,那么串长就很大,这样也会降低算法的效率。
③在求解高维优化问题的时候,二进制编码串将非常长,从而使得算法的搜索效率很低。

(2)Gray编码
G r a y Gray Gray编码是将二进制编码通过一个变换进行转换得到的编码。
设二进制串 < β 1 β 2 . . . β n > <β_1β_2...β_n> <β1β2...βn>对应 G r a y Gray Gray < γ 1 γ 2 . . . γ n > <γ_1γ_2...γ_n> <γ1γ2...γn>,则从二进制编码到 G r a y Gray Gray编码的变换为:
γ k = { β 1 , k = 1 β k − 1 ⨁ β k , k > 1 (1) γ_k= \begin{cases} β_1,\quad k=1\\ β_{k-1}\bigoplus β_k, \quad k>1 \end{cases} \tag{1} γk={β1,k=1βk1βk,k>1(1)

上式子(1)中, ⨁ \bigoplus 表示摸2的加法,也就是异或运算,不同为1,相同为0。

举个例子说明一下:
假设有一个二进制编码串 ( 10110 ) 2 (10110)_2 (10110)2,那么我们将它转化为Gray编码后为 ( 11101 ) G r a y (11101)_{Gray} (11101)Gray

从一个Gray串到二进制串的变换为:
β k = ∑ i = 1 k γ i ( m o d 2 ) = { γ 1 , k = 1 β k − 1 ⨁ γ k , k > 1 (2) β_k=\displaystyle \sum^{k}_{i=1}{γ_i(mod2)}= \begin{cases} γ_1,\quad k=1\\ β_{k-1}\bigoplus γ_k, \quad k>1 \end{cases} \tag{2} βk=i=1kγi(mod2)={γ1,k=1βk1γk,k>1(2)
举个例子说明一下:
假设有一个Gray编码串 ( 01001 ) G r a y (01001)_{Gray} (01001)Gray,将其转化为二进制编码串后为 ( 01110 ) 2 (01110)_2 (01110)2

Gray编码的优点是克服了二进制编码的Hamming悬崖的缺点。

1.2 实数编码

为克服二进制编码的缺点,对问题的变量是实向量的情形,可以直接采用实数编码。

实数编码是用若干实数表示一个个体,然后在实数空间上进行遗传操作。

采用实数表达法不必进行数制转换,可直接在解的表现型上进行遗传操作。从而可引入与问题领域相关的启发式信息来增加算法的搜索能力。近年来,遗传算法在求解高维或复杂优化问题时一般使用实数编码。

1.3 多参数级联编码

对于多参数优化问题的遗传算法,常采用多参数级联编码。其基本思想是把每个参数先进行二进制编码得到子串,再把这些子串连成一个完整的染色体。多参数级联编码中的每个子串对应各自的编码参数,所以,可以有不同的串长度和参数的取值范围。

2、群体设定

由于遗传算法是对群体进行操作的,所以,必须为遗传操作准备一个由若干初始解组成的初始群体。群体设定主要包括两个方面:初始种群的产生和种群规模的确定。

2.1 初始种群的产生

遗传算法中初始群体中的个体可以是随机产生的,但最好采用如下策略设定:

①根据问题固有知识,设法把握最优解所占空间在整个问题空间中的分布范围,然后,在此分布范围内设定初始群体。

②先随机产生一定数目的个体,然后从中挑选最好的个体加人初始群体中。这种过程不断迭代,直到初始群体中个体数目达到了预先确定的规模。

2.2 种群规模的确定

群体中个体的数量称为种群规模。
种群规模影响遗传优化的结果和效率。当种群规模太小时,遗传算法的优化性能一般不会太好,容易陷入局部最优解。而当种群规模太大时,则计算复杂。

种群规模的确定受遗传操作中选择操作的影响很大。模式定理表明:若种群规模为 M M M,则遗传操作可从这 M M M个个体中生成和检测 M 3 M^3 M3个模式,并在此基础上能够不断形成和优化积木块,直到找到最优解。

显然,种群规模越大,遗传操作所处理的模式就越多,产生有意义的积木块并逐步进化为最优解的机会就越高。种群规模太小,会使遗传算法的搜索空间范围有限,因而搜索有可能停止在未成熟阶段,出现未成熟收敛现象,使算法陷入局部最优解。因此,必须保持种群的多样性,即种群规模不能太小。

另一方面,种群规模太大会带来若干弊病:

  • 一是群体越大,其适应度评估次数增加,所以计算量也增加,从而影响算法效率;
  • 二是群体中个体生存下来的概率大多采用和适应度成比例的方法,当群体中个体非常多时,少量适应度很高的个体会被选择而生存下来,但大多数个体却被淘汰,这会影响配对库的形成,从而影响交叉操作。

种群规模一般取为20~100。

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐