遗传算法五大基本要素——参数编码、群体设定
遗传算法主要借用生物进化中的“适者生存”的规律。遗传算法包括两个数据转换操作,一个是从表现型到基因型的转换,将搜索空间中的参数或解转化成遗传空间中的染色体或者个体,这个过程叫做编码(coding)。另一个就是从基因型到变现型的转换,即将个体转换成搜索空间中的参数,这个过程叫做解码(decode)。遗传算法中包含了五个基本要素:参数编码,初始群体的设定,适应度函数的设计;遗传操作设计和控制参数设定。
遗传算法主要借用生物进化中的“适者生存”的规律。
遗传算法包括两个数据转换操作,一个是从表现型到基因型的转换,将搜索空间中的参数或解
转化成遗传空间中的染色体或者个体
,这个过程叫做编码(coding)。另一个就是从基因型到变现型的转换,即将个体转换成搜索空间中的参数,这个过程叫做解码(decode)。
遗传算法中包含了五个基本要素:参数编码,初始群体的设定,适应度函数的设计;遗传操作设计和控制参数设定。
由于遗传算法不能直接处理问题空间的参数,因此,必须通过编码将要求解的问题表示成遗传空间的染色体或者个体。它们由基因按一定的结构组成。由于遗传算法的健壮性,对编码的要求并不苛刻。对一个具体的应用问题如何编码是应用遗传算法的首要问题,也是遗传算法应用的难点。事实上,还不存在一种通用的编码方法,特殊的问题往往采用特殊的方法。
1、编码
1.1 位串编码
将问题空间的参数编码为一维排列的染色体的方法,称为一维染色体编码方法。一维染色体编码中最常用的符号集是二值符号集 { 0 , 1 } \{0,1\} {0,1},即采用二进制编码(Binary Encoding)。
(1)二进制编码
二进制编码是用若干二进制数表示一个个体,将原问题的解空间映射到位串空间
B
=
{
0
,
1
}
B=\{0,1\}
B={0,1}上,然后在位串空间上进来遗传操作。<>/font
优点:二进制编码类似于生物染色体的组成,从而使算法易于用生物遗传理论来解释,并使得遗传操作若交叉、变异等很容易实现。另外,采用二进制编码时,算法处理的模式数最多。
缺点:
①相邻整数的二进制编码可能具有较大的Hamming举例。例如,15和16的二进制表示为01111和10000,因此,算法要从15改进到16则必须改变所有的位。这种缺陷造成了Hamming悬崖(Hamming Cliffs),将降低遗传算子的搜索效率。
②二进制编码时,一般要先给出求解的精度。但求解的精度确定后,就很难在算法执行的过程中进行调整,这就是算法缺乏微调(fine-tuning)的功能。若在算法一开始就选择较高的精度,那么串长就很大,这样也会降低算法的效率。
③在求解高维优化问题的时候,二进制编码串将非常长,从而使得算法的搜索效率很低。
(2)Gray编码
G
r
a
y
Gray
Gray编码是将二进制编码通过一个变换进行转换得到的编码。
设二进制串
<
β
1
β
2
.
.
.
β
n
>
<β_1β_2...β_n>
<β1β2...βn>对应
G
r
a
y
Gray
Gray串
<
γ
1
γ
2
.
.
.
γ
n
>
<γ_1γ_2...γ_n>
<γ1γ2...γn>,则从二进制编码到
G
r
a
y
Gray
Gray编码的变换为:
γ
k
=
{
β
1
,
k
=
1
β
k
−
1
⨁
β
k
,
k
>
1
(1)
γ_k= \begin{cases} β_1,\quad k=1\\ β_{k-1}\bigoplus β_k, \quad k>1 \end{cases} \tag{1}
γk={β1,k=1βk−1⨁βk,k>1(1)
上式子(1)中, ⨁ \bigoplus ⨁表示摸2的加法,也就是异或运算,不同为1,相同为0。
举个例子说明一下:
假设有一个二进制编码串
(
10110
)
2
(10110)_2
(10110)2,那么我们将它转化为Gray编码后为
(
11101
)
G
r
a
y
(11101)_{Gray}
(11101)Gray 。
从一个Gray串到二进制串的变换为:
β
k
=
∑
i
=
1
k
γ
i
(
m
o
d
2
)
=
{
γ
1
,
k
=
1
β
k
−
1
⨁
γ
k
,
k
>
1
(2)
β_k=\displaystyle \sum^{k}_{i=1}{γ_i(mod2)}= \begin{cases} γ_1,\quad k=1\\ β_{k-1}\bigoplus γ_k, \quad k>1 \end{cases} \tag{2}
βk=i=1∑kγi(mod2)={γ1,k=1βk−1⨁γk,k>1(2)
举个例子说明一下:
假设有一个Gray编码串
(
01001
)
G
r
a
y
(01001)_{Gray}
(01001)Gray,将其转化为二进制编码串后为
(
01110
)
2
(01110)_2
(01110)2。
Gray编码的优点是克服了二进制编码的Hamming悬崖的缺点。
1.2 实数编码
为克服二进制编码的缺点,对问题的变量是实向量的情形,可以直接采用实数编码。
实数编码是用若干实数表示一个个体,然后在实数空间上进行遗传操作。
采用实数表达法不必进行数制转换,可直接在解的表现型上进行遗传操作。从而可引入与问题领域相关的启发式信息来增加算法的搜索能力。近年来,遗传算法在求解高维或复杂优化问题时一般使用实数编码。
1.3 多参数级联编码
对于多参数优化问题的遗传算法,常采用多参数级联编码。其基本思想是把每个参数先进行二进制编码得到子串,再把这些子串连成一个完整的染色体。多参数级联编码中的每个子串对应各自的编码参数,所以,可以有不同的串长度和参数的取值范围。
2、群体设定
由于遗传算法是对群体进行操作的,所以,必须为遗传操作准备一个由若干初始解组成的初始群体。群体设定主要包括两个方面:初始种群的产生和种群规模的确定。
2.1 初始种群的产生
遗传算法中初始群体中的个体可以是随机产生的,但最好采用如下策略设定:
①根据问题固有知识,设法把握最优解所占空间在整个问题空间中的分布范围,然后,在此分布范围内设定初始群体。
②先随机产生一定数目的个体,然后从中挑选最好的个体加人初始群体中。这种过程不断迭代,直到初始群体中个体数目达到了预先确定的规模。
2.2 种群规模的确定
群体中个体的数量称为种群规模。
种群规模影响遗传优化的结果和效率。当种群规模太小时,遗传算法的优化性能一般不会太好,容易陷入局部最优解。而当种群规模太大时,则计算复杂。
种群规模的确定受遗传操作中选择操作的影响很大。模式定理表明:若种群规模为 M M M,则遗传操作可从这 M M M个个体中生成和检测 M 3 M^3 M3个模式,并在此基础上能够不断形成和优化积木块,直到找到最优解。
显然,种群规模越大,遗传操作所处理的模式就越多,产生有意义的积木块并逐步进化为最优解的机会就越高。种群规模太小,会使遗传算法的搜索空间范围有限,因而搜索有可能停止在未成熟阶段,出现未成熟收敛现象,使算法陷入局部最优解。因此,必须保持种群的多样性,即种群规模不能太小。
另一方面,种群规模太大会带来若干弊病:
- 一是群体越大,其适应度评估次数增加,所以计算量也增加,从而影响算法效率;
- 二是群体中个体生存下来的概率大多采用和适应度成比例的方法,当群体中个体非常多时,少量适应度很高的个体会被选择而生存下来,但大多数个体却被淘汰,这会影响配对库的形成,从而影响交叉操作。
种群规模一般取为20~100。
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)