表明,在离散调度过程中,可假设当前决策时刻为T,则T 之前的历史状态已知,而T 之后 的未来状态需要估计,T 时刻的决策需要计算。在本文中,免疫细胞编码采用矩阵形式。在 预警任务指派过程中一类是目标,一类是资源,可视作资源的指派过程。因此本文采用矩阵 135 形式编码,矩阵的行代表目标,矩阵的列对应的资源,矩阵的值选取0 或1,代表着资源和 目标之间是否存在指派关系。亲和力函数通过2.1 节优化目标函数经映射转换过来。例如将 多个优化目标经过线性加权映射为求最大的函数,经过乘以压缩因子后就形成亲和力函数。 这个过程与遗传算法中几乎完全相似,这里不再赘述。下面给出具体求解过程[11]: 1)初始化。产生大小为N 的初始化抗体种群B0,令支配抗体D0,活动种群A0 和克隆 140 种群C0 为空;令t=0。 2)更新支配抗体种群。确定抗体种群Bt 中的支配抗体,并将所有支配抗体放入到临时 支配种群DTt+1 中,如果DTt+1 的大小小于N,令Dt+1=DTt+1,否则,计算DTt+1 内所有个体 的拥挤距离值,并根据拥挤距离值由大到小对个体排序,并选择前N 个个体形成Dt+1。 3)终止条件。给定阈值g_max,如果t≥g_max,则停止搜索;否则,执行t=t+1。 4)基于非裂邻域的选择145 。如果Dt 的大小小于活动种群的最大规模NA,令At=Dt;否则, 计算Dt 内所有个体的拥挤距离,并按值的大小对个体降序排列,选择前NA 个个体形成活动 种群At。 5)比例克隆。对At 按比例克隆得克隆种群Ct。 6)变异。对克隆种群Ct 实施变异。 7)通过组合' 150 Ct 和Dt 得到抗体种群Bt,转到2)。 支配抗体种群D 内每个个体的拥挤距离为: Σ= − = M i i i i f f d D d D 1 max min ( , ) ( , ) ζ ζ (1) 式(1)中, max i f 和min i f 分别为第i 个目标函数的最大值和最小值, (d, D) i ζ 取值如 下式: ⎪⎩ ⎪⎨ ⎧ ∞ = ∈ ∞ = ∈ = disv other f d f d d D f d f d d D d D i i i i i ( ) max{ ( ) | } ( ) min{ ( ) | } ( , ) '' '' ' ' 155 ζ (2) 式(2)中disv min{f (d') f (d'' ) | d',d'' D, i i = − ∈ f (d ' ) f (d ' ) f (d ' )} i i i < < 。 上述算法完成T 时刻的调度,然而,预警过程属于动态连续跟踪过程,决策应具有连续 性,因此T+1 时刻也仍需使用克隆选择算法。经统计在连续跟踪过程中,大多情况下,最 近连续的多个决策点的最优决策相同或相近,这就为优化序列决策奠定基础。本文调整前述 160 免疫克隆算法中的第1)步的初始过程,加入最近几次优化结果(即T-i 到T-1 之间不同的 决策)作为T 时刻克隆种群的部分初始解,从而提高天基预警调度求解算法的性能。 3 仿真实验与分析 美国AGI 公司开发的STK 软件为导弹预警仿真提供基础环境,它支持航天任务周期的 全过程,包括概念、需求、设计、制造、测试、发射、运行和应用等。在本文第五章的基于 165 HLA 框架的天基预警仿真系统中,STK 起到卫星模拟、导弹弹道模拟、覆盖分析等空间环 境模拟。下面实验数据以美国天基红外预警系统(SBIRS)为基础,融入导弹发射、卫星运 行的影响因素,通过本课题组开发的分布式仿真系统进行模拟。 下面给出一个仿真系统运行的演示示例。蓝方卫星布局采用图3 的卫星星座布局:该场 景以SBIRS 为基础建立。在该场景中,部署高轨卫星为5 颗,部署大椭圆卫星为2 颗、部 170 署低轨卫星为24 颗。设进攻方包括两个区域分别为红方A、红方B,防御方在一个区域为 蓝方C。红方A 与红方B 同时进攻蓝方C,每一红方发射5 枚导弹,红方A、红方B、蓝 方C 的地理位置以及导弹发射情况如图3 所示。 图3 想定中的10 枚导弹发射区示意图 Fig.3 the Region Demonstration of Ten Ballistic Missiles in the Scenario 各种方案评价指标和评价方法相同,采用蒙特卡洛仿真完成100 次仿真实验,统计仿真 180 结果和克隆选择算法的性能。表1 给出100 次仿真实验几个评价指标均值。 表1 100 次仿真实验几个评价指标均值 Tab.1 the Mathematical Expectation of the Several Factors in 100 Experiments 各项指标 调度算法 传感器切换次数 118.239 信息增益 58.2871 导弹跟踪时间 2454.51 导弹立体跟踪时间 2227.44 跟踪时间/每次切换 20.75889 立体跟踪/每次切换 18.83845 传感器切换性价比 0.49296 185 下面利用100 次蒙特卡罗仿真,对克隆选择算法进行评价,包括收敛迭代次数、标准差 极小值、极大值、偏峰系数、峰度系数等指标。如表2 所示。表2 表明克隆选择算法的平均 迭代次数为82.49 次,标准差为77.17 次。而在100 次迭代过程中最大迭代次数为404 次即 可收敛。此外,克隆选择算法的偏度系数(Skewness)和峰度系数(Kurtosis),Sk>0 表明 分布呈正偏态,Ku>0 表明曲线比较陡峭。由此可判断迭代收敛分布为正偏态(朝左偏), 190 较陡峭。 表2 免疫克隆选择搜索时收敛代数情况 Tab.2 the Iteration Total 200 of the Clonal Selection 本文模型克隆选择算法求解 取值 标准误差 均值 82.49 4.397 均值的 95% 置信下限 73.84 区间 上限 91.15 5% 修整均值 74.95 中值 63.00 标准差 77.170 标准差的95% 置下限 71.519 信区间 上限 83.799 极小值 0 极大值 404 偏度系数 1.441 0.139 峰度系数 2.485 0.277 4 结论 作为离散时间序列调度优化问题,天基预警调度属于NP-hard 问题。预警系统本身的高 实时性、多星协作等特点,要求智能优化算法需要具有收敛速度快、鲁棒性强的特点。面对 205 实际调度系统的需要,算法本身需要支持机群计算,以期通过增加硬件的计算能力来进一步 提高真实调度系统的性能。 本文阐述基于免疫克隆选择算法的天基预警调度算法,并应用到序列决策的特点,进一 步提高算法的收敛性能。多种智能求解算法都可用于对调度模型进行求解,而这些算法的本 质属于概率性搜索,能否在指定的时间内获得最佳解具有概率性。各种算法都各具特点,实 210 际应用中,可以通过利用机群,多种求解算法并行计算,最终通过评价方式综合各算法的调 度结果。本文所阐述的免疫克隆选择算法是几种智能搜索算法之一。虽然我们也实现了其它 几种算法,但是具有公平的算法间比较不容易实现,算法参数、具体实现策略都将影响各自 性能,故此处不作比较。最后,以美国天基红外预警系统(SBIRS)系统为仿真参考,在基 于STK 的天基预警调度仿真系统中完成实验,评价算法的性能。 学术论文网Tag: |