Sie sind auf Seite 1von 164

第 一 章   绪 论

人工神经网络概述

在近代科学技术的发展过程中,人们通过仿生学的方法取得了很大的成就,像模
仿蝙蝠的声纳定位方法研制出分辨率很高的雷达探测系统就是一个例子。仿生学的方
法是一种有效可行的方法,人类在向鸟类学习飞翔时,不是机械地模仿鸟类展翅飞翔
的方法,而是根据鸟类展翅在飞翔中能获得上浮力的基本原理,制造出比鸟类飞得更
高的飞机,并在飞机的发展过程中,使飞机的某些性能,如飞行高度、航程和全天候
能力等大大提高,远非原来的学习对象 鸟类所能达到。然而,从全面来比较,鸟
类在视觉、听觉和飞翔的起落自如等方面,则比飞机要高超的多。
我 们 把存 在 于 脑中 的 实 际 神经 网 络 叫 做生 物 神 经网 络 (
,简称 ,而把向生命学习,用电子方法、光学方法或其他生物物理化学方
法仿照生物神经网络所构造出来的神经网络 ,称为人工神经网络 (
,简 称 。向生物神经网络学习的人工神经网络,并非(实际上也不可
能)在全面指标功能上达到或超过它的学习对象,而是在了解和分析生物神经网络的
结构、机理和功能的基础上,学习和实现那些人们所需要的智能,平常所称的神经网
络指人工神经网络。

神经网络是当代信惠高科技的竞争热点

世纪 年代中后期以来,国际上以美国、日本为首的工业先进发达国家中,掀
起了竞相研究开发神经网络, 设计构造神经计算机的热潮。
美国 宣布投资 亿
美 元,
执 行一 项 年神经网络计算机的研制计划。日本 计划中投资 万美元
用于神经网络计算机的研究。 年首届国际神经网络学术会议在美国加利佛尼亚州
召开,在会上成立了国际神经网络学会( ,简 称

接着在 年,由当今世界著名的神经网络学家,即日本东京大学的
甘利俊一)教授,美国波士顿大学的 教授和芬兰赫尔辛基
技术大学的 教授,主持创办了世界上第一份神经网络杂志《
。随后,国际电气工程师与电子工程师学会 )也成立了神经网络协
会并出版神经网络刊物。
我国于 年在北京召开了有关神经网络的三次专门学术会议, 年
月在北京由中国自动化学会主持召开《神经元网络及其应用学术讨论会》, 年
月由华南理工大学和西南交通大学等主持召开《第一届全国信号处理 神经网络
学术会议》。 年 月,由我国八个学会(即中国电子学会、计算机学会、人工智
能学会、自动化学会、通信学会、物理学会、生物物理学会和心理学会)联合在北京
召开“中国神经网络首届学术大会”。这个空前的盛会,以“八学会联盟,探智能奥
秘”为主题,收到了来自各方面的论文 余篇,从而开创了我国神经网络研究的新
纪元。目前每年都召开一次中国神经网络学术大会,已有九次全国性的神经网络学术
会议在北京、南京、西安、武汉、成都和汕头等地召开,全国有 个一级学会联合起
来(除上面八个学会外,还有中国电机学会、光学学会、中华医学会、运筹学会、电
工学会、数学学会、生物医学工程学会),向着“携手探智能,联盟攻大关”的宏伟目
标,迈开新的一步。而且国家攀登计划、国家“ 六三”高技术计划和国家自然科学
基金等项目计划中,都给予人工神经网络的研究以巨大的支持。
目前,国际和国内的学术刊物上涌现出大批神经网络学术论文,在神经网络这个
涉及多种学科的新的高科技领域中,吸引了众多的科学家,大量的有关神经网络机理、
模型、算法、特性分析以及建立在神经网络原理基础上的神经计算机(
简称 ,成为当代高科技领域中方兴未艾的竞争热点。神经网络技术的开发越来越
受到众多专业领域的科学家和工程技术人员的关注和重视。美、日、德、英等国家,为
争夺这座人类迄今尚未攀登的智能科学高峰,抢占 世纪科技竞争的制高点,在神经
网络理论和应用方面投入了大量的人力和资金。

神经网络的基本原理

近代神经解剖学和神经生物学的研究表明,表征人类无比精巧奥妙的大脑神经系
统,并没有像传统 型计算机那样有一个集中的 ,
而是由多达
个神经元
( 构成,而每个神经元与 个其他神经元以某种形式相互
联系,这种联系的部分称为突触或神经键 。神经元之间连接的强弱可随外部
的激励信号自适应地变化,每个神经元所处的状态(兴奋或抑制)随着其输入信息的
某种方式综合而变化。大脑的学习过程就是神经元之间的连接强度随外部激励信息自
适应的调整过程。这就是一般神经网络通用建模方法的生物学依据,在建模过程中,先
构筑合适的网络结构 ,固定处理单元 (神经元)的数目 ,然后通过不断改变神经元
(处理单元)间的连接强度来对网络进行训练,优化网络性能,最终实现网络的应用
目标。
图 )表示生物神经元的基本结构,它包括进行信息处理活动的细胞体、传
递活动电位所携带信息的轴索、将信息传至另一神经元的突触和接受其他神经元传递
来的信息的树突。图 表征与生物神经元等效的系统模型。
图 神经元模型
研究表明,神经元具有兴奋和抑制两种状态,只有当所有外来刺激(即输入)作
用之和超过某一阈值后,神经元由抑制变为兴奋,并输
出电位脉冲。因此, 年美国心理学家 和
数学家 提出了如图 所示的神经元模型,称为
模型。设神经网络由 个神经元组成,某种神经元
在( )时刻的输出 )可表示为

) )

式中 为神经元 的第 个输入,即为神经元 的 图 神经元 模型

输 出; 为神经元的阈值; 为神经元 与神经元 间的突轴连接强度(或称为连接


权)。 ()为符号函数。
除了这种离散型阈值模型外,还有连续型神经元模型、概率型神经元模型等。根
据不同的拓扑结构、工作原理、功能特性等要求,可以由简单的人工神经元构成多种
多样的人工神经网络:
按拓扑结构,可以分为全互连型、层次型、混合型和区组设计型等;
按信号的形式,可以分为离散型、连续型和混合型;
按信息流向,可分为前向型、反馈型和混合型;
按神经元间工作节拍,可分为同步式和异步式;
按网络参数统计特性,可分为确定型和随机型;
按网络学习方法,可分为有教师指导型和无教师指导型;
按实现手段,可分为电子式、光学式和光电混合式等。
目前有许多神经网络模型,它们从不同的方面模拟了人脑的功能。

神经网络信息处理的特征及应用

由于神经网络是按生物神经网络的结构和机理构造出来的,所以它能显示出比传
统的按预编程序串行集中处理的 计算机所不曾具有的重要特征。概括
起来,有如下四个主要方面。
巨量并行分布处理:信息的处理依靠结构简单且相同的大量神经元同时协同
作用来完成,信息的存储和学习功能则依靠它们之间的突轴连接强度的变化来实现,这
就是所谓连接主义( )的信息处理方法,并使处理速度大大提高。
信息处理单元和信息存储单元合二而为一: 计算机每个存储器
的地址和存储器的内容是分开的,而神经网络则是两者合在一起的,由改变连接权值
来进行控制,这就能按内容记忆联想。
具有自组织、自学习、自适应的能力:它不是被动的执行预先编好的程序,而
是根据环境条件的变化或人为的学习来自行调节权值 。使网络的行为适应于规定的
任务。
它能处理模拟的、模糊的和随机的信息:它不像 计算机那样求
得精确到若干位的精确解,而是迅速给出能解决问题的满意解输出。
其次还有:非线性运算、规模效应、弹性结构、分散处理、高度集成等。概括起
来和现行计算机比较,神经网络突破图灵模型确定性算法解决模拟、模糊和随机问题
的求解方法,突破处理信息和存储信息分离的传统方式,突破逐步推理运算追求精确
解的目标,寻求人脑信息处理惯用的满意解的有效方法。
由于神经网络具有类似于人脑神经系统智能活动的特征,它在许多智能信息处理
领域中显示出威力,这些领域有:
模式识别  如图象识别、语音识别及雷达声纳一类目标识别等。
)信号处理  如特征提取、噪声抑制、数据压缩、自适应均衡、自适应滤波、话
音插空、预测估值、自适应控制等。
)判识决策  如模糊评判、系统诊断、差错控制、加密破译、市场分析等。
)实时优化控制  如机器人控制系统、列车自动驾驶、智能计算机实时信息处
理、驼峰速度自动控制等。
组合优化如 解法,任务分配、货物调运、组合编码、路由选择,以及
线性规划和图论中各类问题的解法等。
知识工程  如知识表达、专家系统、自然语音处理和实时翻译系统等。
不难看出,上述这些应用领域与铁路科学技术的发展紧密相关,并且预示着神经
网络与神经计算机的开发研究,将为铁路运输现代化带来新的活力和前景。

机与人脑的比较

研究人脑神经的结构特点和活动机制,并在此基础上仿造出人工神经网络和神经
计算机,绝对不是要否定和取代传统计算机在精确数值计算方面的巨大优势,而是作
为应用于模式识别、组合优化和决策方面的扩展和补充,考虑到人类日常生活和工作
中绝大多数情况下要处理的都是模拟的、模糊的和随机的信息,因此这种扩大和补充
带来的效益是及其巨大的。
表 传统计算机与人脑的比较
比   较   
内 容 传 统 计 算 机 人 脑
基本单元 半导体元件 神经细胞
单元数目
信号形式 电脉冲 活动电位
动作速度
记忆容量
记忆形式 按地址记忆 按内容记忆联想
理论操作能量
故障率
信息处理方式 数字集中处理 模拟分布处理
系统结构 串行处理 并行处理
抗干扰性 低 高
容错能力 弱 强
制造方法 硬件 软件 遗传因子 自组织
信息的再现性 完全 不完全
工作方式 被动执行 已编程序 主动学习创新
睡眠 不需要 不可少
能力擅长 高精度数值计算 模式识别 、模糊判识
信息加工方式 形式逻辑 思维为主 形象思维为主
发展年代 半个世纪 数 万年

从表中可以看出,在那些需要根据逻辑推理进行精确计算的场合,传统计
算机能比人脑更有成效的工作,而在那些根据多种因素和经验作出综合判断,以求得
某种满意解的场合,人脑要比传统计算机强得多。
为了加速神经网络信息处理方法和神经计算机的发展,应集中精力完成下列工作:
解决神经网络的建模和特性分析问题,其中包括探讨神经网络的拓扑结构、动
态特性、稳定性、收敛性、混沌性和容量分析、延时分析、计算复杂性等。
解决神经计算机的软件模拟实现和硬件实现问题,为开发具有一定通用特性
的各类神经计算机创造条件,其中包括神经计算机的体系结构、并行算法、神经网络
信息处理软件、专用加速板、硅处理器实现、光学实现和光电混合实现等。
神经网络与神经计算机在各专用领域中的应用。在这方面有许多工作要进行,
一般情况下在实时性要求不太高的场合,可以利用软件模拟的方法(包括加速板)在
现行 机上进行,对那些实时性强的信息处理问题,则宜用硬件方法来解
决。
第二章  神经网络的生理基础
大脑信息处理基础

大脑是由多个神经元( 构成的大规模网络。本节以脑神经系统的结构为
基础,说明其基本结构特征,以及神经元间的相互作用。

脑神经系统的结构

生物的脑神经系统自生命的诞生以来,经历了几十亿年漫长的进化历程。大脑的
发达导致了高等动物的出现。其后,大约在 万年前,由于人类直立行走的缘故,使
得大脑更加发达,终于具有高度的智能。
人脑从外部观察,可分为左、右两个半球,称为大脑,其后部的一小块称为小脑。
大脑担负认知、语言、记忆等高等功能,与大脑密切联系的小脑则担负高级运动控制
等功能。大脑和小脑的表面覆盖有一层脑皮质,下面连接有众多的神经纤维。
神经纤维是构成人脑的重要组成部分,它在脑与感觉器官和运动器官之间起联络
作用。其中,从末梢感觉器官的信息传向中枢的神经称为上行性(或称为求心性)神
经。这里所指的末梢感觉器官包括:视、听觉器官,肌肉等运动器官和胃肠等消化器
官。将中枢的信息传向末梢器官的神经称为下行性(或称远心性)神经。人的听觉神
经纤维约有 万条,视觉神经纤维则约有 万条 之多。

图 人 脑 图 人脑的新皮质、老皮质和旧皮质

根据神经生理学的研究,人脑的皮质按进化的顺序可分为旧皮质、老皮质和新皮
质等自里向外三层,这三层皮质分别担任人类神经系统的三种功能,即食欲、逃走等
本能功能,愉快、不安等情绪功能以及认知、随意运动等高级功能。其中,旧皮质以
具有嗅觉处理的嗅皮质为代表,老皮质以海马皮质为其代表。哺乳类高等动物,尤其
是猿猴和人等灵长类动物的新皮质特别发达,并分为前头叶、头顶叶、后头叶以及侧
头叶四个大区域。新皮质和老皮质之间称为中间皮质。如图 及图 所 示。

神经元

神经系统是一个有序组织和相互作用的群体。例如,人类的中枢神经系统,包括
脊髓和脑大约 至 个神经元组成。这些神经元被组织成大约 个模块(或模
体 ,每 一个模块 含有约 个神 经元网络 ,每一个 神经元 网络又有 大约
个神经元连接而成。
神经元即神经细胞,是神经系统的基本单元,复杂的神经网络是各种类型的神经
元按不同的结合方式构成的。通过神经元的可塑特性,将使人脑具有学习、记忆和认
知等各种智能。
人脑神经元有许多不同的类型。就其共性而言,神经元有三个部分组成:树突、细
胞体和轴索,如图 所示。
树突  作为神经元的信息接受器,树突接受并解释来自别的细胞轴突的化学信息。
这些化学信息,或刺激(激励)、或抑制一个树突。一旦树突接受了一定的信息组合,
它就向细胞体发出信号。
细胞体  作为神经元的控制中心,细胞体响应并解释来自各个树突的信息,然后
通过轴索输出信息。
轴索  作为神经元信息的传送者,轴索把称之为动作电位的信号传送出去,解放
化学物质去激励或抑制相邻神经元的树突。一个神经元的轴索可以分支伸延,与数百
个别的神经元以及不同类型的神经元的连接状态也不同。
单个神经元的操作是简单的,这表明智能或信息并不是存储在单个神经元中。人
脑的智能存在于神经元相互连接之中,存
在于网络神经元相互作用之中。即智能是
分布式地存在着,主要存在于神经元之间
的连接模式和连接强度之中。
一个脊椎动物的典型神经元,其轴索
可以长 ,
有的却可长达 多;
其终端
可以有多达近千的分支,连向近千个神经
元。另一方面,围绕着神经元像树枝状的
树突,一个神经元可以接受几十、几百甚
至几千个别的神经元送来的信号。这就表 图 长枪乌贼神经膜内、外液的离子构成
现出大规模的并行性,它可以完成大量信
息的大规模并行处理。
神经膜等效电路

在神经膜一级,隔在神经膜两侧的细胞内液、 细胞外液的离子构成具有很大的差
异,这一现象在外部表现为生物
的非平衡性。图 所示的长
枪乌贼神经膜内、外液的离子构
成,在细胞外液中 居多,而
在细胞内液中 居多。而且在
外液中有很多二价阳离子
, ,在神经膜表面具
有很多高密度的负的固定电荷,
阴离子很难穿过其表面,所以神
经膜的电气现象主要由上述的阳
离子决定。
图 神经膜电路模型 从微观上看,神经膜以及生
物膜的结构是由脂肪分子二重膜
重叠构成的。在这种脂质二重膜中,埋藏着蛋白质形成的离子通道,它可使特定的离
子穿过其中,这样的神经膜,可由图 所示电路来表示。
该电路由条支路构成:电容支路;钠电流支路;钾电流支路;漏电流支路。电
容支路对应着脂质二重膜。钠电流支路及钾电流支路分别对应着钠离子通道及钾离子
通道的集合。
因为在外液中钠离子居多,有流向细
胞内的趋势。另外,内液中钾离子居多,有
流向细胞外的趋势。这可用图 所示
的钠平衡电位 及钾平衡电位 表示。
神经膜的基本特性一非线性特性起因
于 钠电 导 、钾 电 导 及漏电导 这些
非线性时变元件,它们随膜电位的变化而
变化。
神经膜当中,通常 。钾 平 图 静止电位与脱极化、过极化
衡电位 保持在接近 水平上。

里的膜电位是神经生理学当中最重要的状态变量。 图 表示了以神经膜外液电位
为基准神经元的内部电位。
将 的电位称为静止电位。依此为基准, 膜电位向正负方向发生变化时,分
别称之为脱极化与过极化。
处于静止状态的神经膜,对于
图 所示的激励信号,呈现出
非线性的响应。即对超过阈值的激
励信号才产生动作电位(
)或称为神经脉冲 (
。神经脉冲的振幅一
定,
宽度 约为 ,
与 数字电路脉冲
相比,速度是相当低的。 图 神经膜中活动电位生成的非线性过程
生成动作电位的状态称为神经
元的兴奋状态。这种动作电位可以认为是脑内传递信息的基本信号,动作电位只在高
于阈值的脱极化情形下才会产生,这是一种主动的非线性现象,而且在动作电位生成
之后,阈值变得比通常情况要大,使得下一个活动电位难以产生,这一期间称为不应
期。

神经元细胞等效方程

对生物的研究,主要由观察、解剖、实验所进行的研究,也可以以数学为工具进
行分析研究。 与 因 年建立了神经元细胞非线性动力
学微分方程式而获得诺贝尔生物医学奖。在欧美, )方程式非
常有名,日本东京大学的合原一幸对此方程式进行了长达 年的解析,得到了很多有
意义的结果。
方程式是具有四个变量的非线性微分方程式,由 式至 式
表示。

式( )至 式
( )中, 为膜电位( 为钠的活性化系数(
为钠的非活性化系数 为钾的活性化系数 为时间(
为膜电流( 。常数分别为
图 方程式的参数与膜电位的依赖关系

式( )
中的 及 分别
与 图 中 的 对应。式
)至式( )中的 )及
)分别表示当膜电
位为 时,变量 的定常值及随时间变
化的时间常数,如图 所示。
从图 可以看出, 变量变化
的时间常数 比 、 小至 左
右,因 此 , 随时间的变化要比 快
得 多 。另 外 ,图 )的
对膜电位 的 依 赖 关 系分 别 与 动 作 电
位生成过程中起初是 的增大,
继而是
的减少及 的 增大 这 一过 程相 对
应。即当给定一个电流激励时,时间常
数小的 迅 速增 大 ,形 成脉 冲 的上 升
沿。由于 时间常数大,延迟一段时
间后 减少, 增大,从而形成脉冲的下
降沿。由 方程式可以定量地再现图
的活动电位的生成过程。图
为数值分析的一个例子。

人脑的信息处理

计算机视觉领域的著名理论学家 图 方程式的数值解
曾经提出,对于复杂的信息处
理系统,可以从下面三层来理解和研究:
抽象的计算理论;
输入输出的表现和变换算法;
)物理实现。
对于人脑功能的理解和研究可类似地分为:神经生物学的理解、算法的理解和信
息系统的理解三个方面。

神经生物学的理解

人脑功能的研究的最低层次是脑的基本单元,即神经元的研究,其次是对整个神
经系统的研究。对脑进行神经生理学研究在科学实验方面虽做了大量的研究工作,但
对人脑活动的观测和研究是十分困难的。为此,还必须从算法和信息系统的角度进行
协调。

算法的研究

这方面的研究是利用计算机模拟的方法,构筑基于生理学知识或认知心理学知识
的脑模型,并由模拟实验得到与脑相同的性能。

信息系统的研究

人脑作为一个智能的信息处理系统,有其固有的特征,主要有如下四个方面。
第一个特征是并行分布处理的工作模式。实际上,单个神经元的信息处理速度是
很慢的,每次约 ,比通常的电子器件要慢几个数量级。每个神经元的处理功能也很
有限,估计不会比计算机的一条指令更复杂。但人脑对某一复杂过程的反应却是很快
的,一般只需几百微秒。例如,要判定人眼看到的两个图形是否一样,实际约需
而在这个处理过程中,与脑神经系统的一些主要功能,如视觉、记忆、推理等都有关。
按照上述神经元的处理速度,如果采取串行工作模式,就必须在几百个串行步内完成,
这实际上是不可能办到的。因此,只能把它看成是一个由众多神经元组成的超高密度
的并行处理系统。
脑信息处理的第二个特征是神经系统的可塑性和自组织性。例如,人的幼年时期,
约 岁左右,学习语言的能力十分强,说明在幼年时期大脑的柔软性和可塑性是特别
良好的。从生理学的角度看,它体现在突触的可塑性和连接状态的变化,同时还表现
在神经系统的自组织特性上。例如,当给小猫看一个圆球,在猫的视觉中枢的若干个
神经细胞就会对“圆球”有所反应,其结果将使得连接这些细胞的突触结合强度增强。
如此重复多次,这些神经细胞对“圆球”的反应就会比以前灵敏,这说明视觉神经系
统有可塑现象,也说明大脑功能既有先天的制约因素,又可通过后天的训练和学习而
得到增强。神经网络的学习机制就是基于这种可塑现象,并通过修正突触的结合强度
来实现的。
脑信息处理的第三个特征是它具有很强的系统性。即对于神经系统的研究必须从
复杂的大规模系统的角度进行理解,单个的元件(例如神经元)的功能,不能体现作
为全体宏观系统的功能。实际上,可以将大脑的各个部位看成是一个大系统中的许多
子系统。各个子系统之间具有很强的相互联系,一些子系统可以调节另一些子系统的
行为。例如,视觉系统和运动系统就存在很强的系统联系,可相互协调各种信息处理
功能。
脑信息处理的第四个特征是系统的恰当退化。根据神经生物学知识,人每天平均
约有 万个神经细胞死亡。但认知功能并不会出现突然的降低。神经系统由于疾病或
脑损伤,其功能将随着损伤的神经元数目的增加而逐渐变坏。但并不会因为某个神经
元的损坏,使得某一特定的认知功能丢失。这说明,信息的存储和表示是分布式的,具
有很强的容错能力,即信息不是存储(记忆)在单个神经元内,而是分布存储于整个
神经网络中,并体现在神经元之间突触的结合强度上。这样当少量的神经元受到损伤
时,通过自组织功能,其他神经元组成的总体模式将使网络总体功能继续有效。

大 脑 模 型

大脑的模型化研究方法

通过前面的学习,我们对神经元的理解已有了相当的深度,同时也积累了神经网
络方面的一些知识。另外,大脑所具有的诸如模式识别、立体视觉、语音识别、联想
记忆、推理方面的能力亦广为人知。脑的模型化研究方法被认为是联结这二者的桥梁。
以脑神经科学的成果(分析研究的成果)为基础,建立神经元,神经网络乃至学习、自
组织过程的数学模型。通过对模型的理论分析探明大脑信息处理的奥秘。这种方法被
称为“合成分析法” 。

图 脑研究的合成分析法
应用合成分析法的研究过程如图 所示。这是一个不断反馈的过程。通过不
断修改完善,我们可以得到期望的结果,直至最后用工程方法实现我们期望的信息处
理系统。
大脑的理论模型研究,迄今已取得了很多成果。主要成果归纳如下。
神经元模型
, ,
),

, , ,铃 木
( ,

,川人(

脑部位模型
① 小 脑: , ,

②视觉系统:安田,木通渡(

③ 运 动 系 统: ,笠 井 藤 井( ,赤 泽 藤 井( 人
铃木 (

功能模型
①时空结构动力学:
, , , ,麻
生(
②学习、自组织化:
( , , , ,

③联想记忆: , , ,

神经网络模型

形式神经元  神经元是一个多输入单输出的非线性元件。神经元最简单最具代
表性的模型是 年由
及 提出的神经元模型。

图 所 示。
个输
假设某一神经元具有
入,各输入信号的强度分别为

这个神经元的输出为 ,则
形式神经元的工作原理可由式
所示的离散时间差分方程
式描述 图 形式神经元模型

式中, 。
函数形式 ]为阶跃函数(图 ,由下式表示
即形式神经元的各输入输出取值为 代表
神经元的兴奋状态, 代表神经元的非兴奋状

(静 止 状 态 )

式( 中, 表示第 个输入的连接强
度。当第 个输入产生时
( ,神经元膜
电位的变化量为 为正时表示兴奋性神经
键, 为负则表示抑制性神经键 为神经元的

阈值。当各输入与其权值的积和
超过 时,神经元进入兴奋状态, 输出电脉冲。
形式神经元是一种多数表决元件, 它有效利用
图 形式神经元的输出函数
了每一票的差别。
利用形式神经元实现的逻辑函数的例子如图 所示。

图 用形式神经元构成的逻辑元件
由 形 式 神 经 元 构 成 的 神 经 网 络     由 形 式 神 经 元 构 成 的 神 经 网 络 如 图 所
示。
设 第 个神经元的输出为 ,第 个神经元到第 个神经元的连接权为 ,第 个

图 形式神经元构成的神经网络
神经元的阈值为 ,则这个网络的动态特性可由下式给出

当连接权分布 阈值分布 、各神经元的初始状态 给出之后 ,那么这


个网络的动态行为也就决定了。
神经 网络模 型的扩 充  形式神 经元表 示了神 经元的 二值状 态 ,时 间亦是 离散
的 ,这个模型与数字电子电路是相似的 。此外 ,还有描述模拟状态的模型、连续时间
模型,因此,神经网络模型可以按状态与时间定性地分为四类:状态为数字/模拟状态,
时间为连续/离散方式。
神经元也是呈空间分布的 ,又可分为空间离散分布和空间连续分布两种情况。这
样,神经网络模型就可定性地分为八类。
设一个神经元有 个输入 ,其连续时间、模拟状态模型的一个例子如下所示

上两式中, )
为神 经元各个输入在
时刻的平均脉冲密度 (单位时间内产
生的动作电位脉冲数); 为神经元
的 平 均膜 电 位; 为膜电位的变化时
间常数; 为静止电位; 表示平均膜
电位 与平均脉冲密度输出 的函数
关系 。一般地, 为单调函数 ,如图
所示。
由于死区 的存在,
脉冲周
期不可能小于死期,所以平均脉冲密
度在某一值达到饱和。 图 平均膜电位 与平均脉冲密度输出 的关系

在大脑建模时,采用什么样的模型,根据研究者的出发点不同而有所不同。有的
是根据单纯模型进行先导性先见性的理论探索,有的是侧重于工程实现。写出描述神
经网络动态特性的方程式本身是容易的,但仅仅是一个方程式并不能说明什么问题。例
如,考虑式 式所描述的网络,当 的大小 及 的值不同时,神经网络的
行为大不相同。因此用什么特性的神经元构成的网络,怎样决定权值 和阈值 ,这
样构成的网络又具有什么样的行为等问题,是大脑模型化研究的主要目的。

基本神经元模型

人工神经网络的基本单元是人工神经元,或处理单元,对其有如下定义。
[定义 ]隶属度:设在论域 上给定了映射

则 确定了 上一个模糊子集,记为 称为 的隶属函数,记为 ,

称为 关于 的隶属度。
[定义 神经元 :任何具有输入输出的映射 满足

则这种输入输出关系就是一个神经元。 一般用非线性 函数来表示。


[定义 直控神经元:由定义 对于神经元 ,其输出可以表示为

参见图 所示。其中, 是相当


于其他神经元的轴突分支,反映了其他神经元对第
个神经元的影响, 是神经元 与 之间的连接权,
为阈值。在判识阶段,当遇到 时

式中 控制神经元的控制信号。
式说明 与 没有直接关
系,即其输出 由 直接控制。其中
, , ,

式说明 是 , 的逻辑输出
值。其中 是部分输入信号。

图 直控神经元模型
[定义 ]模糊神经元就是具有隶属度特性
的神经元。
由定义 可得:论域 上的任一模糊子集 都可以用一个模糊神经元来表
示。
[定义 模糊分类神经元是具有隶属度特性且模糊子集的截集等于常规神
经元阈值的神经元。
[定义 ]推理神经元是能实现
条件推理的神经元,称为推理神经元。
[定义 ]线性神经元是能完成

功能的信号处理单元就是线性神经元。
[定义 二维 :误差变量 所取的论域为: ,

误差化量 所取的论域为: ,
控制量 所取的论域为: , ,

则由条件语句
, , , ,

形成模糊关系

式中表示模糊向量的笛卡尔积,称

为二维 ,式中。表示合成运算。
显然,利用分类神经元、推理神经元及线性神经元总可将任一 维 用模糊神
经网络的实现。
第三章  前馈神经网络
神经生理学家和神经解剖学家的研究表明,大脑中的神经网络一般具有层次结构,
同时神经元间的联系大部分属于前馈型联接,而且其学习过程比较容易理解,所以,我
们首先讨论前馈神经网络模型。从学习的观点看,前馈神经网络是一种强有力的学习
系统,其结构简单而且易于编程;从系统的观点看,前馈神经网络是一静态非线性映
射,通过简单非线性处理的复合映射可获得复杂的非线性处理能力。但从计算的观点
看,前馈神经网络并非是一种强有力的计算系统,不具备有丰富的动力学行为。大部
分前馈神经网络是学习网络,并不注意系统的动力学行为,它们的分类能力和模式识
别能力一般强于其他类型的神经网络。本章通过介绍三个典型的前馈网络,即感知机,
网络和竞争学习网络,讨论其结构,工作和学习机理,从而揭示这类神经网络所具
有的功能和特征。

感   
知 机

感知机模型

年心理学家 及其合作者为了研究大脑的存储、学习和认知
过程而提出的一类神经网络模型,并称其为感知机 。图 为感知机
的两种结构示例。

图 感知机的两种结构事例
在这种模型中,输入模式 )通过各输入端点分配给下一层的各结
点,下一层就是中间层,中间层可以是一层也可以是多层,最后通过输出层结点得到
输出模式 。在这类前馈网络中没有层内联接,也没有隔层的前馈联
接,每一结点只能前馈联接到其下一层的所有结点。然而,对于含有隐含层的多层感
知机当时没有可行的训练方法,所以初期研究的感知机为一层感知机或称为单感知机,
我们通常就把它称为感知机。虽然简单感知机有其局限性,但人们对它作了深入的研
究,有关它的理论仍是研究其他网络模型的基础。
如果在输入层和输出层单元之间加入
一层或多层处理单元,即可构成多层感知
机,因而多层感知机由输入层、隐含层、输
出层组成。隐含层的作用相当于特征检测
器,提取输入模式中包含的有效特征信息,
使输出单元所处理的模式是线性可分的 。
但需注意,多层感知机模型只允许一层连
接权值可调,这是因为无法设计出一个有
效的多层感知机学习算法。图 是一
三层感知机结构,有两层联接权,其中输
入层和隐含层单元间的连接权值是随机设
图 三层感知机
定的固定值,不可调节;输出层与隐含单
元间的一层联接权值是可调的。

感知机学习

感知机的学习是典型的有导师学习,可以通过样本训练达到学习的目的。训练的
条件有两个:训练集和训练规则。感知机的训练集就
是由若干个输入 输出模式对构成的一个集合,所谓输
入输出模式对是指一个输入模式及其期望输出模式所
组成的向量对。图 给出了一个训练集,它包括
二进制值输入模式及其期望输出模式,每个输出对应
一个分类。
图 一个训练集示例 在训练期间,不断用训练集中的每个模式对训练
网络。当给定某一训练模式时,感知机输出单元会产
生一个实际输出向量,用期望输出与实际的输出之差来修正网络联接权值。权值的不
断更新采用简单的 学习规则,则感知机学习算法为

式 中 , 为学习因子,用于控制每次误差修正值,取值为 ;期望输出与实
际输出之差为

输入状态 或 。

由此可见,权值变化量与三个量有关:输入状态 ,输出误差 及学习因子


当且仅当输出单元 有输出误差且相连输入状态 为 时,修正权值或增加一个
量或减少一个量。每次权值修正量由学习因子 来 确 定 。 的取值一般不能很大,
也不能太小,因为 值太大会影响权值 的收敛性;而太小又会使得权值收敛速
度太慢。
通常,感知机的学习可采用两种方式即在线学习和离线学习。在线学习是对训练
集内每个模式对逐一更新网络权值的一种学习方式,其特点是学习过程中需要较少的
存储单元,但有时会增加网络的整体输出误差。因此,使用在线学习时一般使学习因
子足够小,以保证用训练集内每个模式训练一次后,权值的总体变化充分接近于最快
速下降。所谓离线学习也称为批学习,是指用训练集内所有模式依次训练网络,累加
各权值修正量并统一修正网络权值的一种学习方式,它能使权值变化沿最快速下降方
向进行。其特点是学习过程中需要较多的存储单元,好处是学习速度较快。具体实际
应用中,当训练模式很多时,可以将整个训练模式分成若干组,
采用分组批学习方式。
感知机的学习过程又称为最小方差学习过程,其几何解
释如图 所示。根据权向量分布,可以构造一个多维权
空间,其中,每个权对应一个轴,另一个轴表示学习过程中
的误差度量。由于对每个权向量都会有一定输出误差,由权
空间某点的“高度”表示。学习过程中所有这些点形成的一
图 误差表面示意图
个空间表面,称为误差表面。线性输出单元的感知机,其误
差表面成一碗形,其水平截线为椭圆,垂直截线为抛物线。显然,该碗形表面只有
一个极小 点,沿误差表面 按梯度下降法就 能达到该点, 这涉及感知机学 习的收敛
性,下面还要详细讨论。
感知机可以对线形可分性输入模式进行分类,例如,两维输入 其分界线为
维 直线,则

其对应的线形分割如图 所示。所以感知机对与、或、非问题均可以线形分
割。
图 线形分割图 图 样本空间分布

感知机模式只能对线形输入模式进行分类,这是它的主要功能局限。逻辑异或
表 真值表 )问题是一典型的模式分类例子,其输
入模式是非线性可分的, 的真值表如表
所示,要求能按输入模式分成两类,结
果为逻辑 或逻辑 。将四个输入模式分布在
二维样本空间,假设输出 用符号 表 示 ,输
出 用符号 表示,
如图 所 示。
显然输
入样本不能用一条决策直线划分成两类,即是
线性不可分的。因此,感知机模型不能解决逻辑异或问题。
由图 可以直观的看出,假设存在两条样本决策直线 和 ,直 线 将样
本空间分成两部分,输入模式 被错分到
”区域,而决策直线 将输入模式 错
分到“ 区域。如果将两条样本决策直线的划分
能力综合起来,那么就可以把样本空间划分成两
条直线之间的区域和之外的区域,这两类样本便
可截然划分。图 所示的隐含层感知机模型
是解决逻辑异或问题的一个方案。这里,两条样
本决策直线方程为

输出单元 相当于一个逻辑“与”门,实际图 一个“异或 求解网络


真值表如表 所 示。
同理,图 为解决逻辑异或问题的其他的方案,均含有输入层,隐含层和输
出层三层结构。
可以证明,只要隐含层单元数足够多,用多层感知机网络可实现任何模型分类。但
是,隐单元的状态不受外界直接控制,这给多层网络的学习带来极大困难。当年
和 对神经网络的悲观论点就是因为多层感知机学习算法可能不存在。 世纪
年代神经网络研究表明:多层网络可以训练和学习,例如 等人提出的误
差反向传播( )算法, 等人提出的波尔茨曼机学习算法等。
表 含有隐含
层的 真值表

图 “异或”求解网络

感知机收敛性定理

定理 如果样本输入函数是线性可分的,那么感知机学习算法经过有限
次迭代后可收敛到正确的权值或权向量。
对于一个 输入感知机模型,有 个样本输入函数。如果样本输入函数是线性可
分的,那么任意给定的一个输入样本 ,要么属于某一个区域 ,要么不属于这个区
域,记为 两类样本构成整个样本空间。因此,如图 所示的感知机
学习过程可用如下类程序描述:
:选择初始权向量
:任选一个输入样本向量 ,直到学习结束

下面,给出感知机收敛性定理的一个证明。考虑到样本输入函数是线性可分的,我
们在此只讨论 的情况。
假设样本空间 是单位长度样本输入向量的集合。若存在一个单位权向量 和
一个比较小的正数 ,使得 对所有的样本输入 都成立,则权向量 按下
述学习过程仅需有限步就可以收敛。
置学习步数 ,权 初 值 为任意非零向量;
)任选一输入样本 ,使 , ,

图 感知机学习过程示意
)若 ,返 回 (
)修正权值 ,返回

证明:假设 表示任意权向量与学习好的权向量 夹角的余弦,即

因为

递推得


而余弦值 ,所 以
说明感知机学习迭代次数是一有限数,经过有限次迭代,学习算法可收敛到正确的权
向量 。

综观上述证明过程,有两点需要注意。首先,正数 越小,迭代次数越多;第二,
若样本输入函数不是线性可分的,则学习过程出现振荡,得不到正确的结果。
对于多层感知机模型,有如下结论。
[定理 假定隐层单元可以根据需要自由设置,那么用双隐含层感知机可
以实现任意的二值逻辑函数。
为了说明这一结论,我们看一看感知机层数,单元数与所能解决特定问题的关系。
如表 所示。
表 感知机结构与决策区域类型

无隐层感知机结构用一超平面将决策区域分为两个部分,它能解决一般的线性可
分性问题。单隐层感知机结构中,输出层单元取隐层单元形成的各自半平面相交的部
分,在样本输入空间形成任意的凸区域,包括开凸区域和闭凸区域。凸区域部分的边数
与形成该区域的半平面个数相等,其最大边数受输入层单元个数的限制。由此可见,在
一个单隐层感知机中需要多个单元来解决某一问题。双隐层感知机可形成任意复杂程
度的决策区域。例如将期望的样本决策区域分割成若干个小的三维超立方体,超立方体
是凸状的,可以先选一个单隐层感知机,使其输出层中的每个单元的输出指明是否输入
模式位于某一特定决策区域超立方体;然后,将属于某一特定决策区域的各个小的超立
方体在输出层进行逻辑“或”
运算,这样,
如果输入模式位于一个个小的超立方体决策区
域,那么输出层就能对输入模式作出正确的划分。值得注意的是,当用双隐层感知机进
行感知机模式分类时,如分类区域是不连接的,并且不包含在一个凸区域内,则与输出
层相连的隐含层单元个数必须大于 ,最坏的情况下必须等于不连接的决策区域的个
数。
对于线性输入、
输出关系的感知机模型,
继续增加隐层的个数是没有多大意义的。

此,双隐含层感知机能够在样本空间产生任意形状的决策区域,实现任何的二值逻辑
函数。

神经网络

模型

通常所说的 模型即误差反向传播神经网络是神经网络模型中使用最广泛的一
类。从结构上讲, 网络是典型的多层网络,分为输入层、隐层和输出层,层与层之
间多采用全连接方式。同一层单元之间不存在相互连接。图 给出了一个三层
网络结构,与多层感知机结构相比,二者是类似的,但差异也是显著的。首先,多层
感知机结构中只有一层权值可调,其他各层权值是
固定的、不可学习的; 网络的每一层连接权值都
可通过学习来调节。其次,感知机结构中的处理单
元为线性输入 输出关系,单元状态为二进制的 或
;而 网络的基本处理单元(输入层单元除外)为
非线性的输入 输出关系,一般选用下列 型作用函

处理单元的输入、输出值可连续变化。
模型实现了多层网络学习的设想。当给定网
图 一个三层 网络结构
络的一个输入模式时,它由输入层(单元)传到隐
含层单元,经过隐层单元逐个处理后传送到输出层单元,由输出层单元处理产生一个
输出模式。这是一个逐层状态更新过程,称为前向传播。如果输出响应与期望输出模
式有误差,不满足要求,那么就转入误差反向传播,将误差值沿着连接通路逐层传送
并修正各层连接权值。对于给定的一组训练模式,不断用一个个训练模式训练网络,重
复前向传播和误差反向传播过程,当各个训练模式都满足要求时,我们说 网络已学
习好了。应该强调一点,从网络学习的角度来看,网络状态前向更新及误差信号反向
传播过程中,信息的传播是双向的,但是并不意味着网络层与层之间的结构连接也是
双向的, 网络是一种前向网络。

学习算法

网络学习是典型的有导师学习,其学习算法是对简单的 学习规则的推广和发
展。
假设 网络每层有 个处理单元,作用函数如( 式所示,训练集包含
个样本模式对 。对第 个训练样本 , ,单 元 的输入总和
(即激活函数)
记为 ,输出记为

如果任意设置网络初始权值,那么对每个输入模式 网络输出与期望输出一般总
有误差,定义网络误差

式 中 , 表示对第 个输入模式输出单元 的期望输出。 学习规则的实质是利用


梯度最速下降法,使权值沿误差函数的负梯度方向改变。若权值 的变化量记为

因为

这里,令

于是

这就是通常所说的 学习规则。
在 网络学习过程中,输出层单元与隐单元的误差的计算是不同的, 下面分别讨
论。
当 表示输出层单元的输出时,其误差


式中, )反映了输出单元 的输出误差量,作用函数的导数项 按比率
减少误差量。图 所示为作用函数及其导数的曲线变化,显然,当激活函数 值
为 时, 型曲线上升得最快,导数 取最大值,误差修正量达最大
特别地,当作用函数为线性型, 为一常量,由此得到感知机学习算法的误
差修正量。

当 表示隐含单元输出时,其误差

图 型作用函数及其导数曲线

因为

式 中 , 表示的是与单元 输出相连的上一层单元

如图 所示,隐层单元的误差修正量 是通过加
权求和所有与单元 输出相连的上一层单元的误差修
正量 ,根据作用函数的导数 按比率减少得
到的。
算法权值修正公式可以统一为
图 误差反向传播原理

对于输出单元
对于隐单元
在实际应用中,考虑到学习过程的收敛性,学习因子 取值越小越好, 值越大,
每次权值的改变越激烈,可能导致学习过程中发生振荡。因此,为了使学习因子 取值
足够大,又不产生振荡,通常在权值修正公式( 中再加上一个势态项,得

式中, 为一常数,称为势态因子,它决定上一次学习的权值变化对本次权值更新
的影响程度。
权值修正是在误差反向传播过程中逐层完成的。由输出层误差修正各输出层单元
的连接权值,再由( 式计算相连隐含层单元的误差量,并修正隐含层单元连
接权值。如此继续,整个网络权值更新一次后,我们说网络经过一个学习周期。图
所示例子中反映了 网络的学习过程的动态变化。给定一个输入模式和期望输出模
式,经前向传播过程,在输出层产生一个实际输出模式,如图 所示;与期
望模式比较,计算出输出层相连的各单元的误差值 ,修正输出层连
, , ,

接权 如图 所示;然后 ,计算与输出层相连的隐层单元的误差 ,

如图 ( ),图中粗箭头指示误差信号的传播方向,修正隐层单元的连接权矩阵

,至此才算完成一次学习。要使实际输出模式达到输出期望模式的要求 ,往往
需要经过多个学习周期的迭代。
一般地, 学习算法描述为如下步骤:
)初始化网络及学习参数,如设置网络初始权矩阵,学习因子 ,参数 等;
)提供训练模式,训练网络,直到满足学习要求;
前向传播过程:对给定训练模式输入,计算网络的输出模式,并与期望模式
比较,若有误差,则执行( ;否则 ,返回 (
)反向传播过程:
①计算同一层单元的误差
② 修正 权 值 和阈 值
) ) ))

阈值即 时的连接权值;
返 回 (

训练与测试

网络的学习是通过用给定的训练集训练而实现的。学习过程进展如何?什么时
候认为网络学习好了?训练的效果如何?要回答这些问题,必须有定量的指标来衡量。
均方根误差
通 常 ,用网 络的 均方 根 ( )误差来定量地反映学习的性能。其定义为
图 一个 学习周期
)前向传播,产生输出模式; 计算输出层 值,更新权值
误差向后传播 )更新权矩阵

式中 训练集内的模式对个数;
网络输出层单元的个数。
在 网络学习过程中,按照梯度最速下降算法,均方根误差应是逐渐减小。由于
网络输入、输出都是实数值的,网络学习能否满足性能要求,不是一个简单的二值判
断能决定的,它是由网络的实际输出与期望输出的逼近程度决定的。一般地,当网络
的均方误差 值低于 时,则表明对给定训练集学习已满足要求了。当然,学习
指标 的上限可以根据具体应用灵活设定。
图 表示的是 算法的一个
典型学习误差曲线,这是一个收敛的学
习过程。随着一次又一次的权值修正迭
代过程,网络的 误差应是不断减
小的。但是,在一段时间内,误差随迭
代次数的增加而保持不变。而过了这段
时间后,误差又迅速减少,我们称学习
过程中的这种现象为假饱和或平台现 图 一个典型的学习误差曲线
象。假饱和现象的出现并非偶然的,它
是与网络的初始权值设置,权值的修正量有关的。
初始权值矩阵一般是在一定范围内按均匀分布随机产生的。在初始权值下,对于
给定输入模式,如果输出层单元的总输入与阈值相差甚远,就称该单元进入了工作饱
和区,如图 所示。当输出单元落入饱和区,且其输出值与期望值有误差时,
需要对权值有较大的修正,才可能尽快使处理单元离开饱和区。参照图 ,此
时单元的作用函数导数很小,因此每次学习周期只能对权值做较小的修正,输出单元
在一段时间内一直在饱和区内,网络的均方误差保持不变,造成学习过程中假饱和现
象出现。随着网络的不断学习,当处理单元离开饱和区,因为误差和作用函数的导数
都比较大,权值修正量明显增大,反映在学习曲线上就是误差 迅速下降。
训练性能测试
典型的 网络应用(如非线性映射,模式分类)不仅需用一个训练集,而且还要
一个评价训练效果如何的测试集。训练集和测试集都是由输入 输出模式对构成的集
合,其元素即模式对来源于同一数据集合。训练集用于训练网络,使网络能按照学习
算法调节结构参数,以达到学习的目的;测试集则是用于评价已训练好的网络的性能
一泛化能力。一般来讲,训练集所包含的训练模式对个数只是源数据的一部分,即使
用训练集内所有的模式对训练好了网络,也不能保证用其他模式对测试网络时,都能
得到满意的结果。如果用训练模式之外的一组典型模式对构成测试集测试网络,所得
到结果是满意的,那么就说该训练网络泛化能力很强;否则就说明所选择的训练模式
是不具代表性的,不能体现源数据集整体的特征,泛化能力较弱或很差。因此,为了
获得较好的网络性能,必须满足两个基本前提:第一,训练集和测试集应使用典型模
式对;第二,测试集应不同于训练集。
训练举例
例如,一个模式分类问题,给定训练模式如图 所示,输出模式、期望输出
模式均为三维向量;训练网络为一个 层 网 络,
输 入 层、
输出层均有 个处理单元。
训练的任务是使网络能将 种不同形状的输入模式正确分类,即相应每个不同类型的
图,有且只有一个输出单元响应。定义中间具有峰值的模式为类型 ,中间有低谷的模
式为模型 ,平线形状模式为类型 。训练模式包括了这三种类型。

图 一个例子训练集
输入模式 )期望输出模式; 练网络。
用所给训练集训练网络,当对所有训练模式网络都能给出满意结果时,学习就算
完成了。为了考察训练网络的泛化能力,给出一个例子测试集,如图 所示。测
试集有 个输入模式,其中包括每个训练模式的 个噪声模式,噪声值为 ,分
别加到每个训练输入模式的各个值;还包括不同高度值的平线形状模式 个。训练网
络能 地将 个噪声模式正确分类;对模型 中较高的平线模式能正确分类,但
当平线模式值较小时会产生错分类。
假定训练集内的每个模式表示某公司 个月每月的销售额记录,那么这样一个训
练网络就可能将输入的模式分为三种情况:高峰、低谷、持平。当然,一个实际应用
问题的解决可能需要更多的输入数据,更多的有代表性的输入模式,但是可以使用同
样的技术训练网络,测试网络性能,改进训练结果。
模型的性能

模型是人们认识最为清楚,应用最广泛的一类神经网络,成为神经网络的重要
模式之一。 模式的性能优势主要表现在模式匹配、模式分类、模式识别与模式分析
等方面。
首先,在模式匹配方面具有相当强的输入一输出映射能力。 网络能够学习大量
的模式映射关系,而不需要任何已知的数学函数知识描述输入一输出模式间的映射。将
输入模式映射到期望的输出模式,只需要用已知的模式训练网络,通过学习,网络就
具有了这种映射能力。 网络所具有的这种网络映射是一个高度的非线性关系的映
射。假如输入层单元数为 ,输出层 单元数为 ,那 么 网络就能实现从 维欧氏
空间到 维欧氏空间的任意映射。由此可以设想, 网络将会有多么广泛的应用领
域。

图 一个测试集
)类 型 的测试模式; 类型 测试模式 类型 测试模式; 测试模式。
等人利用 模式成功解决了逻辑异或问题,如图 所示。
图 )给出了求解异或问题训练集;图 为实现的一个最少层网络,我
们可以用手算验证对各个输入模式,输出结果都是正确的。用 算 法 训 练“ 异 或 ”问
题网络的一个突出问题是局部极小值的出现。对于图 所示网络,当初始权
值为较小的随机数时,网络学习过程可能就会陷于局部极小值。图 ( )所给出
的网络参数显然是一个局部极小情况,网络对于输入模式 能产生正确的输出结
果 ,对 和 产生错误输出。
一旦出现局部极小,
无论继续训练多少次,
也不会进一步
改善网络的性能,减少局部极小值出现次数的方法之一是增加隐层单元数,如图
)所示,有具有五个隐层单元网络训练时,则局部极小值出现的概率大大减小。
模型具有很强的信息处理能力,归根结底,这是由 算法可实现隐层单元的
学习来保证的。隐层单元相当于一个个特征抽取器,因而 ,它能解决模式分类 、映射
及其他模式分析问题。客观地讲, 模式还存在下列问题,有待进一步更好地发展。

图 问题求解网络
)训练集; 一个最小规模实现网络; 局部极小时的 网 络; 另一训练网络。
学习算法收敛速度慢。一个相当简单的问题求解,其训练次数要几百或几千
次 迭代;
局部极小问题。从数学角度看, 学习过程是一个非线性优化过程,所以不
可避免地会遇到优化过程中最常见的局部极小问题,使学习结果令人不满意;
网络的隐层单元个数尚无理论上的指导,而是根据经验选取;
网络是一个前向网络,具有非线性映射能力,但它并不是一个非线性动力
学系统,功能上有其局限性。
实际上,人们已经提出了一些改进方案,如学习过程中采用变学习因子 的 算
法,起始时 值很大,随着学习的自适应调节 值的大小,从而缩短算法的收敛时间;
在权值更新算式中增加势态项以加速收敛过程。
竞争学习网络
竞争学习是一种典型无导师学习策略,学习时只须给定一个输入模式集作为训练
集,网络自行组织训练模式,并将其分成不同类型。与 学习相比,这种学习能力进
一步拓宽了神经网络在模式识别 、分类方面的应用 。竞争学习网络的核心一竞争层是
许多神经网络模型的重要组成部分,例如 提出的自组织的影射网(
提出的反传网络( 与 提出的自适应共振理
论( )网络模型等均包含竞争层。

竞争学习网络结构

基本的竞争学习网络由两层组成,第一层为输入层,由接收输入模式的处理单元
构成;第二层为竞争层,竞争单元争相响应输入模式,胜者表示输入模式的所属类别。
输入层单元到竞争层单元的连接为全互连方式,连接权是可调节的。对于给定的一个
输入模式,只调节获胜单元的连接权。图
所示为一个两层竞争学习网络。
自组织映射网( )的基本网络结构也
是两层:输入层和竞争层。与基本竞争网络不
同之处是其竞争层按二维网络阵列方式组织,
而且权值更新的策略也不同。对于给定的输入
模式,训练过程不仅要调节竞争获胜单元的各
图 两层竞争网络 连接权值,而且还要调节获胜单元的邻域单元
权值。如图 所示,假设竞争获胜单元位
于( )处,则该获胜单元的领域单元定义为包括在下述矩形框内的所有单元。

图 网络结构及单元
网络基本结构; 获胜单元的邻域单元。
其中, 表示由中心点 )到邻域单元位置 的距离。图中标注了
为 时获胜单元的邻域单元。
反传网络( )结构如图 所示 ,从形式上看, 也是一个多层前向网
络,可用于实现模式映射,这一点与 网络相似,但是在工作机理方面,二者有明显
的差异。 除了输入层外,还有两个功能层,第一层为竞争层,其权值学习采用竞
争学习策略;第二层为功能输出层,又称 层,它根据竞争层获胜单元的输出,
产生一输出模式,采用有导师学习策略(如 学习规则, 学习算法)修正权
值,以获得期望输出。之所以这种网络叫反传网络,是当它用作联想记忆时由网络的
组织得来的。如图 所示,假设输入模式由向量 和向量 组成 ,即 (
;期望输出模式仍为
( ;网络实际输出模式为( )
;当 用 作 联 想 记 忆 时,

如给定输入为( ),则网络能回忆出
( ;相反,若给定输入为 ( ,则 ,

能回忆出(

图 结构
图 所示为一个 对于给定的输入模式的一次训练。给定输入模式,竞争
层单元竞争响应,只有一个单元获胜,输出状态为 ,其余为 ,如 图
;竞争获胜单元激活输出层产生一个输出模式,如图 。竞争层、输出层
的权值采用不同学习策略调节。
图 的训练
) 给定 输 入 模式 ; 竞争获胜单元; 输出模式。

竞争学习机理

基本原理
在基本的竞争学习网络中, 每个竞争单元和输入层单元都有一个连接权,其取值
在 与 之间。为了简化网络, 假设任意一个给定竞争单元的权值和总是为 ,即

网络学习时,初始权值一般满足 式的一组小的随机 输入模式是二进


制的 向量。图 表示了竞争层的一个处理单元。
竞争单元的处理分为两步,首先计算每个单元输入的加权和, 然后进行竞争中、产
生输出。对于第 个竞争单元,其输出总和为

当竞争层所有单元的输入总和计算完毕,便开始竞争。根据“胜者为王, 败者为
寇”的道理,竞争层中具有最高输入总和的单元被确定为胜者,其输出状态为 ,其 他
各单元状态为 ,即

其他条件下
式中, 表示竞争层第 个单元输出状态。特别地,当 时 ,
通 常取 位于
左边的处理单元状态为
对于某一输入模式,当竞争胜者单元被确定后,更新权值,也只有获胜单元的权
值被增加一个量,使得再次遇到该输入模式时,该单元有更大的输入总和。权值更新
规则表示为

式中, 表示学习因子, ,反映权值更新速率,一般取值为 表示


输入层状态为 的单元个数;各单元初始权值选其和为 的一组随机数。

图 竞争层处理单元 图 竞争学习中修正权值

竞争学习的基本思想:竞争获胜单元的权值修正;当获胜单元的输入状态为 ,相
应权值增加;当相连输入单元状态为 ,相应权值减少。学习过程中,权值越来越接近
于相应的输入状态,这个变化可由图 所示例子学习来反映 图 中 第 一、第 五、第
六个输入单元权值不断增大,其他权值不断减少。如果相同的输入模式立刻再次送给
网络,那么上一次权值修正的结果将使获胜单元输入总和稍微变大。另外,类似于当
前输入的输入模式,也将使相应获胜单元产生较大的输入总和。因此,当用相同或类
似模式重复学习时,原已获胜单元有可能再次获胜。
按照权值修正算式( 式,获胜单元的一些权值减小一个量,另一些则增大
一个量,其结果获胜单元的权值之和仍然满足为 的约束。因为将 式权值修
正量对所有输入求和,结果为 。

学习
自组织映射网络的竞争学习过程包括三个关键点,第一,对于给定输入模式,确
定竞争层获胜单元;第二,按照学习规则修正获胜单元及其邻域单元的连接权值;第
三,逐渐减少邻域及学习过程中权值的变化量。假设竞争层获胜单元的邻域单元统一
记为 分别表示竞争获胜单元的输入及连接权,那么竞

争获胜单元及其邻域单元权值更新规则可表达为

式 中, 分别表示获胜单元及其邻域单元的权值学习因子,取值在( 区间且

特别要强调的是,在学习过程中,权值学习因子 及邻域 的大小是逐渐减小


的。
学习因子 的初值一般取得比较大,随着学习过程的迭代 值逐渐减少,常用的
一个调度策略表达式为

式 中 , 表示 初始值,
通常在 之间取值, 表示迭代 次数; 表示整个迭代
设定次数。
邻域的宽度也是随着学习过程的迭代而减少,因此,由竞争获胜单元到邻域单元的
距离 相应减少。假设 的初值记为 ,一般取值为 或 竞争层宽度, 的减小
策略可表达为

自组织映射网络的学习使竞争获胜单元的邻域单元受到激励,邻域之外较远的单元受
到抑制。

举 例

给定一个竞争网络,如图 ,
要求通过训练将输入模式集划分为两大类。

设输入模式记为

竞争网络是如何将输入模式分成不同类呢?我们先分析一下训练集内四个模式的
相似性。观察每两个模式之间的海明距离 两个二进制输入模式不同状态的个数,得
到以下关系矩阵
所谓两个模式彼此相似,是指海明距离小于某个常量。这里,模式 彼此相 ,

似, 彼此相似;前两个模式
, 与后两个模式
, 的海明距离较大。因

此,输入模式自然分成两类。该网络训练完后得到如下两类

每一类包含两个输入模式,同一类模式海明距离为 ,
不同类模式的海明距离为 或
网络的分类原则来源于输入模式的固有特征。用不同的初始权值反复进行训练,网络
便能自组织学习,完成正确的模式分组。

图 一个简单的竞争分类例子

图 表示训练完成后的权向量及训练集内输入模式的空间分布。所有 输
入二进制向量位于三维立方体的各顶点 ,竞争层单元 的权向量最接近于 类的两个
模式;竞争单元 的权向量最接近于 类的两个模式。若输入模式为 类模式,则单
元 竞争获胜;同样,当输入为 类的两个模式时,单元 竞争获胜。图中,权向量
相对比较短,这是由单元权值之和必须为 约束的结果。

竞争学习网络特征

竞争学习网络的主要特征表现在竞争层,它采用无导师学习策略,每个竞争单元
都相当于一个特征分类器。模式分类是这种网络的重要功能。
在竞争学习方案中,网络通过极小化簇内模式距离及极大化不同簇间的距离实现
模式分类。注意,这里所说模式距离是指海明距离,如模式 与 的海明距离为
。通常,竞争学习网络的分簇响应结果与初始权值的设置以及输入模式的组织有一定
的关系。可以设想,用一组输入模式来训练网络,网络将输入模式按其海明距离自然
分成三类,如图 所示,假如竞争层的初始权值都是相同的,那么竞争分簇的结
果是:首先训练的模式属于类 ,
由竞争单元 表示;随后训练的模式如果不属于类
它就使竞争单元 表示类 ;当然,剩下的不属于前两类的模式使单元 获 胜,
为类 。

假如不改变初始权值分布,只改变模式训练的次序;或者不改变上述训练次序,只改
变初始权值分布,这两种情况都可能使竞争层单元对分簇响应不一样。对第一种情况,
竞争单元 获胜,表示类 ;此时竞争单元 获胜,可能代表的是类 或类 。有时,
如果输入模式组织的不好,那么分类学习可能不稳定。会出现对同一输入模式,先由
某一单元响应,以后又由另一单元响应,训练过程中就这样跳来跳去。因此,在竞争
学习网络训练时要注意这一关系。
竞争学习网络所实现的模式分类情况
与典型的 网络分类有所不同。 网络
分类 学习 必须 知道 要将给 定模 式分 成几
类;而竞争网络能将给定的模式分成几类
预先是不知道的,只有在学习以后才能知
道,这种分类能力在许多场合是很有用的。
从模式映射能力来看,
像 这样的竞争
网络,由于其竞争层仅有一个输出为 的
获胜单元,所以不能得到某些映射所要求
图 竞争学习聚类分析 的复杂内部表示; 网络能够在最小均方
意义上实现输入一输出映射的最优逼近。
竞争学习网络存在一些性能局限。首先,只用部分输入模式训练网络,当用一个
明显不同的新的输入模式进行分类时,网络的分类能力可能降低。这是因为竞争学习
采用非推理方式调节权值。另外,竞争学习对模式变换不冗余,其分类不是大小和旋
转不变的,因为竞争学习网络没有从结构上支持大小和旋转不变的模式分
第四章 神经网络
世纪 年代以来,神经网络研究进展非常迅速。 年美国加州理工学院生
物物理学家 的研究工作被称为是突破性的。他提出离散的神经网络模
型,引入计算能量函数概念,给出了网络稳定判据,从而有力地推动了神经计算的研
究,标志神经计算研究高潮的又一次到来。 又提出了连续神经网

络模型,其中神经元动态方程可以用运算放大器来实现,因此神经网络可以用电子线
路来仿真。它与 有直接对应关系,为神经计算机的研制奠定了基础。同时它还可
用于联想记忆和优化计算,开拓了神经网络的新途径。次年,美国加州理工学院和贝
尔实验室合作制成 个神经元和 个可编程的人工神经元网络。前者由 个晶
体管和 万个电阻集成在 平方英寸的芯片上。
由于神经网络能量函数的极小点对应于系统的稳定平衡点,这样能量函数极小点
的求解就是求解系统的稳定平衡点。随着迭代次数的增加,网络的运动轨迹在相应的
状态空间中总是朝着计算能量函数减小的方向运动,最终到达系统的平衡点 能量
函数的极小点。优化计算就是从一个最初的初点找到目标函数的极小点,这一最初猜
点就相当于神经网络动力系统的初始条件,随着系统运动到达某一极小点。本书利用
网络进行优化计算,本章讨论 网络模型。
在 网络中,每一个神经元都和其他的神经元全互连。研究表明,当神经
网络的连接权矩阵自连接以及具有对称性质即

, ,

时,算法肯定是收敛的。
最初的 网络是离散型的或二值型的,以后又出现连续型。

离散型 网络

离散 网络是一离散时间系统,它可以由一加权无向图表示,图的每一边
都附有权值,图的每个节点都附有一阈值。有 个神经元的离散型 网络中,
任一神经元 的工作原理如图 所 示。
对于神经元 而言, , 为 神经元的输入,它们对神经元 的影响通
过连接权 , 来表示, 为神经元 的阈值, 为其输出,则有
这里

由式 和 式可以看出,该
网络是一个多输入、多输出、带阈值的二值非线
性动力系统。在网络的连接权值和阈值满足一定
图 离散型 网络中神经 的条件下,某种能量函数在网络运行过程中是不
元工作原理图 断地下降,最后趋于稳定平衡点。我们可以利用
这种能量函数作为网络计算求解的工具,常称该函数为计算能量函数

定义离散 网络能量函数为

在迭代运算过程中,能量函数的变化量

显然,当满足

说明式( 所决定的能量变化量总是负的,即计算能量总是不断地随神经元 的
状态变化而下降。其他神经元的状态变化与此类似。

联 想 记 忆

基本原理

联想记忆功能是 的一个重要应用特征。要实现联想记忆,神经网络必须具
备两个基本条件,①能够收敛于稳定状态,利用稳态记忆样本信息; 具有回忆能力,
能够从某一局部输入信息回忆起与其相关的其他记忆,或者由某一残缺的信息回忆起
比较完整的记忆。 模型作为一个反馈型神经网络,其稳定性和可学习性为实现
联想记忆奠定了基础。
实现联想记忆分为两个阶段,即学习记忆阶段和联想回忆阶段。学习记忆
阶段实质上是设计能量井的分布,对于要记忆的样本信息,通过一定的学习规则训练
网络,确定一组合适的权值和阈值,使网络具有期望的稳态,不同稳态对应于不同的
记忆样本。联想回忆阶段是当给定网络某一输入模式的情况下,网络能够通过自身的
动力学状态演化过程达到与其在海明距离意义上最近的稳态,从而实现自联想或异联
想回忆。如果回忆出的结果为所要寻找的记忆,那么称为正确的回忆;否则称之为错
误回忆。当然,如果所要寻找的记忆根本就没存储过,则回忆结果一定是不正确的,此
时是不能回忆的。

举 例

图 所示例子说明了 实现联想记忆的一个基本方案。假设记忆的每个
样本信息是人的姓名和职称,可以用一个个“ ”
“、 一 ”符 号 向 量 表 示 ,其 中“ + ”对
应于状态为 “ 一 ”对 应 于 每个记忆向量对应于一个能量井稳态,图 给
出了一个用 记忆的三个样本信息。当我们要知道李华的职称时,可以
节点
将向量“ 一 + + 一”送给网络输入,则网络
能够收敛于稳态,如图 )所示,联想出一个完整的记忆“李华是教授”。当输
入模式向量受噪声干扰为不完善模式,给人的感觉要猜一猜,此时,网络仍能收敛于
相近的稳态,给出正确的记忆信息,如图 示。

图 联想记忆举例

记忆的局限

用于联想记忆有两个突出特点,即记忆是分布式的,联想是动态的,这与
人脑的联想记忆实现机理相类似。利用网络能量井来存储记忆样本,按照反馈动力学
活动规律唤起记忆,显示了 联想记忆实现方法的重要价值。然而, 的局
限性限制了它的广泛实用,主要表现在:第一,记忆容量的限制;第二,假能量井的
存在,导致回忆出莫名其妙的记忆;第三,当记忆样本较为接近(指海明距离)时,网
络不能始终回忆出正确的记忆;第四,能量局部极小问题。
的有效记忆容量是非常有限的。对于一个 节点的 ,所能存储 的总
记忆样本数约为 个。这个结论是 用计算机仿真实验确定的,实验中存
储的记忆模式随机产生。当存储的记忆样本数越多,回忆期间出错的结果也就越多;当
记忆样本数低于 时,错误的回忆就很小。 的记忆容量还与记忆样本的选
择有关。如果记忆样本是正交向量而不是随机产生的向量,那么网络就能存储更多的
有效记忆。
当记忆样本较多时,如果学习参数选择不当,就可能出现假能量井。例如一组记
忆样本为
记忆 :王海 会下围棋
记忆 :鸟 一 一

会飞
记忆 :王海 会开车
一般情况下,这三个记忆都可以按编码正确回忆;但是,“会下围棋”、“会飞”的
编码是相关的,因此,有可能对王海这个人有什么特长回忆出的结果为“王海会飞”,
这是由假能量井造成的。
能量局部极小问题的存在优化问题求解中是不利
的 往往使问题的求解不令人满意 。如图 所示
为一个 二维能量状态分布,网络状态变化类似于小球
在山地中的滚动。其中, 点 、 点为两个能量局部极
小点, 点为能量全局最小点。假设优化问题的解对应
图 能量井分布 于能量最小点 ,
而从任意初始状态出发,
网络可能停
留在 点或 点,所得的解不满足期望要求,
也无能为力使逃离 点或 点、进入 点。细心的读者或许会直觉地想到,如果将位
于 点的小球摇动一下,不就可以使其滚向更低的山谷 点了吗?这种想法确实是可
取的。下一章我们将介绍采用模拟退火技术解决能量局部极小的波尔茨曼机、高斯机
等方案。

连续型 网络

离散 网络中的神经元与实际神经元,甚至与简单的电路元件相比差异很
大。这主要表现在:
实际生物神经元的 关系是连续的;
实际生物神经元由于存在时延,因而其动力学方程须由非线性微分方程来描
述。为此, 年 提出了连续时间 网络模型。该网络在时间上是连
续的,各种神经元处于同步工作方式。
设 表示神经元 的内部膜电位状态, 表示它的输出, 表示细胞膜输入电容,
表示细胞膜的传递电阻,则可以写出 的变化方程为

式中, 表示由系统外部的输入,它相当于系统的一个偏置。
令 仍继用原符号,可将式 改写下列形式

式 表示的是神经元 的输出和内部膜电位间的关系, )
为连续可微的
函 数 ,图 表示用运算放大器构造的模拟式 神经元模型和
网络,图 )采用对称的全连接方法构成。
类似于离散型 网络,我们也可为连续 网络建立一个李雅普诺夫
函数( )形式的计算能量函数。

图 连续型 网络

显然

从而有
当 )为 函数时,其逆函数 )为非减函数,即

从而式 恒有

即当 时,网络达到稳态。网络的稳态平衡点对应于其计算能量函数的极小点,因
而它可广泛用于神经优化和联想记忆问题。

转换网络

网络的渐近稳定状态对应于能量函数的极小点,这是神经网络优化计
算的基础。 运用 成功地实现了一个 位 转换器,本节介绍其实现
原理。
转换器的实质是对于给定的一个模拟量输入,寻找一个二进制数字量输出
值,使输出值与输入的模拟量之差为最小。一个 位 转换器可以用一个 节点的
实现。
假设神经元的输出电压 可在 和 之间连续变化; 表示要
转换的模拟输入量。当网络达到稳态或渐近稳态时,各节点输出为 或 ,若输出状态
表示的二进制数值与模拟量 值相等,则表明转换器网络运行正确。输入与输出之间
的关系可表达为

可见,要使 转换结果 为输入 的最佳数字表示,必须满足下面两个准


则:
每个输出位 具有 值或 值,至少比较接近这两个值;
值应尽量接近于 值。
利用最小方差概念,输出 按下列指标衡量

当括号中差的绝对值为最小时,指标 最小。将上式展开、组合,得

如果使用 式定义的指标作为能量函数,并不能保证 的值充分接近逻辑值


或 。因为该式所表示的能量函数中权矩阵对角元素为负的,不能保证网络最终一定收
敛到稳定状态,使输出表示一个有效的数字。为了解决这个问题,可在 式中
增加一个附加项,其形式为

当 或 时,这个附加项都取得最小值 ; 因而 在 与 之间变化时,
该项使式 权矩阵对角元素均为零。因此,整个能量函数应为 式与
式之和,这样才能满足 转换的两个准则。
位 转换器网络的能量函数可表示为

对比 能量函数 式与 式,可知网络连接权和输入偏置

由此可得如图 所示 位 转换网络,
图中标出了反相运放输出与其他运放单元的输
入连接权值;最上面一排连接将外部恒定输入
电压变为不同的偏置基电流,第二排将模拟输
入电压 变为不同的输入电流,加到放大器输
入端。
对于模拟量 ,
网络按照一定的状态
变化轨迹,均能给出正确的数字量转换结果。这
里,值得强调的是,第一, 网络用于
位 转换器的快速性依赖于硬件器件的强
冗余性;第二,用 网络实现 位 图 位 转换网络
转换时,数字解的正确性与网络的初始条件有
关,这些初始条件由放大器初始时刻的输入电压确定;第三,用 网络实现更
高位 转换器是存在问题的,为此,人们已经提出并实现了新的网络方案。

网络用于求解组合优化问题

一般情况下,实际组合优化问题要求求解问题的速度越快越好,高速数字计算机
的出现,曾促使人们提出了许多数值计算方法,同时也革新了应用数学和解决了优化
计算中的许多问题。然而由于数字计算机的串行工作特性,大大限制了其计算速度和
能力的进一步提高。
网络的提出开辟了优化计算的新途径,它已在组合优化、线性与非线性优
化,图像处理与信号处理等问题的求解中表现出高度的并行集体计算的能力。神经网
络计算从本质上跳出了传统优化计算和数值迭代搜索算法的基本思想,它将组合优化
的解映射为非线性动力学系统的平衡态,而把优化准则和目标映射成动力系统的能量
函数。正是由于它的并行分布式计算结构和非线性动力学演化机制,为优化算法的快
速实现提供了新的途径。
在用神经网络模型求解中,优化计算的基本步骤如下:
对于所研究的组合优化问题,选择一合适的表示方法,使神经元的输出与问题
的解彼此对应;
根据问题的性质设计一个能量函数的表达式,从而使其全局极值对应于问题
的最优解;
由计算能量函数求得其对应的连接权值和偏置参数;
构造出与其对应的神经网络和电路方程;
进行计算机仿真求解。
以上各步骤中,能量函数的建立是关键的一步,一般计算能量函数由两部分组成:
目标项和条件约束项。目标项随组合优化问题而定;条件约束项有时不止一项,我们
知道,约束条件满足的解为合法解,但在一般优化问题中,对约束条件要求很强,必
须满足所有条件,有时各条件之间会发生冲突,所以在建立能量函数时尽量不要冲突,
同时使它们的变量尽可能不相关,且计算能量函数中惩罚项的系数足够大,使任何非
法解相对于合法解在惩罚函数上的增加足以补偿它在基本能量函数上的减少。
本书后续各章详细叙述能量函数的建立及组合优化问题的求解。
第五章  随机神经网络优化理论
本章讨论随机神经网络优化方法。首先介绍退火模拟优化模型,讨论该模型的基
本思想、算法特点,重点讨论退火模型的连续情况,对于离散模型可参阅有关文献。退
火模拟(或模拟退火)模型具有全局收敛特性,它的高优化程度是以大量的运算时间
为代价的。为了改善其慢的运算速度并使其具有更好的全局优化特性, 提出了一种
快速退火模拟模型 ,
得到 了 神经网络模型,但这一模型限于离散
系统。本章介绍的随机神经网络优化模型 是结合神经网络与 特性的连续
模型,具有较高的优化程度,而且运算速度又比利用一般的退火模拟特性的随机神经
网络机和 机要快。

退火模拟优化模型

在物理学中,寻找物质(如晶体)低能态的一个较好的方法是首先将该物质系统
加热到高温融化状态,然后慢慢冷却,并使系统在冷却过程中的每一温度都达到热平
衡状态,最终达到系统内能的最小值状态,而不是在某一局部极小值点出现阻塞,这
一过程称为退火( )过程。模拟这一过程的优化模型称为退火模拟模型。该
模型把优化过程与退火过程对应起来,建立起优化目标函数与系统内能、变量与分子
结构的对应关系,它与局部优化下降型算法最显著的区别是它能按一定概率接受使目
标函数值增加的状态变化,因而它的动态特性能够使状态变量逃离局部优化点而最终
达到全局最优点。这一状态变化的接受规则称为 准 则:
如果 ,
接受新状态;
如果 ,
按概率 )
接受新状态。
其中 为一随时间 增加 而下降 的参
变量,它相当于退火过程中的温度。
由于退火模拟模型起源于对物理系统的模拟 ,因此系统的内在规律从本质上反应
出模型的特性 。由统计热力学的研究成果知道,系统的退火曲线 (在固定温度平均能
量随温度的变化规律)如图 所示。从该图中可以看出,系统具有最小能量 和
最高能量 ,随着温度减小,系统从高能区向中能区过渡,从曲线中反应出某一温度
,曲线有较大的弯曲度;随着温度继续降低,在某一温度 后,系统在温度
的平均能量 变 化 不大,
而且 反应系统特性的另一重要曲线如图
所示,它给出了系统状态对能量 的分布情况,这一状态密度 )
的曲线包含
了与系统在所有温度下的平衡特性相关的信息。从图中看出,能量为某一值 的状态
最多,而高能态和低能态的数量很少。把系统的能量换成优化目标函数,从这两个图
中也可以看出退火模拟优化模型的特性。

图 退火曲线 图 状态密度曲线

退火模拟算法如图 所示。算法的主体部分包含两重循环,其内环是对每一
温度时的热平衡过程的模拟,外环是对温度下降过程(即冷却过程)的模拟。

图 退火模拟算法
下面讨论连续形式的退火模拟模型。由于在这类模型的研究中, 方程起
着重要的作用,因此有的文献又把这类模型称为
为寻找函数 的局部极小值点,可解微分方程

沿着该方程的轨道 ,相当于一下降型算法,收敛于一局部极小值点。为利用
求出 )的全局最优点,则必须使方程的轨迹能够到达局部极小值点后仍能
继续前进,即迫使其具有逃离局部优化点的能力,为此在 )轨道中加入一个随机扰
动,从而得到随机微分方程

其中 )为 维标准 运动, 为一参数,它表示系统的温度,该方程称


为 方程。
从方程 看出,温度 控制着扰动的大小,在高温时动态系统具有大
的扰动,而在低温时,扰动较小。在每一温度 ,系统经过一定时间达到热平衡状态,
系统状态 趋近于平衡状态,它满足所谓的 分布,密度为

其中

当温度 ,分布集中于 )的全局最小点。但是,由于在每一温度 ,状


态分布趋近于平衡状态的 分布所需的时间随 成指数增长,因而在低温时要


达到平衡状态所需时间非常长 。基于此,引入一个随时间 下降的温度 →


希望在初期阶段,大的扰动使状态 )
迅速逃离局部极小值点,
而在后期
较大时)系统的特性接近于下降算法(负梯度项起主导作用),找出全局最优解。下
面仅介绍 等人所得的结论。
给定 为单位超立方;给定退火
方案 ,
定义扩散过程

式中 )是 维标准 运动, )
限于 内,
它在 的边界上发生反射。假定
满足条件: )存 在 在包含 的一个开集上的延拓,且是二次连续可微的,它在
的非顶点边界上的梯度向量具有零法向量;假定极限分布 存在,即( )存 在
使得当 时 (弱收敛) 。 →

[定理 假设( ) 和 ( )成立,并给定 足够大) ,



现在,我们对该定理进行一些解释和说明,其证明略。由条件( ) 和
可见, 假设 )存在唯一的全局最优点 ,那么由于 集
中于 )的全局最小点,由 知道对任意 的极限分布都是
因此动态特性式 收敛于 )的全局最小值 ,即
) ,

这说明模型具有全局收敛性。
让我们回到离散模型,介绍一种所谓的快速退火模型 。这一模型从形式上与
退火模拟模型并无多大的区别,它最重要的变动是退火方案为

因此它具有通常退火模拟模型的退火方案 所不能相比的更快的运
算 速 度 。为 支 持 ( 式的退火方案,可用 噪声产生新的搜索状态。有关
的一些表达方式在下一节回顾 时给出。

随机神经优化模型

随机神经优化模型是一种连续的、具有快速退火特性的随机神经网络模型 图
说明这一模型与其他模型的关系和相应的位置,其中用双框表示的两部分为本
节所要研究的内容。快速退火模拟连续模型是借助退火模拟连续型和快速退火模拟模
型的产物,把它与连续状态 神经网络动态特性结合起来,构成了随机神经优
化模型的基本支柱。
本节首先对 和 作一个简单回顾,然后给出并
讨论随机神经优化模型。

图 各种模型的联系

这里只从优化的角度讨论 和 ,
即只介绍它们
用作优化模型的情况。
对于神经元 ,
假设它的门限为 ,它与其他神经元的连接权重为
,那么它的输入 为
式中 为神经元 的输出变量,其值为 或
对于 ,神经元 的输出变量 由准则


按概率


按概率
确定,其中 )
表 示 温 度,
冷却方案为

为初始温度。
对于 神经元 的输出变量 由准则


按概率


按概率
确定,假定初始温度 ,
冷却方案为

这两种模型具有一些相似的特性。当温度很高时, 的取值几乎与 无关,极限


情况,若 ,
则有

当温度降低时, 随 的变化曲线逐渐陡峭,极限情况, ,
则有
,如 果
,如 果
图 是在不同温度下 随 的变化情况。

图 不同温度下的 曲 线 图 相同温度下两种模型的 曲线

这两种模型也具有不同的特性,图 是在同一温度下 (用
表示)和 (用 表示)的 )随 的变化情况,可以看出 更接
近于单位阶跃函数。由于冷却方案不同,当 增 加 时 ,
图 中的曲线接近单位阶跃
函数的速度对 来说要快得多。这些不同的特性反应出
具有比 更快的收敛速度,其本质上的原因是前者利用
而后者利用的是一般的

随机神经优化模型

随机神经优化模型是一种连续的神经全局优化模型,神经网络动态优化特性和快
速退火模拟全局优化特性是这一模型的基本支柱。为此,首先研究和发展快速退火模
拟的连续形式。
对于连续形式的退火模拟过程,扩散过程 )
定义为

式中 )是 维标准 运动,即它具有零均值单位方差的高斯( )分
布,是一个非平稳的高斯随机过程。式 所定义的扩散过程与系统在温度 时
的热扩散过程的区别是引入了人为的随时间 变化的温度参数 。为加快退火
模拟过程的速度,定义扩散过程 )为

式中随机过程 具有 维 分布

式中 ,参数 。在 式中,同样引入了人为冷却方案 )为

为初始温度, 。把这一冷却方案引入状态生成概率密度, 从而得到

从 式看出,当系统温度较高时,扩散过程相当于处于有色噪声中的最速下降
过程;随温度逐渐下降,噪声也逐渐减小;当 时, 式的最后一项消失,
扩散过程趋近于一个纯最速下降过程。
与连续形式的退火模型相似,可以证明由随机微分方程( 表征的连续形式
的快速退火模型具有避免局部优化阻塞的特点,而且具有更好的全局收敛特性。事实
上,与退火模型相比,式 的动态特性比式 具有更强的避免局部优
化阻塞的能力,这可由图 的一个一维全局优化问题给予说明。图中在一个局部
极小值点上同时画出了 分布律和 分布律,以表示它们离开这个点的
概率,从图中看出, 分布的拖尾不但达到邻近的局部极小值点,还到达更远的
极小值点,
这决定了 分布存在偶然的大跳跃,使其更能避免局部优化阻塞,同
时提高了运算速度。图 为动态方程式( 和式(  在 噪声
和 噪声下的随机游动( (细线表示具有 噪声的随机游
动),由于 噪声分布的长拖尾,使得随机路径偶尔存在大的跳跃。
将快速退火特性引入神经网络动态方程,得到随机神经优化模型的随机动态方程
一 )

图 利用退火模拟和快速退火模拟 图 二维情况, 分布的噪声使


避免局部优化阻塞的示意图 随机游动存在大的跳跃

式中 分别为神经元系统的输入、输 出; 为系统温度; 为
能量函数

为 维 噪声。为简化模型,认为每一神经元的动态特性中的随机 噪
声是互不相关的。那么( 所表征的系统可方便地写为

其中 )
为零中值的 随机噪声,其密度为

显然,当 。由此得出

即状态 ]
的接受概率为

当 )趋近于一单位阶跃函数,如图 所示。为使系统在低温时噪声影
响逐渐减小,
希望 时, ;但为保持系统在低温时的连续状态特性并且
具有避免局部优化阻塞的能力,应有

即 )为 比 更高阶的无穷小。为保持快速退火的特性, 和 )
可分别取为

从上面的讨论可以看出,随机神经优
化模型的随机动态方程 具有下
列 特 性:当 较小时,系统具有较高的温度
)和 (不妨把 )
称为系 统温度,

称 为噪 声 温 度,
并令 时,

这时噪声 )
对系统具有较大
的影响。由于 是零中值的 噪
声,因而它能保证大多数生成状态集中和
图 对于不同参数 的状态生成概 接近确定性轨道
率密度 和状态接受概率密度
同时 分布密度函数的长拖尾使得状态生成具有偶尔的大跳跃,因此具有避免
局部优化阻塞的特点。随着时间 增 加 , )和 )
逐渐减少,
噪声的幅度也逐渐减少
并且生成状态集中于确定性轨道( 的
概率也逐渐增大。极限情况,当
时,它相当
于确定性下降型算法,见图 所示。
随机神经优化模型具有很好的全局收敛
特性,它不仅能够避免局部优化阻塞,而且
以概率 收敛于全局最优解 ,
达到能
量函数 的全局最小值。 图 参数 和 随时间 的变化情况示意图
随机神经网络优化模型集神经网络高速
并行处理特性和快速退火模拟全局优化特性于一体,不论是从观念上还是从处理方式
上,都不同于以往的全局优化方法,它体现了优化方法的自然模拟与并行处理方式相
结合的新趋势。

应用神经优化方法解决 布局问题

首先概述集成电路布图设计自动化的过程和要解决的问题,然后研究怎样用神
经网络优化方法来解决布局问题,并给出实验结果。

概 述

布图设计要解决的问题是:通过对给定电路的元、器件描述或单元描述、电路的
逻辑描述或连接关系描述,电路的电性能参数描述及电路的引出接点描述等,确定电
路的设计要求,然后根据采用的集成电路工艺条件,将电路的描述自动地转变为集成
电路所需要的掩膜图集。也就是说,布图设计就
是根据电路和工艺的要求自动完成芯片上元、
器件或单元的安置,即功能块的布局,并实现
它们之间所需要的互连,即布线。
对于复杂的大规模或超大规模集成电路,
往往很难设想其最佳的布图设计结果。换句话
说,设计质量的精确评价往往是很难做到的。而
如何去获得一个满足全部设计目标的令人满意
的布图结果,则更是一个相当困难的问题。实
际上,对于 ,往往存在许多设计目
标,甚至有些目标之间还是相互矛盾的,为寻
求尽量满足各设计目标的最佳方案对应于一个
复杂的多目标优化问题。因此,在布图设计中,
一般是把整个设计过程处理成若干相对独立的
子过程的序列,使得整个设计要求将分步地得
到满足,而各子过程面临的问题将得到相对的
简化。图 为布图设计过程的示意图。需
要着重指出的是,布图问题本身是一个统一的 图 布图设计过程示意图
问题,各子过程之间存在着相互影响和制约,因
此在设计过程中既要考虑各子过程的特殊性, 又要用全面的、系统的观点注意它们之
间的关系。
集成电路布图设计问题,不论是从整体上看,还是从各子过程看,都是优化设计
问题。即寻找最佳的设计方案,得到最优的设计结果。实际上,优化设计已成为几乎
所有的现代工程设计所必须考虑的重要问题。由于集成电路设计的特点,它的优化处
理往往是非常复杂和困难的。这主要表现在两个方面:
集成电路的设计具有多个设计目标,甚至对于每一个子过程,往往也是如此,
并且有的设计目标还是相互矛盾的。 因此要找出尽量满足各个设计目标的布图结果是
非常困难的;
集成电路设计的各个子过程的优化设计数学模型一般说来都是 一完备问
题,因此随着集成规模的日益增大,特别是 的飞速发展,优化设计面临着这类问
题本质上存在的难以克服的困难。
由于集成电路优化设计的重要性以及所存在的困难,它吸引了许多对研究和发展
集成电路设计有兴趣的研究人员。近十年来,在这一领域的研究有了显著的进展,各
种优化模型和算法不断出现,设计结果的优化程度不断提高。特别是退火模拟优化算
法的出现和在集成电路布图设计中的成功应用,大大提高了设计的优化程度。虽然这
一算法存在运算速度较慢的缺点,但对于非实时的集成电路设计是适合的,并以其高
的优化程度成功地应用于从布局到详细布线的各个子过程中。尽管如此,人们仍希望
既保证优化程度又提高运算速度,以缩短设计周期。所以本节以此为目的,利用神经
优化特性来处理集成电路布局优化设计问题,同时也作为检验前述算法的工程设计实
例。

一维逻辑门布局问题

本节考虑解决一维逻辑门布局问题。该问题的示意图如图 所示,其设计目
标为:寻求门的排列结构,使门所必须的连接线总长最
短,同时使线轨数最少。图 为一可行解,门的排
列为 ,
线网 和 占据第一根线轨。 和
分别占据第二和第三根线轨,图中线轨数为 ,
连线总长

一般说来,若连线总长达到最小,则能满足线轨数
最少的要求,因此连线长最小化通常作为布局改善的主
要目标。定义门间连接矩阵 ,
其中 为 图 一维布局可行解
门数,
  为门 与 之间的连接数,当然 ,因
此最小化连接总长可简单地表示为

式中 为门 与门 之间的距离,在集成电路布图设计中,这一距离通常使用
距离。
为用神经网络解决这一优化问题,必须把问题的目标函数和限制条件映射为神经
网络的能量函数,然后构造网络,使其动态特性成为该能量函数。解决一维布局问题
所需要的神经元数量 ,这 里 为门数。设神经元( 的输出为 ,则若

表示门 位于位置 。虽然一个可行的表示应对应于:对任意 )中


只有一个为 ,
其余都为 ;同时对任意 )中只有一个为 , ,其
余都为 。前者表示每一个门只能占据一个位置,后者表示每一个位置只能放置一个
门。将这些限制和目标函数映射为能量函数
式中最后一项中 为门 与 的连接数, 为门 与 的 距
离, 为待定参数。从该能量函数得到神经网络的动态方程为

下面为一个 个门的布局实例,其连接矩阵 为

在实验中,神经模块的参数选取分别为 ,函 数 取为
取为
选用动态全局优化算法 解决此问 题,
采用恒定步长为 ,初 始
解的选取可随机产生门的排序而得到,实验
中方便地取为 ,并 采
取了两门固定的原则,即固定 为最左门,
为最右门。对于该初始解,连线总长

线轨数 。从 开始,找出优
化解集为

图 一维布局例子的最优解

这三个解都具有相同的连线总长 和线轨数 。图
为 的布局结构。
连接矩阵 如下表示。
该全局优化方法也适合于解决高维优化问题,下面以一个 门的布局问题作为该
方法的应用实例。该例子电路为一个三比特的移位寄存器。连接矩阵 为 式
所示 ,对于该例子 ,存在 个 可 行解 ,若 固定 最 左 和最 右 门 ,仍 存 在
个可行解。选取神经模块的参数 ;选 取 全
局优化算法 的参数 。利 用 ,对两种情况进行了
实验,一种是左右边界不限制的情况, 另一种是指定左右边界门的情况。
对第一种情况,文献[ ]的结果是连线总长 ,线轨数
文献 的结果是连线总长 ,线 轨 数 (用退火模拟求出,

前所知的该问题的最佳结果)。利用本章算法,得到一个包含 个局部极小值点的优
化解集 ,其中最优解为
其连线总长 ,
线轨数 ,
即达到了文献 的优化程度,高于文献
的优化程度。在 中具有与此相同的连线总长和线轨数的解有 个,式 为
其中之一,其余的也可作为最优解。 的图形如图 ,本章的结果与其他文献的比
较见图 。

图 利用 得出的无指定边界的一维布局例子的最优解

图 利用 得出的指定边界为 和 的一维布局例子的最优解
对第二种情况,文献 指定 为最左单元, 为最右单元,其结果为连线总长

线轨数 (该文中在几种不同约束下的最优情况。文献 没有
给出定边界情况的解)。为与之一致,本文实验中也选取 和 分别为最左和最右门。
应用本章算法,得到了一个包含 个局部极小值点的优化解集 ,其中最优解为

图 情况 和情况 的结 果比较
其连线总长 ,
线轨数 ,
优于文献 的结果。 中与此连线总长
及线轨数相同的解共有 个,
最优解 的图形如图 所 示。
图 为结果 比较。
第六章  神经网络用于求解旅行商问题
本章在第四章对神经网络结构、性质讨论的基础上,利用神经网络的理论和方
法求解一个实际的组合优化问题:中国旅行商问题,给出了该问题的神经网络解法
及几个改进方法的结果,然后将该问题推广到多路旅行商问题,并进行了分析和研
究。

组合优化问题

组合优化问题分为连续变量的优化问题和离散变量的优化问题。对连续变量的优
化问题,一般表示为求一组实数或一个函数;离散变量的优化问题称其为组合优化问
题,该问题是从可行解集中求出最优解的问题。
旅行商问题 ,简 称 ,
亦 称 为 货 郎担 问 题 )
就是
典型的组合优化问题。它可以描述为:对于 个城市,它们之间的距离已知,有一旅
行商要从某一城市出发走遍所有的城市,且每一个城市只能经过一次,最后回到出发
城市,问如何选择路线可使他所走过的路程最短。该问题可表示为
设有 个城市
, )

给定 中任意两个城市间的距离

现在要找出一个城市的排列

使得闭合路径

为最小。
从表面上看, 很简单,其实则不然。对于 个城市的 ,存在可能的路径
数为( 条,当 较大时,其数量将是惊人的。计算每一条路径都需求出
个距离之和,这样各种路径及其距离之和的计算量将正比于 。表 给出了用
运算速度为 次的 计算机搜索 所需的时间。这里还未计算所需的
巨大存储空间。从而可见用搜索法要求解规模大的 是不现实的。
表 的计算量

虽然经过科学家几十年的努力,发展了像单纯形法、加权匹配、拟阵交、线性规
划等有效算法,但是对众多复杂问题仍然没有有效的算法。在 世纪 年代,人们
提出了如下“ 完 全性 ”的 概念:
①任何 完全性问题都不能用任何已知的多项式时间算法求解,即使时至今
日,这一情况仍然如此;
② 若 任何 一 个 完全性问题有多项式算法,则一切 问题都存在有多项式算
法。这一猜想还有待于进一步的证明。
自从出现 完全性这个提法之后,已经发现许多问题都是 完全性的。 是
几百个已知的 完全性问题中的一个,研究它的重要性在于所有的 完全问题在
数学上都等价于
研究 完全性问题的实际意义还在于:使人们知道它们是不可能用有效算法求
解的。如果要求解任一 完全性问题,任何算法在最坏情况下都具有指数复杂性,因
此难以付诸实际应用。
虽然已有许多启发式算法可以用于求解各类组合优化问题,得出的大都是“次最
优解”而不是“最优解”。当然这在数学上不尽人意,但在许多实际问题中已足够了,
因为最优在实际问题中就是一个相对的概念。本书第十章提出的满意解原理就是以此
为基础,说明了要得到一个满意解比较容易,而要求得最优解却要付出巨大的时间、精
力代价。对于 也有一些启发式算法,如贪心法、截面搜索、凸包分析、自适应方
法等。这些算法都有一定的效果,特别是对于平面上的 ,
可以利用其 位置信息,

角不等式或几何特性减少算法的复杂性,但对一般的 问题,只有距离信息而无位
置信息或不满足三角不等式的不可度量的大规模 ,还没有有效的算法。
年 和 用 网络求解
的 ,使用 个神经
元组成的网络在 个可能的解中排除
内找到一个有效解(在 个非最优解),
从而开创了神经网络用于优化计算的新途径。其基本思想是:将 映射到一神经网
络上,通过网络的动力学方程自动演化到网络的平衡态,自动搜索到局部最优解。

优化问题的提出

中国有 个省、直辖市和自治区,我们在其首府之间进行旅行,
就是在这 个城市的集合 北京、上海、哈尔滨、银
川、 、台 北 (暂不考虑重庆、香港和澳门)中找出一个最短的经过每个城市各一次
并回到起点的路径和距离。
对于 个城市,可能存在的路径有 条,利用搜索的办
法很难实现。利用神经网络的方法解决它比较方便和直观,而且在不同的情况下得到
不同的结果,可以不断优化。对于我国的民航、铁路、物资的调配及旅游事业具有一
定的促进意义,对于了解我国各省、市、自治区的地理分布具有一定的现实意义。

用 网络解

计算能量函数的建立

用神经网络方法解决 ,
要把问题映射到 网 络 上。
对于 个城市的
。任何一个城市在最终路径上的访问次序可用一个 维向量来表示,因而每一个
城市就需 个神经元表示。下面以 个城市为例,如果城市 是第 个被访问,则表
示为 ,即 第 个神经元输出为 ,
其余都为 。为了表示所有的城市,可简单地
用 矩阵表示,此矩阵如图 所示。其中 (对应各行)

示城市名称, (对 应各 列 )
表 示路 径顺 序。
若 要用 这样 的 矩阵描
述一个有效路径,必须保证该矩阵的每行每列只有一个 , 而其余元素为 ,这 样 的 矩
阵称为“换位矩阵”。

图 的换位矩阵
这样:路径为
距离为
根据下面四方面的要求:
①换位矩阵每行只能有一个“ ;

②换位矩阵每列只能有一个“ ;

③换位矩阵中元素 之和应为
④所构造函数的极小值对应于最短路径。
将每一有效路径用一换位矩阵表示,神经元的输出用 表示,下标 表示城市,
表示访问次序,为了求解 ,我们必须找到这样的网络,使它的计算能量的极小
点对应于最佳路径,即计算能量找到极小点状态必须构成换位矩阵,并使其路径最短。
所以相对应的计算能量函数目标项

惩罚项为

我们构造出与 相对应的计算能量函数为

式( 中 为拉格朗日常数,均为正数,其中的前三项与条件①、②、
的要求相对应,只有当上述三条件均满足时,前面这三项取最小值 。如不满足则不
为 ,因此这三项称为惩罚项。式( 中的第四项为目标项,它的最小值就对应
于最短路径长度。
式( 中 数值为 或为 ,
是由表征 的换位矩阵中 个
神经元的输出来表示的。

的算法

对 ,神经 元
( )的输入为 ,输 出 为 ,利 用 网络
的动态特性,可求出 的解,由于神经网络的计算机制是并行的,所以得到的算
法是一并行优化算法

在( )式中, 的意义和作用同( )式。


在 式中, 为初始值,其取法是,在它确定后,所有的路径是平等的,同时
为了使网络收敛于最小能量,则在 的基础上加一个干扰 ,则 ,
这样
可以按各个神经元的初始状态不同来选取路径。 的取值满足
如果 、 、 、 取值合适,则网络所有的稳态输出矢量都代表一有效路径,此
时的 值就是路径长度,且与 的极小值相对应。相应地,网络的连接权值矩阵 和
外加激励可描述为

在( 式 中 , 在前三项适于一般的 问题,而第四项适合于一般具体的特定

用神经网络方法求解各种组合优化问题的关键是把问题映射为一神经网络动力系
统 ,并写出相应的能量函数表达式和动力学方程,它们应满足问题的约束条件 ;研究
神经网络的动力学过程,以保证网络的稳态输出与能量函数的极小值和组合优化问题
的解相对应。在 求解中 ,解的质量与网络初值 、参数 、城市分布
特性、神经元非线性特性函数等的选取密切相关,不同的选取将导致完全不同的结果。
实际上由 式和 式描述的神经网络是一高维非线性动力系统,因而
其动力学复杂性是显然易见的,对此,还有大量的工作要去做,它的应用前景和存在
困难都给人们以极大的吸引力。
利用式 和( 求解 和 时按下列方程迭代

初始值为

为了防止系统不平衡,在每个神经元电压相同的基础上加入随机干扰, 和上面相
同 , 随机值 加在每个神经元上,即

算法智能化

我们在模拟过程中,为了加快收敛速度,在上面算法的基础上,采用下面几条准
则:
①设置阈值,若某一神经元的输出电压 时判定为 ,否则为“
②在求得 后,若换位矩阵中某行(某列)只有一个“ , 则 把“ 所在的列
(或行)的其他元素置为“
③当有两行 (或两列)或以上的元素相同且只有一个 “ 时,则把判断前 值
较大的行(或列)执行法则②。
④当有 行, 列满足换位矩阵的条件,则所需的最后一个“ 自动补
上。
⑤在迭代过程中,新能量值与上次求得的能量值相比较 ,若其绝对误差小于
而此时仍没有得到有效的路径,那么称这次迭代“冻结”了。

的计算结果

[定义 ]平均距离 :
由每个城市求与其他 个城市的平均距离,然后
加起来所得到的距离。即

对 ,

[定义 优化率 :计算所得最小值 与 之比所得的值。

将用人工的方法随机寻找的较短路径所得到的距离记为

我们用人工的方法随机寻找的较
(最)

的路径所得的距离记为

在计算机上,利用神经网络的方法所得
到的最短路径所对应的距离记为

在计算机上,利用神经网络的方法所得
到的最长路径对应的距离记为 图 变化拟合关系

用贪心法,解 所得的最短路径对应的距离记为
用贪心法,从不同的城市出发得到的距离的平均值记为

贪心法的优化率
分析研究参数
为 对计算结果的影响,我们利用变更其值的方
法进行模拟,具体情况如下。
参数
的选取
在保持其他参数不变的情况下,变更神经元输入 输出特性中的常数 ,以
为间隔在 范围内变化,模拟结果表明,当 时结果最好。对其解拟
合曲线变化情况如图 所示。

图 , 变化拟合关系
)参数 的选取
在 的 情 况 下,
在 范 围 内,
以 为间隔分别变更
结 果 表 明: 时
结果最好 ,对其解拟合曲线 、 、 的
变化 如图 所 示。
在 , , ,

时 ,模 拟 得到的最短路径的距
离为 ,具体路径如图
所示。
路径:北京→呼和浩特→银川 兰州→
西宁→乌鲁木齐→拉萨→成都→昆明→贵阳
→南宁→海口 广州→长沙 武汉→南昌→
福州→台北→杭州→上海→南京→合肥 郑
图 用 神经网络 州→西安→太原→石家庄→济南→天津→沈
求得的 最短路径 阳→长春→哈尔滨→北京
的改进算法

为了进一步求 的较短距离,我们在进行迭代运算时提出如下系数自适应
算法。
定义能量函数如下

则新的算法为

同理: ,在每个神经元的初始状态上加入噪音 ,
其中

求解 和 的迭代公式为

和 为迭代次数, 选取
利用以上算法得到的最短路径长度 ,这是目前已知所得到的中国
旅行商问题的最短距离。路径和能量函数的变化如图 和图 所 示。

对 :优化率
路 径:
北京 呼和浩特→太原→石家庄→郑州~西安→银川→兰州→西宁→乌鲁
木齐 拉萨→成都→昆明→贵阳→南宁→海口→广州 长沙→武汉 南昌→福州 台
北→杭州→上海→南京 合肥 济南→天津→沈阳→长春→哈尔滨→北京
由计算机模拟结果可以看出:所提出的算法能使 得到有效的解, 能自动
适应神经网络能量函数各项的变化,该算法可以推广到具有实时决策性质的组合优化
问题。
图 的最短路径 图 能量函数的变化

神经网络方法用于求解

是著名的 扩展,
即多路 。
它同样也属于组合优化问题,
具有很广
泛的应用。本节在前述 的基础上,以中国 个 省、
市、自 治 区 为 例,
用神经网络
的方法进行分析和计算模拟,说明神经网络用于求解组合优化问题的有效性。
是指 个推销员从同一城市(或不同的城市)出发,分别走一条旅行路线,
使得每个城市有且仅有一个推销员走过 (出发城市除外) ,且总旅程最短。 例如:铁路的
煤炭 运输 问题: 个煤矿给 个城 市
(或 工厂 )
供应 煤,
如 何安 排使总 代价 最小;
管道
(如煤 气管 道、
自 来水管 道等 )
的铺 设;
路 线的选 择;
问 题的安 排,
计 算机 网络 的拓 扑设
计;
通信网络;
经济管理;
邮递员送信;
风景点的游览;
火炬接力传递等。
通过抽象均可以
转化为 。因 此 ,对 的研究,找到一个优化的解决方法,对科学技术及工程
技术各方面具有很大的意义。
在运筹学中, 被认为是一个标准问题,
而 还没有引起人们的足够注意,
这两个问题均属 完全问题,用一般方法很难得到满意解。近年来,通过对神经网络的
研究,
发现 网络可以解决象 这样的一大批组合优化问题。本章利用
网络求解 ,
给出了几种不同类型的 的解决方法和计算机模拟结果。

转化为 的神经网络解法

问题的提出及表示

从同一城市出发的 是指给 个城市的集合, 个推销员从同一城市出发,


分别走一条旅行路线,使得每个城市有且仅有一个推销员走过,最后回到原来的出发城
市,且总旅程最短。
如果 ,该问题转化为从一个固定城
市出发的 。
为 了 说 明 这 个 问 题,


具体设城市的集合为
为出发城市,如图 所示。
现把 个虚拟城市记为 ,

, 加到 的相同位置上,考虑一个
虚拟的推销员环绕 个城市,具有
下面的要求:
要从起始城市( 出发,
访问每个城市
图 的一条有效路径
(包括虚拟城市)后返回固定城市(
是一个有效的路径具有公共城市的 个子路径。
当一个虚拟城市出现在路径中时,说明推销员返回到起始城市,这是由于起始城
市与虚拟城市是重合的, 个闭合路径,每一个闭合路径可以认为是 中 个推
销员之一所走的路径,一条有效的路径要求每个推销员至少访问一个城市。由图
可以看出:
)序 列 和 表示同一有效路径。通常
对 ,有( !条退化路径;
由于虚拟的城市与起始城市重合,则退化路径的距离均为唯一的,对应于
的距离相同,为了确切描述 问题,现建立一个大小为(
的城市换位矩阵 ,见表 。从 表 中可以看出具有如下特点:
①在 换位 矩阵 的 ( 处必须为 ,以便保证虚拟的旅行商从起点出发和最后
返回到 处;
应 为零,
即 与 两个虚
拟城市之间至少有一个城市,每个旅行商至少访问一个城市;
③ 关 于 虚拟 城 市 和 ,以 免 和 连在一起,在设置距离时,设 和 之间
的距离为最大,且最后的( 个行含有( 个“
表 城 市 位 置 图
续上表

注: 代表城市; 表示在路径中的顺序; )空格处全为零。

能量函数的建立

由于用
( 的换位矩阵表示 的城市位置,则必须用
个神经元建立一个 网络模型。神经元的输出状态 与城市位置
(换位矩阵)中的元素 相对应。下标 代表城市, 表示在路径中的顺序。建
立一个能量函数 ,其最小值与 的最佳路径相对应,设 ,则

为正数,当且仅当换位矩阵中每行中只有一个“ 时 , 项为零;
当换位矩阵中每列只有一个“ 时, 项为零;当换位矩阵中所有元素“ 之和为
时 , 项为零; 项说明一个可行的路径在最后附加的( 个行中含有(
个“ ,表明旅行商出发和返回均是城市 ,这项在迭代运算中是非常有用的。约束条
件还有

第二个要求是路径最短,则在能量函数中须加入长度信息,即

下标是以( 为模, 为正数, 为城市 间的距离。


综合 )和 )式即为 的能量函数,能量函数为

式在软件编程时,对网络的能量函数加以约束。
神经网络技术及应用

的迭代公式及模拟结果

由上述所建的能量函数和动力学知识,神经元( , 的动力学方程为

在 式中, 的作用同 )式。在


( )式
中, 为初始值,其取法是在它确定后,所有的路径是平等的, 同时为使网络收敛于最
小能量,则在 的基础上加一个干扰 ,则 ,这样可以使各个神经元的
初始状态不同来选取路径。 的选取应满足

利用 和 式求解 和 时按下列方程迭代

初始值为
为了防止系统不平衡,在每个神经元初始状态相同的基础上加入随机干扰,和上
面相同,随机值 加到每个神经元上,即

现以中国地图为例,即中国有 个 省、
直 辖 市 和 自 治 区,
让 个旅行商从首都北
京出发,在这 个省、直辖市和自治区的首府的集合中找一个最短的经过每个城市各
一次(除北京外),最终 个人都回到北京的距离和路径,其结果见图 和图

图 能量函数变化趋势 图 一条 有效路径示意图
若 ,则 构 成 ,该问题在前面作了详细的讨论。下面以
进行模拟的情况,在计算机模拟时, 取
时所得的距离较小,即能量函数较小。能量函数的变化趋势如图
所示。
同时得到的路径如图 所示。路径长度为 。在计算机模拟过程中发
现 参数中,哪一个取值大,则在能量函数中所对应的项优先满足,即
对应的换位矩阵条件也优先满足。
对于 的问题,用贪心法所作的结果为 ,比用神经网络的
方法所得到的距离要长,且每个旅行商所走的路线不均匀。

能量函数的建立及神经网络求解

从同一城市出发的

问 题 一:
给定 个城市集合, 个推销员从同一城市出发,分别走一条旅行路线,
使得每个城市有且仅有一个推销员走过,最
后回到原来的出发城市,且总旅程最短。
设 ,具体 设城市的 集合为
为出发城市,
显然对于图 所示的这一有效路径,可
以用表 所示的换位矩阵来表示。
在表 中, 代 表 城 市; 代表访问
次序 ;空格处全为 。

这时路径为:

图 的一条有效路径
距离为:

表 换位矩阵
把表 中的每个元素 用神经元的输出 来表示,该表示方式所对应
的 网络的神经元数目为 个。根据下面的五个要
求 ,即
换位矩阵中的第一行为 个“ ;

)从第二行开始 ,换位矩阵的每行只能有一个 “
)换位矩阵的每列只能有一个“ ”

)换位矩阵中的“ ”个数之和应为(
所构造的函数的极小值对应于最短路径。
则与问题一相对应的计算能量函数为

式中 为拉格朗日常数,均为正数, 表示推销商的数目, 为
城市的数目, 为城市 和 间的距离。 式中的前四项与条
件 的要求相对应,只有当上述四项条件均满足时, 式
中前四项最小值为 。如不满足则不为 ,因此这四项称为惩罚项。第五项为目标项,
它的最小值就对应于最短路径长度。
从而有

)式中的系数及变量的含义与( )式相同。 ) 两式
为求解问题一的并行迭代公式。
问题二:给定 个城市的集合, 个推销员从同一城市出发,分别走一条旅行路
线,使得每个城市有且仅有一个推销员走过,最后不要求 个推销员回到原来的出发
城市,且总旅程最短。
仍设 为例说明该问题的表达,显然图 为问题二的一条有效路
径。
在图 中,可用表 的换位矩阵来表示它,此时路径为
, ,
距离为
用表 的矩阵表示一个解时,计算能量函数定义为

在 式 中 , 为推销员的个数, 为城市数目, 为城市 和


之间的距离。 均为正的常数。第一项至第四项是对矩阵的约束,第五项和
第六项为对距离的约束,保证距离最短。

图 的一条有效路径

由( )式的能量函数,可以导出并行运算的迭代公式

式中的系数及变量的含义与 式相同。

从不同城市出发的

问 题 三:
给定 个城市的集合, 个推销员从 个不同的城市出发,分别走一条
旅行路线,使得每个城市有且仅有一个推销员走过,最后回到原来的出发城市,且总
旅程最短。
设 ,具体城市的集合为
三个出发城市记为 。图 为一条有效路径,从图 可以看出,每
一个推销员走过一条 ,
问题三的 是 个 的合成,有关这部分内容,前
面章节已作了详细的论述,这里不再赘述。
问 题 四:
给定个城市的集合, 个推销员从 个不同的城市出发,分别走一条
旅行路线,使得每个城市有且仅有一个推销员走过,最后不要求回到原来的出发城市,
且总旅程最短。

图 从不同城市出发的
表 换位矩阵
仍设 的情况,
设城市的集合为
,推
销员从 三 个 需城 市 出
发。图 为一有效路径,表
为其换位矩阵 。表
中变 量及数 值的含义 与表
完全相同。
在图 中,路径为

图 一条有效路径
距 离 为:

则与问题四相对应的计算能量函数为

在 式中前三项是对换位矩阵的约束,第四项是对目标函数的约束。在第
四项中:前一部分为旅行所有城市的路径距离( 距离)
,第二部分为不需要走的距
离,两者之差为所要求的距离。 为正常数, 为城市 和 之距。
由( )式能量函数,可以导出并行运算的迭代公式为

式中的系数及变量的含义与 式相同。

的算法及智能化和计算结果

的计算方法

我们利用 的四个问题中的 表达 式和 的表达 式有效的解决包括有中


国 个直辖市、省会和自治区首府的多路旅行商问题。各表达式中 ,
我们设
,即 个旅行商在旅行 个省、市、自治区。在 的表达式中, 为初始值,其
取法是在它确定后,所有的路径是平等的,同时为了使网络收敛于最小能量,则在
的基础上加一个干扰 ,则 ,这样可以依各个神经元的初始状态不同来
选取路径。 的取值满足
求解 和 时按下列方程迭代

初始值为

为了防止系统不平衡,在各个神经元电压相同的基础上加入随机干扰,随机值为
加到每个神经元上,即

参数 的 选取:
在保 持 网络其他参数不变的情况下,变更神经元输入 输
出特性中的常数 ,以 为间隔在 范围内变化,取结果最佳者作为
最后的 。

参数 的选取,在 选定后保持不变的情况下,以 范
围 内 ,以 为间隔分别变更 ,选取结果最佳者作为最后的值。在 、

选取后,运行所得的结果为 的最短路径。
的智能化
我们在模拟过程中,为了加快收敛速度,在上述算法的基础上,采用下面几条准
则:
①设置阈值 ,若某一神经元的输出电压 时判定为“ ,否 则为 “
②在求得 后 ,若换位矩阵中某行 (某列)满足 “ 的个数条件,则把所在
的行(或列)的其它元素置为“
③当有两行(或两列)或以上的元素相同且只有一个“ 时,则把判断前 值
较大的行(或列)执行法则②。
④当有 行, 列满足换位矩阵条件,则所需的最后一个“ 自动补上。
⑤在迭代过程中,新能量值与上次求得的能量值相比较,若其绝对误差小于
仍没得到有效的路径,那么称这次迭代“冻结”了。
计算结果
我们对 的四个问题进行了计算机模拟运行结果如图 至图 所
示,参数的取值及距离结果如表 所示。
图 问题一的 图 问题二的

图 问题三的 图 问题四的

表 模拟结果

本章对 及其集体主义形式 的几个问题进行讨论,说明了如何将


转化为 神经网络所能求解的方法,并对该算法进行了智能化,可以预计,
随着算法的改进,这些距离长度有可能进一步缩短 问题的研究将对运筹学、铁
路运输规划的研究,对加速推动铁道科学技术发展具有一定的促进作用。
第七章  神经网络用于求解
铁路组合优化问题
神经网络用于求解铁路空车调度问题

前面讨论了神经网络求解 和 ,在建立网络的计算能量函数中 的
取值要么是 要么是 ,这样对神经网络用于组合优化问题有很大的限制。我们对于铁
路空车调度问题的计算能量函数进行了分析,认为 的取值可为 之间的任意值,
并对铁路空车调度问题的各种情况进行了计算机模拟,结果比较满意。
各个车站、分局、铁路局每日按车种别的装车数和卸车数一般是不相等的。为了保
证不间断地按日均衡地完成装车任务,必须将卸车数大于装车数的地区所产生的多余
空车运送到装车数大于卸车数的地区。这种空车的调配工作称为空车调整,在本书中空
车调度和空车调度是一致的。在技术计划中需要制定空车的调度计划。该计划的确定,
是以车种别来进行的。由于我国铁路货车是全国通用,没有固定的配属站,且空车走行
公里为非生产走行,不产生运输产品,因而空车调整存在着合理化即优化的问题。本章
讨论是以空车走行公里数最少为主要优化目标。空车调整方案的一般原则为:
除特殊要求外,必须消灭同种空车在同一径路上的对流;
)空车由卸车地至装车地,一般应经由最短径路;
)在环状线路上,应根据空车走行公里最少的原则,制定空车调度计划;
在保证货物和行车安全的条件下,可采取车种代用,以减少空车走行公里。
目前铁路局对空车调度计划是利用表上作业法,采用计算机辅助统计,要经过分
局管内各主要站和各区段的车种别空车调度,分局间分界站车种别交接空车数的确定;
局间分界站车种别接交空车数的确定来编制整个铁路局的空车调度计划。本章利用神
经网络优化方法解决该问题。

空车调度问题神经网络模型

空车调度问题的数学模型

空车调度问题一般指的是:设有 个空车发送站 个空车到达站数 ,

的距离为 ,设空车产生站 到空车需求站 的空车数为 ,由 发出的空车数


为 ,则 应满足

空车需求站 接收到的空车数为 ,则 应满足

假设空车产生数等于空车的需求数,即平衡运输,则

总的空车走行公里数为

则在平衡情况下,空车调度问题的数学模型如下

目标函数:

约束条件:

对于 空车产生 数和空 车的需求 数不相 等的调度 问题 的问题在

作讨论。

神经网络解法

由于神经元的输出值在 之间,而空车数目 是大于 的数,则将 作为实


际空车数,
这样就可以保证 在 之间,求 为在 中所占的百分比。为了用
网络求解空车调度问题,建立能量函数如下

式中 空车发送站 发送的空车数应等于 的约束,


当且
仅当发出空车数为 时,该项为 ;

空车到达站 所需的空车数应等于 的约束,当且仅

当到达的空车数为 时,该项为

对空车调度的总体约束;

对目标项的约束;

、 惩罚项系数, 为目标项系数。
当计算能量函数 达到最小时,对应于空车调整计划的一个最佳计划方案。其算
法如下

网络初始状态的选取与第六章一致。
则动态迭代过程为

其中 分别代表迭代次数, 选取

计算机模拟分析

算例 :对 于 个空车产生 地点, 个空车 图 空车调度初始数据


需要地点。如图 所 示, 为某种空车
产 生 地, 为该种空车需求地点,各地每日需要排出和补充的空车数分别以

”、 符号表示(即号表示多余空车,一号表示缺少空车)。
对于图 所示数据,按 网络求解 算法所得结果如图 所
示,参数 ,
共约迭代 次,目标结果为
空车公里。利用改进算法(改进的系数自适应方法)如图 所示,
结果为 
空车公里,共约迭代 次,参数
表 空车分配平衡表 表 运输距离表(

图 算 法 方 案 图 系数自适应算法方案
算例 :对 于 个空车产生地点, 个空车需求地点,空车分配表见表 ,运
输距离见表
为了说明神经网络的结果,用常见的两种表上作业法:最小元素法的结果见表
表 空车分配平衡表

表 运输距离表

表 最小元素法结果

目标结果: 空车公里
,西北角法 的结果见表
用系数自适应算法,用 网络求解结果见表 。
参数
,且目标结果为 空 车公 里。
表 西北角法结果

目标结果: 空车公里
表 神经网络方法求得结果

目标结果: 空车公里
由以上结果可以看出 神经网络方法优于表上作业法。

空车调度问题神经网络模型

发收空车不平衡空车调度的模型

上面所讨论的空车调度问题的算法,是以空车产生数等于空车需求数为前提。在
实际铁路运输中,往往会碰到发收空车不平衡问题。这时为了用神经网络求解,就需
把发收不平衡问题转化为平衡问题然后再运算。
当总的空车产地的空车数大于总的需求空车数,即

时,空车调度问题的数学模型就变成了

目标函数

约束条件
为了能使用前述方法求解,增加一个虚拟的空车接收地 。但该接收地并不存
在,因而由某空车发送站 调运到这个假想地的空车数量 (相当于松弛主变
量),就是将其就地存储在空车发送地 未发送完的空车数量。就地的空车不需运输,
则其距离 等于零。这样,模型 中的第一组约束就变成

, ,

而模型 则变为

其中

相应的神经网络增加虚拟神经元数目为 个。
当总的空车需求地的空车数大于总的空车产地的空车数时,可以类似处理,增加
一个假想的产地 ,它的空车数量等于

由于这个假想的空车产地并不存在,求出的由它发送到各空车需求站的空车数

实际是各空车需求地的欠缺空车数。显然,相应的距离
相应的计算能量函数与( 式相同,由于加入了虚拟的发空车地和需求的空
车地, 变为 和 变为

计算机模拟

对于产生空车地为 ,空车需求地为 的空车调度问题,空车分配表见表


运输距离见表 所示。
在本算例中空车产生地的总空车数大于空车需求地的总空车数 ,即为不平衡空车
调度问题 ,就需要转化为平衡的空车调度问题,引入虚拟空车需求地 。见表
所示。在计算机模拟运算时,参数的取值
计算结果见表 所示,此时得到最佳解。目标结果为: 空车公里。
表 空车分配表

表 运输距离表(

表 神经网络方法求得的结果

空车调度问题神经网络模型

具有中间站转运空车的空车调度数学模型

在上面的讨论中,我们假定空车由产生地直接发送到需求地,不经过中间转运过
程,但实际铁路运输中,有时在中间某车站进行改编,重新再进行组合,即空车先由
产生地运到某个车站,然后再转运到空车需求地。
在空车调度问题模型 中加入 个中间站 , ,还是希望总的空
车公里数最少。假设在平衡状态下, 为空车产生地或中转站至需求地或中转站的运
量。因而从空车产生地运出的空车数应满足

空车需求地接收的空车数应满足
中转站 接收到的空车数应等于运出的空车数

则在平衡情况下,有中转站的空车调度数学模型如下

目标函数:

约束条件:

对于不平衡情况 下的空车调度问题,同样可以增加虚拟空车产
地或空车需求地而转化成平衡问题来解决。

神经网络解法

为了用神经网络解决具有中间站的空车调度问题,使神经元的输出值 在
之间,取
, , ,

将 作为空车调度问题的实际的空车数量。用 网络解该问题建立能
量函数如下

其中  第一项、第二项和第四项与式 含义相同。

是对中间站 的约束,当且仅当 接收到的空车

数等于运出的空车数时,该项为 。

算法如下
迭代过程同第六章所述。

计算机模拟结果

对于空车产地数为 需求地为 ,
中转站为 的空车调度问题。空车分配表见表
,运输距离见表 所示。
表 空车分配表

表 运输距离表
用神经网络方法在计算机模拟计算时,参数的取值
,计算结果见表 所示,此时得到最佳解。目标结果为: 空车公 里。
表 神经网络求得的结果

本节利用神经网络原理和方法求解铁路运输中的空车调度问题,从计算机模拟结
果可以看出该方法是有效的 。而且结果在一定的范围内都能得到最优或近似最优。网
络的参数变化对计算结果影响不大 ,在一定范围内都能得到最佳解 。该连续神经网络
模型更易于求解连续值问题,可以推广用于货物调运,问题评价等组合优化问题。

神经网络用于求解列车编组计划问题

本节在前几章的基础上,把神经网络优化原理和方法用于求解列车编组计划
,简 记 )问题,该问题是铁路运输中的著名难题之一。首
先给 出了 的 规划模型,把 映射到 网络上,求解时用了自适应
优化算法,给出了算例及解的情况。为了更深入的研究 ,讨论了用遗传算法

,简 记 )求解该问题。详述了 的思想、概念和算法过程,给出
了在应用 时的编码方法、交叉和变异时应考虑的问题,每次都可以收敛到一个满
意的结果,使解的质量大为提高。
车流组织是铁路行车组织的一项重要内容,其目的是根据实际情况(如线路的通
过能力和车站的改编能力)将车流进行整理和组合规定车流由发生地向目的地运送的
制度,形成指导日常运输生产的列车编组计划,它是运输计划和运行图之间的重要环
节。车流组织优化使得这种列车编组达到某种优化目标,该问题中用总车小时消耗最
小为目标。
列车编组计划问题属一类超大规模的组合优化问题,该问题的研究作为车流组织
的一个难点,它和列车运行图的编制一起作为铁路行车组织理论中两个基本问题来研
究。虽有国内外众多的专家学者耗费近 年的时间进行研究,特别是近年来随着计算
机技术,新的计算方法和运筹学理论的应用,取得了一些进展,但仍然没有得到满意
的解决。国内对 的研究始于 世纪 年代,其中“表格分析法”较具有影响。从
现有的文献按算法性质分为四类:
筛选法:该方法在 世纪 年代研究的较多,是针对直达去向组合的分析
和筛选,以可靠的分析判据为依据,基于一组可靠的判断条件,筛除一些不利的方案,
以压缩直达去向组合方案数,其主要思想在于:直达去向的组合数要比车流的组合数
小得多。
)图论法:早期的图论法即动态规划法,把 抽象成一个 为支点站)个
阶段的,无后效性的多阶段决策网络图,每个阶段设置一组小点,概括无遗地描述从
后方车站通过这一阶段的车流的所有可能的组合。
数学规划法:该方法是指具有严格的数学规划模型,采用数学规划方法求解
的一类方法。
)近似算法:在目前来说,这是一类解决实际问题最有前途的方法近年来逐渐
引起人们的注意,作为近似算法,其评价指标主要为:有效性和可靠性。下述的神经
网络方法和遗传算法亦属这种方法。

列车编组计划问题的分析及神经网络模型
的二次规划模型

这里主要讨论直线情形的 ,以五个支点站(特指一个相对独立的调车系统,若
某个编组站按上、下行方向设置两个调车
系统,则用两个支点站标记该编组站)为
例建立模型。车流情况如图 所示。
对任一支车流,
可能作业方式很多。

为例,可能作业方式如图 所 示。
这里 表示无改编的直达方案, 表示
仅在③站改编的方案, 表示在③站和④
站均改编的方案,余此类推。由于每支车
流在最终结果所选的方案中只能为一个, 图 车流情况
故对车流 对应的变量要满足方案唯一
性条件

对于其余车流同样地有
现假设:
假设每支车流的径路(包括特
定径路)都是给定的。
技术站之间的车流 、改 编 参
数 和集结参数 均 为给 定 的常 数。
图 作业方式 [定义 如果某个作业方式
可以由其对应车流的某个作业方式与其
他的某个或多个满足如下条件的作业方式的组合而代替:“并列条件”:这些其它的作
业方式对应的车流之间不存在覆盖与被覆盖关系。从图 中, 可由 和 的
取值组合反映出来,即 可由 而 代替。即这种取值的组合保证车流
除了在③站改编外,必然在②站也改编,否则成为明显的不利方案。又如 可由
与 或 与 及 的取值组合而代替,从而也是非独立作业方式。
则其 目标函数 为:

其中 表示所有车流沿途均改编这一极端方案的车小时消

耗。

式思路:以各车流沿途各站均改编这一极端方案为基准 ,然后考虑开行

各种直达去向以及车流的组合方式所带来的车小时节省。其中去掉了非独立作业方式。

于是,对于任意支点站及线路结构的列车编组计划目标函数的通式为
约束条件

式中

其中 , ,

的 幂 集;
车流 在途中可能作业方式总数;
中的非独立作业数(不需单设变量者)。

的神经网络模型

能量函数的建立
应用 神经网络求解组合优化问题关键是要构造出一随时间变化能反映
出网络中各神经元输入电压随时间变化的计算能量函数。 的能量函数定义为

其中 部分为约束条件,当 仅有一个元素为 ,其余元素为零时,该项为零。


项为目标项系数。
由计算能量函数可以写出神经元 的运动方程

与前述相同,在迭代运算时
各参数的作用与含义与上节公式相同。
计算机模拟结果
用上述模型对 个支点的情况和 个支点站的情况进行计算机模拟,原始数据见
表 和表 ,其 中 表示支点站标记, 表示改编时间, 为集结时间,其余
为车流量。
表 个支点站情况仿真

表 个支点站情况仿真

对 和 的情况重复 次运算,每次最多进行 次迭代 ,若 次迭代


后仍无解,则判为时间超出。其参数的选取方法同第六章的 。
结果见表
表 模拟仿真情况

对表 、表 原始数据,神经网络对应的计算结果见表 和表
表 模拟计算结果 表 模拟计算结果

在计算机模拟时解的分布情况见表
表 模拟结果比较

为了提高求 的速度和有效解数量,下面叙述用遗传算法求

遗传算法用于列车编组计划问题

遗传算法的起源、概念及方法

遗传算法( )是模仿自然界生物进化思想而得出的新的优化算
法,是以生物进化论中得以灵感和启迪:地球上的生物在漫长的进化过程中,逐渐从
最简单的低级生物发展到万物之灵的人类,这是一个绝妙的优化过程。生物进化经历
了突变,自然选择和隔离等过程的渐次分化,而得以形成新的物种。这是“物竞天演,
适者生存,不适者淘汰”的自然选择过程的必然结果,在上述过程中,基因是自然选
择的单位,这已被生物学家所证实。有性生殖也起了重要的作用,它保证了后代的基
因混合与重组。能否将上述方法和过程用于科学研究工作和实际工程中的各种搜索和
优化问题呢 ?正是从这一疑问开始的。 年由 首次提出了遗传算法
的概念,具有开创性的遗传算法的理论和方法则于 年在 的著作中
予以介绍,目前已在组合优化,系统建模和控制器参数的确定等方面得到广泛的应用。
本节就是用遗传算法解列车编组计划( )问题的一个应用研究。
遗传算法是建立在自然选择和群体遗传学机理上的随机、迭代、进化,具有广泛
性的搜索方法,可以对一些组合优化问题用遗传算法求解。
设给定问题的目标函数为

要求 )使得(不失一般性,设求最小值)

其中( 为自变量, 是 的定义域; 为实数,是解的优劣


程度或适应度的一种度量; 为解空间 到实数 的一种映射。
在介绍遗传算法之前,说明其中使用的几个术语:
基 因( )码链,使用遗传算法时,需要把问题的每一个解编码成为一个基
因链,它是遗传算法的基本单位,其值代表所要解决问题的一个解,又称为问题的个
体单位。
) 群 体( 时产生
个个体组成一个群体 ,由每个个体代
表问题的一个解,所以一个群体就是问题的 个解集合。
) 交 叉( ,对于选中的用于繁殖的每一对个体 ,随机选取同一
整数,将双亲的基因链在此位置上相互交换,产生两个新的个体 , 作为其后代,
这体现了自然界中信息交换的思想。
) 变 异( ,其方法是对群体中的某个个体,即基因链码,选取某一位
(即基因)
,将该位的基因码翻转 转为 改为
适应度 ( ,对于每个个体在优化问题中的一个解( ,每个
解对应一个函数值 越小(如果优化问题要求取小),表明
( )越 好 ,即
适应度越高,所以可以用每个个体的函数值 作为它对环境的适应度。
根据达尔文进化论 ,自然界中的每个个体不断对环境学习和适应 ,然后通过交叉
产生新的后代,继承双亲的优良特性,并继续对环境学习和适应,从进化论的角度看,
新的一代群体对环境的平均适应度比双亲一代要高。基因的突变出现在交叉后 ,突变
增加了群体基因的多样性 ,有利的变异由于自然选择的作用而得到遗传与保留 ,有害
的变异则将逐步被淘汰。
遗传算法的过程为:
① 赋 时间 起 点 ,产生初始群体
②评价
③当满足 终止时 ,转
④利用交叉和变异方法用 产生
增加时间单位,转入②
输出问题的解后退出
由以上算法过程可以看出,就算法本身来说,它与问题域的知识无关,仅在评价
时,需要用到问题域的知识。根据 的输出,算法会自动地进行迭代来求出问
题的解。

问题的遗传算法的表示与实现

随着计算机技术的高速发展已引起人们越来越多的重视,自 年以来每
年一届国际遗传算法会议,在国际神经网络年会中,遗传算法已作为一个专题,并已应
用于机器学习、模式识别、图象处理、神经网络、遗传学、社会学等方面。并在解决
问题,煤气管道的最优控制、通讯网络链接长度等方面取得了很大的成功。遗传
算法在具体应用中有许多不同的策略,特别是在基因码链的选取,基因交配和基因变
异中各不相同,下面给出我们对 问题中的应用,介绍我们的工作。
基因码链的选取: 在设定基因码链时尽可能的短,而且容易计算适应度,如果
一个个体的适应度较好,则基因码链中的某些片段也很好,并由这些码链片段所构成
的其他个体的适应度也很好。 的每一个解实际上是各车流的作业编组方案的组
合,若直接使用二进制编码则太长而且难译码。我们选取各支点站为 ,

对于 用一个基因段表示: ,
其中 所在的位置为在 站改编的方案,若在
两个或两个以上的支点站改编,则在 站和 站之间的基因有两个或两个以上的 ,

因为 表示无改编方案。各片段的组合就形成一个基因码链,即问题的一个解。我们
随机构造若干基因码链形成一个初始群体。
为了体现优胜劣汰的进化思想,并将优劣程度适当强调,我们采用了“种群线性
分级策略 将个体按目标函数值的优劣排序,劣前优后。若 表示第 条基因码链
的函数值(该问题为车小时消耗),则满足
设正整数 ,则 第 条基因码链的适应度定义为
在下述的模拟试验中,取 。根据
( )所 确
定的适应度值,为复制过程选择高性能亲化配对串提供依据。
根据 解的这一特殊表示,在进行交叉和变异时与一般方法有所不同。假设选
择两个个体 作为双亲,在作交叉时产生一个随机数来确定交叉点位于大的基因
链码的哪一段上(即在那支车流上),再产生一个随机数确定交叉点位于该点的具体位
置,然后对该片段中选中基因点以后的基因进行交换。没有选中的其他片段保持不变,
直接传给两个对应的后代,经过上述交换产生两个新的个体 ,
 
  
 

在进行变异时,不能简单地将某位基因的值作改变,由于该问题及表示的特殊性,
这种简单改变没有实际意义。例如,如果第 段链码为 ,把 第 位
基因变异,则成为 ,
表示在 支点站改编,将第 位基因变异,则表示

车流 站无改编。这样容易与“并列条件”相矛盾,所以我们的变异方法是,

随机产生一个数,确定变异位置,把该位置基因与改编支点上的 交换,若变异位置
已为 ,这时才进行取反变为
根据上述讨论,下面就把我们使用的解 问题描述如下:


在 的初始化过程中,在满足编组计划的要求下随机产生一些个体,组成最初
的群体。 即前述的计算适应度和交叉、变异的方法,在 中遵
循下面规则:质量好的个体(目标函数 小的 方案)被选中作双亲的概率较大。
为了防止 陷入局部最优,根据迭代情况,决定是否进行一次变迁处理,若 代内
的最优结果没有提高,那么则重新随机生成除最优个体以外的全部个体。该处理方法
有点象模拟退火方法中随机提高环境温度的方法,又像自然界中的“大灾难”。

模拟实验结果

对于既有算例, 方法所得结果均优于或不差于现有结果。算例的集结参数
和改编参数 与本书 中相同,下面是 的两个结果。
表 计算 结果

图 表示计算 和 时的收敛曲线,可以看到最优路径不断下降直至
稳定状态。

图 用遗传算法来计算 问题时的收敛曲线
对于 这一组合优化问题,建立了神经网络求解模型,定义了使用 网
络时的能量函数和动态方程,通过计算机模拟分析说明该方法是非常有效的,为
的求解开辟了一条新途径。为了更深入的研究 ,我们引入了遗传算法,从我们的
模拟实验中发现遗传算法具有如下优点:①与其他算法比较,算法易于实现,不必对
每一具体事例调整参数,参数选择比较容易。②遗传算法的结果令人满意,有时其它
方法只有极少事例的解其性能令人满意 。③遗传算法是一种智能性的并行的搜索方
法。本书是遗传算法在 问题中的一个应用,有关 的其它应用结果在后述文章
中介绍,总之,遗传算法在理论上和实际应用上为我们提供了广阔的研究天地。
遗传算法的理论和方法可以推广到 ,
作 业 规 划,
机 车 调 度, 单元布置等
需要进行大量优化计算的地方。
第八章  模糊神经网络控制系统
模糊神经网络控制在控制领域里目前已经成为一个研究热点 ,其原因在于两者之
间的互补性质 。神经网络和模糊系统均属于无模型的估计器和非线性动力学系统,但
两者之间的特性却存在很大的差异 。模糊系统中知识抽取和表达比较方便,而神经网
络则可直接从样本中进行有效的学习,总的来说,神经网络适合于处理非结构化信息,
而模糊系统对处理结构化的知识更为有效。
本章主要研究了模糊控制系统和模糊神经网络的基本组成和原理 ,它们是后面几
章论述的基础 。在本章的最后讨论了模糊神经网络的普遍适应性 ,为在列车运行安全
控制中应用模糊神经网络方法提供了理论依据。

模糊控制系统概论
模糊控制系统基本结构

图 是一个模糊控制系统组成框图,它虽然简单但足以体现模糊控制的基本
设计思想,实际应用的复杂模型控制系统都是在此基础之上建立起来的。图示的控制
对象是一动态系统,具有输入 和输出 其 中 代表实时时间。
, 和 之间
存在某种不能精确描述的数学关系。

图 模糊控制系统组成框图
模糊控制系统主要由两个部分组成,一个是模糊控制器,另一个是 控制器。

糊控制器有两个输入 )和 ,一个输出
是采样时间 时刻参考输出 与系统实际输出 之间 的误差, 是误差
变化率 。理论分析和实验都表明只利用模糊控制器进行系统控制 ,往往不能满足控制
对象要求的所有指标(尤其是在控制低层),所以一个完整的模糊控制系统还需要某种
传统控制器作为补充,经常采用的就是 控制方法。图 中所示的 控制器
的输入就是模糊控制器的输出 控制器的输出就是控制输出

模糊控制器基本功能模块

上节所述的模糊控制系统的一个主要组成部分是模糊控制器,它的输入为 和
,输出为 ,图 给出了它的三个基本功能模块:模糊化模块、模糊映射
模块和去模糊化模块。
要设计一个模糊控制器,首先要针对 )和 )建立相应的、适当的量化
级别,同时建立与这些量化级别相关的隶属函数。这个过程完成对模糊子集的定义,它
是应用模糊控制的基础。这些模糊子集体现为语言值,对应于模糊变量 和 输
入变量 和 )经过模糊化模块后,转化为模糊变量 和 ,这两个模糊变量通过
模糊关系映射模块映射为模糊变量 ,模糊变量 再经过去模糊化模块后 ,转化为输
出变量
总的来说,量化级别的精确划分和隶属函数的建立取决于设计者对具体控制问题
的理解和系统变量(非模糊的)的了解,因情况的不同而不同。

图 模糊控制器的三种功能模块

模糊神经网络

所谓模糊神经网络就是具有模糊输入/输出信号,具有模糊或非模糊权重值的多层
前馈网络。本节对本章中所涉
及的模糊神经网络进行详细的
描述。
模糊神经网络
图 所示是一个三层
前馈神经网络,为简单起见,假
定只有两个输入神经元,一个
隐层和一个输出神经元,开始
时赋给信号和权重以实数值。 图 神经网络示意图
所有的神经元都有一个传
递函数 ,
通常输入神经元有 (即输入时不作变化)
,其余的神经元均采用
反曲函数 ,通常在反曲函数中不使用偏移项。实际上,传递函数

可能是任何一个从实数到实数的映射 。
本节中设输入神经元有 ,其余神经元的传递函数采用反曲函数。设输入
信号为 (见 图 ,则输入神经元# 的输出为
隐含层神经元 的输入为

式中
隐层神经元 的输出为

式中 是反曲函数。
输出神经元的输入为

输出神经元的输出为

是反曲函数。如果省略函数 ,则 。
如果需要将 映 射 在[ 区间,则
可采用反曲函数
上面所描述的是一个常规的神经网络 ( ,本书主要研究模糊化的神经网络

一个常规的模糊神经网络 )是一个具有模糊信号的、模糊或非模糊权值的
神经网络。对 的类型可作如下划分:
具有实数值的输入信号和模糊权值时 ,称为
具有模糊子集表示的输入信号和实数权值时,称为
具有模糊子集表示的输入信号和模糊权值时,称为
下面仅将 的内部计算进行详细的描述。利用字母下方加一下横杠来表示一
个模糊子集,例如在 中,输入 、 以及权重 、 以及输出 都表示模糊
变量。 的结构与图 相同,输入神经元 的输出是 ,隐 含 层
神经元 的输入是

式中
在此采用标准的模糊运算来计算,则第 个隐含层神经元 的输出为

其中 为反曲函数, 应用扩张原理来计算。
输出神经元的输入为

最终的输出为

其中,公式 中应用一般的模糊运算,公式 中利用扩张原理。


如果不要求 的取值区间为[ ,则在公式 中可以省略 ,
那么就有

以上所述是普通的 中的情形,运算过程中采用标准的模糊集运算(模糊加、
模糊乘等)进行计算,最后得出输出值。
下面引入一些本章中要用到的符号。 表示一个模糊子集, )表示元素 属 于
模糊子集 程度的隶属函数。定义模糊子集 的 截集为

式中
时, 的 截集特别定义为所有 的闭包,又称为 的支集 。

模糊神经网络学习算法
总的来说,普通神经网络的学习算法都可以移植到模糊神经网络中,归纳起来主
要有模糊 算 法、 截集 算法、随机搜索算法、遗传算法、模糊混沌算法等等。在
模型建立和仿真计算中使用的是模糊 算法,对该算法的说明详见本书的相关章节,
其它的算法不再赘述。
模糊神经网络控制原理
表 常用工业控制的模糊规则

下面说明如何用 来构造一个基
本模糊控制器 ,该模糊控制器可用于一般
的工业控制 ,控制规则由表 给出。
表中 和 是输入模糊变量, 是输出
变量,由表 可 知 该模 糊 控 制器 有
种输出 (编号分别标注在表中输出模糊变
量 的旁边)
,因此也就确定了 种控制规
则。
图模糊变量隶属函数的定义。
该模糊控制器具有输入 ( 误 差 )
和 (误
差变化率),按“取最小”算法得到下面各
规则式 图 模糊控制规则的模糊变量
( ), , ) 误 差; )误差变化; 输出


因为有九条规则而只有五种输出选择,所以将对应于同一输出 的 进行“取
最大”处理: ,

将每个 配给相应的 , 。要进行去模糊化处理则先计算 ),其 中


为“取最大”运算,对 进行去模糊化后得到控制器的最终输出。
这种模糊控制器属于 类,如图 所示。网络中结点 代表规则 ,其
输入为 )和 ,输 出 为 。结点 到结点 都完
成 运算,所以它们对应着九条规则,当 为 及 为 时激活 号神经元,采
取同样的方法 ,可以对 号到 号神经元进行类似处理。

图 模糊神经网络控制器示意图
神经元 到 对它们的输入进行“取最大”运算,这些神经元的权值都等于
神经元 的输入是 (乘法),其 中 ,输出是输入的“合成取最大”。神经
元 权值为 ,相当于去模糊化器。
使用这种神经网络的方法可以替代普通的模糊控制器,还可以利用给定的训练数
据来学习模糊控制规则(相应的权值分别为 和
模糊神经网络推理系统
下面利用 做为模糊推理系统的模型。假定有一个模糊专家系统具有下面的
规则库
:若 且 ,

其中 。如果给出某个数据 和 ,则系统就会给出结论 。在这种
情况下,如何得到 无关紧要(也许是假言推理等),而只需保证规则能够独立地被激
活而且可以得到 就足够了。
图 所示是由模糊神经网络构成的模糊推理系统。图中两个输入结点满足公
式 ,即结点的输入和输出相等。设输入为 和 ,结 点 到结点 代表 条
规则。
考虑结点 ,它对应就规则 ,给 定 ;和 时 ,则 被激活并得到结
论 。这样,一旦网络的训练完成则结点 的输出就将逼近 。类似地,当系统给
定输入 和 时,所有的规则都将独立地被激活并分别得到结论 ,

。然后系统对所有的 进行合成, ,得到最后的结论 。权 值 用于


合成 来得到 ,

假设有一些样本训练数据(设有 组数据)
,输入为 和 ,
经过模糊专
家系统后,对于所有的 都有结果 这样就可以将这些数据对看作为 的训
练集合。利用本节 中所介绍的算法中选择一个来训练该模糊神经网络。
一旦图 所示的 训练完毕,那么它就可以作为一个模糊专家系统进行
操作使用了。

图 模糊神经网络构成模糊推理系统
模糊神经网络的普遍适用性
大量的研究表明,图 所示的神经网络是一种普适的函数逼近器,亦即:给
定一个连续系统 和 的一个闭集 ,
对于任意 都存在一个 (权 值
为 和 ,隐层单元数目为 )满足下式
) )

其中 。
在 此 用 表达 式 )
来表示给定输入 和 时神经网络的
输出 。上述结论对于模糊神经网络是否也适用呢?
神经网络的模糊系统在控制领域内有了许多成功的应用范例,但一直到近年才从
理论上得到了支持,确定了它们在控制领域的地位,有文献提出的“等价性原理”。该
文证明了下述结论: 如果给定一个连续的、分层的、前馈神经网络,就能够通过
一个(离散的)模糊系统以任意精度来逼近它; )
如 果 给 定 一 个 连 续 的、
离 散 的、

有一个规则库的模糊系统,就能够通过一个三层前馈神经网络以任意精度来逼近它。这
个结论在理论上有着非常重要的意义,
从该定理推出
“神经网络可以
(以任意精度)
逼近
连续函数
(或系统)
”。同 样“
,模 糊 专 家 系 统 也 可 以
(以任 意精度)
逼近连续函数
(或
系统)”。从这个角度来看,神经网络、连续函数和模糊专家系统计算的结果是相同的
( 或 者 说 是“ 逼 近 的 。也就是从理论上讲,神经网络和模糊系统都具有完成对任意连
续系统进行控制的能力。
应用神经网络构造模糊控制系统

数学描述

的神经元模型数学描述为
)] )

这里 是传递函数, 是输入 的权值, 是神经元的偏置权值


(又 称为阈 值) 是网络输入的计算函数。传递函数 可能是线性函数、反曲函数或双
曲切线函数,函数 一般用作求和运算。
模型系统可以映射成为前馈类型的神经网络,这些系统在本书中统称为模糊神经
网络。在许多模糊神经网络中的神经元结构也都不尽相同,传递函数则一般限定为线
性函数或者是反曲函数,同时函数 也可以利用改进后的模糊“取小”或“取大”运
算来代替,进行求和运算。
改进后的模糊“取小”运算 和模糊“取大”运算( )的定义为

这里 是一个变量,它的取值可以是任意实数,所需要的前提是网络能够达到收
敛。在下文中,如果对 不进行特殊声明,它就是求和函数。
模糊规则神经元
模糊规则的基本形式与普通规则类似,也是由前件部和后件部所组成,按照数理
逻辑理论的定义,所谓的前件是指规则的前提条件,后件是指规则推理后得到的结果
或结论。
一条模糊规则的前提可以用一个规则神经元来进行表示。神经元的形式有以下三
种:
具有一个模糊变量作为前提的简单规则:
)具有许多模糊变量作为前提的合取规则;
具有许多模糊变量作为前提的析取规则。
对于“求最大 最小”、产生式求和、 范 式、 范式等算子而言,都可以直接使
用模型神经元来实现 。在本文中 ,合取算子和析取算子对应于 “取最小”和 “取最
大”来实现。例如一条具有两个输入的合取规则的前提就可以使用一个单独的神经元
实现,其参数为: 是线性的, 等于 , 为取最小,且有
前提隶属函数
实际上,任何一个隶属函数都能通过一个多层感知器网络来获得,条件是要对该
网络进行单独的训练。但是有时也可以不用训练,仅利用较少的神经元,通过反曲函
数的移动,比例和对称处理也能达到比较令人满意的程度。
考虑三个形容程度的词所对应的模糊子集 :低 ( 、中( 、高( ,它们的
隶属函数的形成方式如图 所 示。

图 前提隶属函数
在形成隶属函数时下面两个反曲函数非常有用

反曲函数 是反曲函数 对于 轴的对称函数。系数 是正的变


量,用以改变曲线的斜率(如果 趋于无穷大,反曲函数将变为阶梯函数), 也是正
的变量,用以进行反曲函数的移位变化。通过参数的改变可得到以下各式来对应各模
糊子集的隶属函数
低( :

高( :

中( 的实现可以有几种途径
一种是先利用上面两种类型的两个反曲神经元进行处理,再利用第三个线性神经
元 来联接另外两个反曲神经元,联接的权值固定。

的另一种途径是利用第三个线性神经元完成第一个反曲神经元和另一个
实现
反曲神经之间的减法运算
注意在上面两种情形下都有
结果隶属函数
设 为有限集,其元素从模糊系统规则推理得出,经过标准化处理,所有的可能
输出值的集合
, , ,

这时 ,模糊输出必须经过“去模糊化”后才能得到精确输出
对应于集合 的最大隶属变度 ( 如 图 中粗线所示)的集合为
, , ,

图 结果隶属函数生成示意图

图 同时给出了利用两层线性神经元生成结果隶属函数的方法示意。第一层
的每个神经元都代表一个输出隶属函数(在本例中共有三个这样的函数),第二层的神
经元的传递函数取为 ,用于选择输出取值较大的隶属函数,两层之间的连接权
值是输出隶属函数 三者所可能的隶属度。
当一条规则的强度达到最大可能值(对应于标准化后的数值 时,
模糊输出对应
的结果隶属函数对应于图中的虚线,规则强度低一些时表示隶属度的取值按比例减小
(如图中的实线
结果隶属函数可以利用类似于前提隶属函数所使用的、通过调整层间联接权值的
方法进行修正。
去模糊化
标准的去模糊化方法是重心法 ,该方法也可以用神经网
络方法来实现
一般来讲 ,针对具体应用而专门设计的 去模糊化方法要比所谓的标准 “去模糊
化”方法有效,目前尚无理论来证明到底哪种方法是最优的“标准”方法。
针对具体的应用情况来设计“去模糊化”方法的一个简便途径是采用可训练的神
经网络,方法是将所有的规则按强度分别赋予权重,加入具有反曲传递函数的输出神
经元进行训练。由于神经网络训练的结果不易理解,所以这种方法又称为黑盒法。
另 一 种 神 经 网 络 方 法 是
)方法,其表达式为

式中 可以是负的,即可以出现 ,这样在网络训练时,输出结果的收敛速度将
得到提高。
尽管许多实例都表明神经网络方法实现“非模糊化”是有效的,但是由于训练算
法都采用梯度下降法,所以局部最小化的问题不可避免,这也是神经网络学习算法研
究中的一个难点问题。

模糊神经网络模型

在模糊神经网络结构的模型中,都是利用代表性的样本训练数据进行模型系统的
构造和修正。模糊化方法在各个模型中也是类似的,“若则”和“若非则”两种基本规
则的抽取在各种模型中都存在。本节所述的模糊神经网络模型是一种采用梯度下降法
生成的改进结构
设有规则 以及输入
和 输出为 和 ,又
设 和 分别表示低、中和高。在 中考虑“若则”和“若非则”两种规则
类型,根据规则类型的不同而选取规则强度为正或负,输出则是对具有反曲传递函数
的输出神经元进行直接求和计算。
设有如下规则:
:若 为 ,且 为 ,则输出为
:若 为 ,或 为 ,则输出为
:若 为 ,则输出为
又设上述规则中出现的 和 的五种前提隶属函数分别取为
和 ,则 规 则 前 提 的 计 算 公 式 为

这里 和 为模糊子集的合取和析取, 和 分别对应为规则 和
的强度。
模糊模型 与普通模糊模型的不同之处在于它利用下式将那些点火规则进
行求和,然后经过传递函数得到精确的输出

这里 是规则数目, 是从第 个规则结点到第 个输出结点的联接权值, 是


输出神经元的反曲传递函数, 的取值也可以为负,这样在每个输出结点上都体现了
所有规则的共同作用。
因为所有的规则都具有权重,而输出是对权重的求和,所以对于具有多变量前提
的规则来说,规则的合取和析取都可以通过分解的方法进行处理解决,亦即:将每个
前提都分解为最多具有两个输入模糊变量的规则进行处理。

模糊规则提取方法
模糊规则辨识方法

许多研究都表明利用数据样本集合进行规则提取是可行的。而且,因为可以从初
始选择的规则来“辨识”最终的规则库,所以可以将规则生成的问题归纳为初始数据
库的构造问题。
有文献提出的方法是利用 训练算法来修正隶属函数以适合事先确定的合取规
则结构。根据所提出的规则结构,每条规则都包括前提中的所有的输入变量,而仅仅
对隶属函数的参数进行训练。这种方法的优点是学习的速度快,但是当规则数目或输
入变量的数目较大时,由于要事先给出规则结构,所以该方法也就丧失了神经网络训
练方法所具有的简单透明的优点。例如,如果输入有 个变量,选择的规则数目为
则每个输入都需要 个隶属度来进行模糊化,而每条规则的前提又需要 个输入变
量。
提出的方法比较简单,它是将所有的模糊规则都在分类过程中进行
考虑,通过神经网络的训练对每条规则的可信程度进行分配。该方法的缺点是无法通
过调整隶属函数对其进行优化,而且随着输入样本的增加,规则库中的冗余规则的数
目将飞速增加。
提出了一种模糊模型,采用梯度下降法进行学习,并且提出了一种新的
方法从初始规则库中对规则进行辨识。初始数据库可以由专家知识生成,也可以取所
有可能规则的集合,如果输入变量的数目很大时,取所有可能规则的集合的方法也是
不可取的。一条规则的选取与否是根据其准确性和可能性来共同确定的,其中准确性
可由其方差和进行判断,可能性则通过比较训练和测试数据集合的方差来评价。

图 训练网络模型

如果能够避免前提输入重复的情形发生,那么所有可能的简单规则、合取规则及
析取规则的总数就由样本输入的数目 和模糊程度划分的形容词个数 来 决 定,

体计算如下式

例如,如果前提输入变量的个数限制为 ,那么规则总数的最大值就归纳为
所以, 方法只适用于具有限制数目的输入变量和限制模
糊程度划分形容词个数的应用场合。
在 模糊神经网络模型中采用与 方法相同的前提估算和前提隶属
函数的生成方法,所不同的是 不需要初始规则库,因为 采用了特殊的规
则提取技术和模糊模型,这样就不存在专家知识缺乏的问题,也避免了因输入变量增
多而引起的麻烦。
与 方法不同的是, 采用的方法是基于对权重的训练
(如图 所示)。
采用的方法如下:
首先为每一个输出结果的合取与析取定义规则结点;
然后在固定隶属函数的条件下对 神经网络进行一定次数的训练,这样可以
避免在生成规则的过程中陷入局部极值点;
在完成一定次数的训练之后,再进行可变隶属函数的训练。
在图 中,只有那些在模糊化模块和去模糊化模块中的粗联接线具有可变的
权值,而其余的联接线则具有统一的固定权值 。粗黑圆圈是具有反曲传递函数的神经
元 ,其余的圆圈则为具有线性传递函数的神经元。包含符号 和 的神经元具有对网
络输入进行“模糊取最小”和“模糊取最大”的运算功能,其他的神经元则完成对输
入进行求和的功能(具体过程见下一小节)。

规则相关结点的辨识

因为在 模型中的规则既可以具有正的权值(“若则”规则),又可以具有负
的 权 值(“ 若 非 则 ”规 则 )
,所以对于每个输出 而言都必须求出两组相关结点,以
对应输出的每个操作(包括合取和析取)。

图 规则提取示意图
下面考察一个 的例子,对一个精确的样本输入 来讲,将其进行模糊化后
的取值为 和 。通过下述步骤(如图 所示)可确定该输入样本(第
个)是否对一个输出 的合取规则(在此为“模糊取最小” 产生影 响:
)完成模糊化层与结点 (属于图 中的 层)之间的联接, 的取值是
除去第 个输入以外的所有输入隶属度中的最大值(参见图 中的示例)
,即

)对结点 (属于图 中的 层)进行下述联接:

, )

结点和输出的联接权值 和 初 始化 为随 机数;

经过训练以后,通过对联接权值的分析来确定三种模糊输入中的哪一个与输
出 的“取最小规则”(“若则”或“若非则 有关联。在表 中给出了一个
具有 个输入样本数据的例子来说明上述第四步。
表 最小规则相关结点列表

对规则相关结点的提取本身也是一种基于规则的方法,表 列出了提取过程
中所包括的一些规则。表中的符号‘+’和‘一’分别表示权值的强化或弱化,在这
里不需要将这些权值进行量化。符号‘ + ’ 和 一’分别表示相应模糊变量值的
权值比同一输入中的其它模糊变量值的权值更大或者更小。在实际应用中可以使用其
它类似的定义来进行比较。
如果某个样本的所有权值都“相等”(例如表 中 时所有的权值都为
,而 时所有的权值都为‘一 )
,那么就说明对于输出 而言,该输入样本
对它没有影响,因此对于本例来说,第一个和第二个输入样本对于输出而言可以忽略
不计。相反,对于输入中那个具有突出权值的变量则应分配一个相联结点,显然,根
据“强化”和“弱化”的区别,分配的结点分属于正规则组或负规则组。
按照上述的方法可以对一个输出 的析取规则(在此为“模糊最大” )相
联结点的提取进行分析。类似的列表可以通过下式求出

相联结点 可以用类似的公式求得(将公式 和 中
的 操作替换为 操作)

所有提取出来的合取规则相联结点和析取规则相联结点都可以作为候选的初始简
单规则(图中的 规 则 ),图 示出了上例中合取规则提取的结果,从
图中可以看到本例得到了四条合取规则(其中包括“若则”规则三条,分别是第
条,“若非则”规则一条,是第 条),同时得到简单规则五条(分别是第
条),而析取规则本例中暂未给出。

模糊神经网络系统的优化

完成上述包括初始化知识库在内的工作以后,就得到了一个初始模糊系统,下一
步要做的是利用同样的样本数据对系统进行优化。在未经优化的初始模糊系统中,所
生成的规则数目要比实际的情况多得多,所以用户必须给出一个限制条件或一个权重
衡量标准,以删除那些“弱”的规则。然而,如果将某些重要的规则也删掉了,则模
糊系统的性能将受到削弱。所以说,减小规则数目和提高系统性能两者是一对矛盾。系
统优化的方法有“在线方式”和“离线方式”两种。
参数调整
最初生成的前提隶属函数可以通过训练数据进行调整。改变参数 的值可以使隶
属函数产生位移,改变参数 的值可以使反曲函数的斜率变化。对于结果隶属函数则
可以通过修改两层神经元之间的联接权值来进行优化处理。
对于利用规则相联结点进行规则归纳的方法而言,通过做第二次训练可以进行规
则的再归纳。
经过 的优化过程之后,具有较弱权值的规则结点最终将被删除。
规则优化
规则优化过程是必不可少的,因为规则数目的多少将直接影响到系统实际应用时
的响应时间。
一个已经生成的规则库应当能够利用输入/输出数据,通过对 模型的学习
训练进行有效的归纳整理。为了得到少数对输出有较大影响的规则,可以利用删除某
些规则与输出层之间权值的方法。
知识综合
对于神经网络和模糊系统来说,其输入变量特性的定义大都建立在直觉的基础之
上。在传统神经网络技术中,几乎没有什么办法来分析一个输入是否有效。 则
可通过系统性能的训练来自动地完成这项工作。在完成知识库的提取之后,那些在规
则中没有出现的冗余输入将被抛弃。进一步,如果专家的意见与某个规则的生成强度
不一致,那么又可以检查那些强度不够的规则的前提输入,这些输入可能是由于前面
规则生成过程中或隶属函数生成过程中的错误引起的。
有几种方法可以实现 模型的知识综合,一种方法是将专家直觉的知识作为
模糊规则和隶属函数加入到系统中;另一种方法是在线学习‘由于人类专家的知识与
系统自动提取的知识之间不免有一定的偏差,所以不能忽视专家的知识。专家的知识
可以在 生成之前,也可以在生成之后加入到 的训练过程中。
专家知识可以当作新的模糊规则加入到 中,这些规则的权值可以作为最终
规则,也可以由系统进行重新训练。

模糊规则权重的神经网络方法修正

问题的提出

许多系统都可以用模糊规则来表示,然而不一定总能容易地获得这种表示。一般
情况下,模糊逻辑控制规则是通过对专家经验的分析或进行反复的实验后才得到的,当
专家无能为力的时候,就必须寻找一种自动生成方法来解决模糊系统的辨识问题。
本书的参考模型是一种“连续系统”,其数学表示为
对于上述定义在论域 的连续系统,开始只是知道一组清晰的输入输出样本
集 合( ,这也是最初对该系统所了解的基本知识,对
此可以直接表示为下述的规则集形式
:如果 是 ,则 是
现在引入语言变量 和 来表示数值变量 和 ,相应地就可以得到下述的规
则集
:如果 是 ,则 是
得到式( 的过程称为初始化。
设模糊变量 和 取值的符号化表示为{ 和 ,其 中
的每一符号都具有语义,如“大,小,多”等, 属于论域 ;而 属
于论域
按上述说明就可以将所有可能的规则用如下形式表述
:如 果 。是 ,则 是
其中 , 。这样,整个系统就可以用所有可能的规则组成的
集合来表示
等价于
又可定义为笛卡儿积的形式
, , ,

显然,利用式 的形式来描述系统比其他形式更为恰当。
为此,对每条规则 赋予一个权重值 来度量规则 在相应系统 中的
真实程度。
第一个目标是找出所设连续系统 中每条规则 的权重值 ,这项工作
完成后就可以得到下述形式的对系统 的描述:
等价于
式 较之式 对 的描述更为完整。
为了避免处理大量的没有实际意义的规则,必须挑选那些权重“足够大”的规则。
在此,“足够大”也是一个需要加以定义的模糊陈述,事实上可以定义变量 ,然 后
得到系统的最终描述为
等价于 ( ,

系统辨识过程

系统辨识过程的步骤
根据上述的模型,系统的辨识过程按以下的步骤进行:
将参考论域 和 离散化得到 , ;

设 模糊 变量 和 的取值分别为语言符号 和

对于每一个“直接的”规则赋予权重值 来 表示 它的 真实 程度;
)序对 表示观测的结果,并由此定义
参考模型
对于 可以建立如式( 的语言变量的笛卡儿积 或
引入权重变量 ,其取值范围为

这样就由论域为笛卡儿积 的变量 来定义所有可能规则的集合。
在定义了上述这些新的概念以后,就可以得到一个“中间过渡系统” ,

下述规则定义
:如 果 是( ,
则 等于
下一步的目标是求得一个“中间系统”,由下述规则定义

如果 是 ,
则 等于
一旦得到式 定义的新系统,也就完成了第一步的目标,即利用具有权
重的所有可能规则描述了最初给定的系统。
过渡系统的求解
通过上述的分解过程得到一个“过渡系统”,可以表示为从[ ] 到[ ]的 映
射。
由于定义的初始系统是连续的(即输入输出的细小变化将引起相应的隶属度 的
微小变化),所以很容易证明“过渡系统”也是连续的。正是基于此,就能够利用具有
反曲特性函数的三层前馈神经网络来描述“过渡系统”。但需要首先定义训练模型的网
络拓扑结构。
网络拓扑结构
定义一个三层前馈神经网络结构如图 所示。

图 网络拓扑结构示意图

隐层和输出层采用反曲特性函数

现在所讨论的系统是一个从[ 到[ ]的映射,所以输入层需要 个神
经元(在图中设 ,而输出层则需要一个神经元。显然,输入层的输入是一个
属于 的向量,输出层则是一个属于[ ]
的 变量。
利用 算法即可以对前述的模型进行训练,最后可得到一个与系统“足够逼近
的”用神经网络表示的映射关系函数。

模型训练算法和样本获取方法

神经网络训练的学习一般选取 算法 。
神经网络的构成和训练需要选择样本,样本为 维向量,在此提出了下述方法
来选择有序对:
①首先是由系统“直接得到的有序对”
②由于系统是连续的,“中间系统”也是连续的,所以存在有序对(
这里 取很小的值;
③同样基于系统的连续特性,可以选择有序对( ,这 里 是一个
实数, 是一个与 成 比 例 的实 数;
上述三种类型都是从系统的 直接规则”得到的,而所要达到的目的是从“直接
规则”生成一个能够体现 的变化引起 的变化的模糊系统,为此需要下面的样本类
型。
④通过模糊化操作,得到序对(
由类型①可以反推得到序对( 的选择标准是 与 相差很
远;
将类型⑤模糊化,与类型④的生成过程相似可以得到序对( 一 一

] )和(( , ) 。

训练样本由输入矢量和输出矢量组成,是 维向量,其中包括在上述序对
中的分量置 ,其余分量置 。一旦训练结束,就可以得到规则的权重值,在输入层是
代表某个规则前提和后果的 维向量,输出的就是该规则的权重。
在求得所有规则的权重以后,就能够选择保留那些权重足够大的规则。
上述过程可以扩展到多变量的情形,即论域 和 可以是有限论域的积。
第九章 在列车运行安全
控制系统中的应用
随着社会的发展,人们对铁路列车的运行速度,密度及舒适度的要求不断提高,原
有的列车运行安全自动控制系统已不能满足要求。因此,对列车运行安全自动控制系
统的研究和应用就成了必然的趋势,特别是近些年来由于电子技术的进步,计算机科
学的发展和控制理论的完善,更加速了研究和应用的步伐。到目前为止,铁路列车运
行安全自动控制系统出现了四个阶段,即列车自动停车
阶段,列车超速防护 )阶段,列车自动控制
)阶段及列车自动操作
阶段。
对于上述四个阶段的划分而言,从第二阶段即 阶段开始,列车运行的安全控
制系统就成为了列车自动控制系统中不可缺少的基本子系统。随着列车运行速度的日
益提高,特别是为了适应已经来临的列车提速和高密度运行要求,研制和应用列车安
全控制系统变得非常必要和迫切。从理论上来区分,列车安全控制系统的方向可以分
为两类,一类是 反馈控制,另一类是智能化控制。

列车运行安全控制系统
目前速度控制方式及存在问题

目前世界上研制和投入使用的列车安全控制系统大都采用 反馈控制方法,
是比例积分微分控制的简称。 控制是一种负反馈控制,负反馈作用是缓解被控
对象中的不平衡,达到自动控制的目的。列车运行安全 控制系统按控制模式分为
两类:分级速度控制方式和速度距离式曲线控制方式。
分级速度控制方式
分级速度控制方式如图 所示,在这种方式中,控制系统对列车的速度在每
个分区的出口处进行检查。在每个闭塞分区内,只要列车的速度不超过前一个闭塞分
区的出口速度,则列车运行安全控制系统不实施制动控制。在正常情况下,列车由司
机驾驶,只要司机按曲线 控制列车的速度和制动,则安全控制系统就不介入对列车
的控制。曲线 是分级限速曲线,系统在每一“台阶”处对列车速度进行离散的定点
检查,一旦发现列车超速撞上曲线 ,则系统按曲线 控制列车,实施制动。
速度距离式曲线控制方式
速度距离模式曲线控制方式如图 所示,在这种方式中,控制系统根据列车
当前的速度,目标速度,目标距离,列车制动率等信息,实时地计算出一条速度距离
模式曲线 仍是司机正常驾驶列车的运行曲线,系统按曲线 对列车的速度
。曲 线
则系统 按曲线 控制列车,实施制动。
进行连续检查,一旦发现列车超速撞上曲线 ,

图 分级速度控制曲线 图 速度距离模式曲线

两种控制方式的缺点
上述两种控制模式虽然实现机制不同,但核心是相同的,即实时跟踪设定的速度
距离曲线,一旦列车超速则实施制动,这在高速运行条件下,将导致列车制动系统的
频繁动作,从而限制了列车运行质量的提高和造成列车设备的损坏。更重要的是,由
于列车运行过程的复杂性,不可能建立精确的数学模型对其进行描述,只能为其建立
近似模型,而速度模式曲线的生成是据确定的数学模型计算出来的。另外,速度模式
曲线的选取在理论上并无一定的算法,很大程度上要依靠系统设计者的经验和用户要
求,若速度模式曲线的选取过于保守,则可能提前制动而干扰司机的正常操作,从而
影响到运输效率;反之,如果速度模式曲线的选取不过于保守,则可能发生不能及时
制动的情况,不利于行车安全。所以说,模式曲线无法准确反映列车制动情况下的速
度一距离关系,因而模式曲线的计算必然与实际列车制动状况有很大偏差。
综上可见 ,这种基于确 定性数学模型的 速度控制方式不 能实现列车的 “自动驾
驶”这一自动控制发展的目标,而近年来迅速发展的智能控制理论和技术为实现智能
化列车运行控制系统提供了极大可能性,专家系统,模糊控制,神经网络,学习控制
以及信息等智能控制技术都已经运用在智能化列车运行控制系统的研究和应用中。尤
其是模糊控制和神经网络由于其独特的优点和相互之间的互补性,使得这两种技术越
来越受到人们的重视,对它们的发展和应用使得智能化的列车运行控制系统正逐步得
以实现。

车运行智能控制

随着科学技术的高度发展,被控对象结构上的日益复杂化和大型化,系统信息的
模糊性,不确定性,偶然性和不完全性,基于精确数学模型的传统控制理论对此类控
制问题已无能为力。而随着计算机技术的飞速发展和人工智能的出现并逐渐地形成一
门学科,智能控制开始在自动控制领域发挥着越来越重要的作用。
智能控制是多种学科知识的综合,其中,最重要的几个相关理论是:基于知识的
专家系统,模糊控制,神经网络控制,学习控制和基于信息论的智能控制。
目前,列车运行中常用的智能控制方法有:
基于模糊控制的 系统
模糊控制方法可用来实现类似于人类控制的完成多目标模糊性能指标的操作,利
用该方法研究开发的 系统能够满足人们对列车安全性,乘座舒适性,目标速度跟
随性和停车准确性等诸多方面的要求。
基于规则的 控制
基于规则的 控制实际上是一种基于知识的专家系统控制方法,它和
的控制目标是一致的。
)模糊多目标预测控制
预测模糊控制的基本思想是:在列车控制中驾驶员要时刻估计和预测,采用某种
控制以后,乘客的舒适性如何?列车走行时间长短如何?列车停止精度如何?根据这
些指标的预测和评价,驾驶员选择最好的控制指令。
神经网络方法在 中的应用
本方法是利用一种直 控神经元构造一个三层前馈神经网络 进行列车定位停车控
制。该神经网络在学习阶段按普通神经网络方法进行学习,在控制阶段一般情况下正
常判识,当遇到特殊情况,可直接由输入值通过直控神经元控制网络的输出。
直接控制的神经元模型如图 所示。该神经元在正常情况下, 不起作用,
其输出为

在判识阶段,当遇到 时,则输出由下式决定

式中
上式表明当遇到特殊情况时,输出由 直接控制,这样就可以保证在出现危险情况
时,系统进行紧急处理,以体现故障一安全原则。
直控神经网络的构成如图 所 示。
与普 通三 层前 馈网 络不同 的是 三个 输出神 经元 的输 入端 加入了 直接 控制 信号
和 之所以没有加入 时表示列车正常运行。输入

是因为当
层的各个单元代表列车运行参数的各种组合,输出层单元数为 ,分别代表不同的制动
方式,包括紧急制动,常用制动,电阻制动和正常运行。中间层的神经元个数根据网
络的运行速度和结果适当选取,学习过程可采用 学习算法。
图 直控神经元 图 直控神经网络构成

在列车运行安全控制系统中的应用

列车运行包括:列车的起动;在两站之间控制列车走行速度不超过某一限制速度;
在下一站时控制列车停在目标位置上 。本书对列车安全控制问题的讨论主要限于列车
自动停车控制

评价指标和控制规则

评价指标
的评价指标如下。
)乘客舒适性( :可分两档,好( ,坏(
)停止精度( :用预计停止位置与实际停止位置之间的误差来表示,可分两
档,很好( ,好(
( :
走 行时 间 在标志点以前开始定位停车会使列车走行时间拖长,
因此,

用列车到达标志点的富裕时间作为走行时间的评价指标,可分为五挡
很好, 好, 中, 坏, 很坏
)安全性 :在前方有比当前列车速度低的限制速度时,用到达限制速度点
所需时间来评价,可分三挡
好, 坏, 很坏
控制规则
利用 的语言控制规则和上述的那些性能指标,就可以确定符号化的模糊控
制规则。通常可分为四个控制子集,各个控制子集的变量个数根据机车类型和列车编
组情况的不同而不同,四个控制子集如下:
表示级位改变的大小;
表 示 牵引 级 位;
表示动力制动级位;
表示空气制动时的列车管的减压量。
通过对这些控制子集的定义,根据列车操纵的语言控制规则,就可以得到符号化
的模糊控制规则,利用模糊推理和模糊决策的方法进行处理,最终达到模糊控制的目
的。
过程划分
根据司机操纵列车的停车过程划
分,结合 本身的特点,将
过 程划 分为 图 所示的不同区段,
具体划分如下。
段:属于列车正常速度运行区,
是接近制动区,在制动开始之前的一段
区间,列车速度为 点是惰行初始 图 过程划分示意图
点,它是根据列车制动率的大小和采用
的惰行模式共同计算出来的;
段:进入制动区,机车停止牵引,列车开始惰行减速,准备制动。 点为惰行
终止点,同时也是制动初始点,它是根据列车制动率和运行速度共同计算出来的;
段:是减压制动阶段, 点为制动操作初始点,它的确定是根据列车制动率,
运行速度,制动模式,预期减压量等来共同计算确定的;
段:是追加减压制动阶段, 点为追加减压操作初始点,它的确定是根据列车
制动率,运行速度,已有减压量等来共同计算确定的;
点:该点为列车停车目标点。

模糊神经网络控制的模型建立

中的输入/输出参变量分析
根据对 过程的分析,可以知道 全过程的关键之处是列车的制动距
离,进行列车运行安全控制的前提是保证列车的制动距离。下面对《列车牵引规则》中
定义的制动距离公式进行比较详细的分析和说明,以便于选择 中的输入/输出
变量,这一过程是 控制建模的基础。
考虑一般情况,本文所选择的 控制模型中,重点讨论常用制动模式,而对于
紧急制动,作为保障故障一安全的一种措施,利用直控神经元的方法来实现。
列车制动距离公式如下:

对上式中的各参变量分析如下:
参数 是列车制动的初速度, 越大,则制动距离越长。参数 是根据
列车制动的初速度,为了计算上的精确,通过适当的划分而得到的,对于列车自动停
车问题,列车制动的末速度实际上等于零,为此,可以认为参数 仅由列车
制动的初速 来决定。也就是说, 中只有 是一个基本的有效参数。
)参数 是制动空走时间, 越大,则制动距离越长。对于列车常用制动,它由
下式决定

其中 为列车管减压量, 为牵引 辆数, 为线路坡度,这三个参数是互不相关的


独立变量,所以它们都是基本的有效参数。列车管减压量 越 大,
牵 引辆 数 越大和线
路坡度 绝对值越大,则制动空走距离 就越大。
参数 是常用制动的列车换算制动率,它按下式计算

其中 为列车换算制动率, 为常规制动系数,它是由列车管减压量 决定的函


数,随着列车管减压量 的增加,常规制动系数 也随之增加。
由上述分析可知,列车换算制动率 越大,列车管减压量 越大,则制动有效距
离 就越大。
)参 数 是换算摩擦系数 ,它按下式计算

其中,
参数 是列车制动的初速度, 是计算间隔内的列车平均速度。因此, 由
初速度 决定。列车制动的初速度 越大则制动距离越长。
参数 是列车惰性单位基本阻力,以东风 型机车牵引重车货为例,它按下
式计算

其中 是东风 (货、客)型机车惰行的单位基本阻力, 是重车货车运行的


单位基本阻力,它们分别按下式计算

式中 越大则列车的单位基本阻力就
是计算间隔内的列车平均速度,列车运行速度
越大,制动距离就越小。即随着制动开始后列车速度的降低,列车的单位基本阻力对
列车制动的影响越来越小。
是坡道坡度, 的绝对值越大,则制动距离就越长。
)参数
从以上分析可知,影响列车制动距离的主要独立参数有列车管减压量,制动初速
度,牵引辆数坡道坡度和列车换算制动率。
列车运行安全 控制系统模型的建立
根据上节结论,可将公式 形式化表示为

式中 为列车管减压量, 为制动初速度, 为牵引辆数, 为坡道坡度, 为列车换


算制动率。
对于列车制动而言 ,随着选择列车管减压量 的不同,制动初速度 的不同,牵
引辆数 ,坡道坡度 的不同和制动过程中列车换算制动率 的不同,系统所应当选
择的制动初始点也是不同的。因此,对列车制动过程的控制就是对制动初始点的选取。
鉴于以下几个原因,在 控制系统对列车制动过程的控制中,可以仅仅讨论列
车制动率 对制动距离 的影响。
在不干扰司机正常操作的前提下,使列车管减压量的选择尽量兼顾到列车制
动过程的平稳性,减小冲撞和损害事故。对货物列车的常用减压量采用
)对于某一控制对象来说,其牵引辆数 在运行区间是不变的,可以看作是常
量。
)对于制动初速度 来说,由于其测量的精度可以满足系统的控制要求,所以
将其对制动控制的影响归并到制动距离模糊变量隶属函数之中,通过其对该隶属函数
形状的作用来体现其对制动过程的影响。
)对于坡道坡度 来说,由于在一列特定编组列车的运行区段中的坡道类型有
限,可以将坡道坡度 取为定值。
对于列车制动率 来说,虽然能够事先给出一个近似的值,但它在列车运行
过程中的准确值是无法直接测量的,而且随着列车运行或制动状态的改变,车速的变
化,线路环境的不同,其值是在不断变化的。而对列车制动率 的选取又直接影响到
列车制动过程的控制质量,所以将列车制动率 的选取作为最主要的控制目标。
由此可知,对于一列在指定区间内运行的特定列车而言,牵引辆数 和坡道坡度
均可给定。列车管减压量 取值为 。模糊控制系统控制输出列车制动初始点
距目标停车点的距离 对应的模糊变量为 代表列车换算制动率,其对应的模糊
变量为 代表列车运行速度,它对 的影响体现在 的隶属函数的修正上,在模糊
变量 的去模糊化过程中对其进行修正。因此, 控制器公式化表示可简化为

式中 代表列车制动初始点到目标停车点的距离 和列车换算制动率 之间的


模糊关系。
图 给出了列车换算制动率取值不同的情况下列车制动过程的示意图。
在图 中,
曲线( 示意了当列车制
动率为 时,列车在 点开始的制动过程,
列车停止点为 ;曲线( 示意了当列车制
动率小于 时,列车要提前在 点开始制动
过程,才能保证列车停止点为 ;曲 线
示意了当列车制动率大于 时,
列车 可以滞
后到 点才开始制动,仍能保证列车在 点
图 列车制动率不同,其他条件相同时 停 车。
列车制动过程示意图 模型的辨识
参照 (系统辨 识过程的 步骤)

对其进行扩展可以得到上述模型的另一种描述,即

或者

又可定义为笛卡儿积的形式
, ,

式( )是由式( )直接推出的 ,而式 ( ) 和 ( )则是对


应于模糊规则形式的系统描述。其中,序对( )
表 示规则 在系统 中的
真实程度为
系统的辨识过程可以按下述步骤进行:
将参考论域 和 离散化得到 和 ;

设模糊变量 和 的取值分别为语言符号 , 和{ , ,

对于每一个“直接的”规则赋予权重值 来表示它的真实程度;
)利用由序对
( 表示的观测结果来定义
参考模
)对于 可以建立如下式的语言变量的笛卡儿积;
:如果 是 ,则 是
)对于参考模型 定义变量 ,取值范围为 或
引入权重变量 ,其取值范围为
这样就由论域为笛卡儿积 的变量
定义了所有可能规则的集合。
在定义了上述这些新的概念以后,就可以得到一个“中间过渡系统” ,它
由下述规则定义
:如 果 是( ,则 等于
下一步的目标是求得一个“中间系统”,由下述规则定义
:如 果 是( ,则 等于
一旦得到式 )定义的新的系统,就完成了第一步的目标,即完成了利用具有
权重的所有可能规则来描述最初给定的系统。
网络的样本获取方法和训练算法
利用 算法即可以对前述的模型进行训练,最后得到一个与系统足够逼近的用
神经网络表示的映射关系函数。
神经网络的构成和训练需要选择样本,样本由输入矢量和输出矢量组成,为
维向量,该向量的维数由两个变量 和 的离散化方式来确定。

列车运行安全模糊神经网络控制的可行性分析

现实意义上的可行性
由以上的分析可知,对于列车运行过程,建立被控对象的数学模型时(包括生成
和选取速度模式曲线)存在模糊性,另外,列车运行自动控制的模糊性还来自于以下
几方面:
测量信息存在模糊性
主要在于列车运行安全控制系统中存在如列车牵引重量,速度和距离,坡道坡度
和弯道曲线半径,列车的编组情况等测不准参数以及如列车制动率,换算摩擦系数,制
动空走时间,列车惰行单位基本阻力,坡道附加阻力,曲线附加阻力,隧道空气附加
阻力,大风阻力,制动气的空气泄漏等不可测参数。
应用已测知信息时存在模糊性
对某些已获取的信息,如列车的牵引重量,列车编组情况,动力制动等,由于各
种原因未对这些信息所区分的不同情况加以区别对待。
)设计控制目标函数时存在模糊性
列车的运行是一个复杂的多目标的系统过程,人们在对其建立目标函数时,只能
忽略和近似某些因素而求出它的近似经验公式,且这种公式仍需不断修正,所以说,对
列车动态行为的了解是模糊的。
由以上分析可知,列车运行安全控制是一模糊控制问题,而神经网络和模糊控制
之间的互补性决定了模糊神经网络在列车运行安全控制中具有现实意义上的可行性。
理论上的可行性
对于列车的制动过程,根据公式 进行整理,得
到下式

其中
可以得出结论:列车运行的安全控制是一个连续的系统过程。又已经证明,神经网络
可以以任意精度逼近任意连续函数(或系统)。所以,列车运行安全模糊神经网络控制
具有理论上的可行性。
控制模型对故障一安全原则的保障
故障一安全原则是铁路运输的基本要求,本书引入一种直控神经元,通过输入变
量对这种神经元的作用来直接控制系统的
输出,以处理可能出现的各种特殊情况,从
而保证了故障一安全原则。
控制模型
在 模型中加入若干个直控神经
元,从而构成一种改进的 ,成为
,如 图 所示。
直控神经元分析
输入变量 和 的取值是

   或
图 组成示意图 它们不同取值的含义如下:
当 时 ,表示列车当前的运行状
态尚未撞上减压量为 一般常用制动模式曲线 ,此时列车应当处于牵引状
态,惰行状态或正常的司机控制进行的常用制动状态,三者必居其一;而当 时,
表示列车当前的运行状态已经撞上了减压量为 制动模式曲线,此时列车应
当进行 系统控制的减压量为 的一般常用制动。
当 时,表示列车当前的运行状态尚未撞上最大常用制动模式曲线,此时列车
应当处于牵引,惰行状态,正常的司机控制进行的常用制动状态或者是 系统进
行的减压量为 的一般常用制动状态,四者必居其一;而当 时,表示列
车当前的运行状态已经超越了减压量为 制动模式曲线而且撞上了最大常
用制动模式曲线,此时列车应当进行最大常用制动状态。
当 时,表示列车当前的运行状态尚未撞上紧急制动模式曲线,此时列车应当
处于牵引状态,惰行状态,正常的司机控制进行的常用制动状态, 系统进行的减
压量为 的一般常用制动状态或者是 系统进行的最大常用制动状态,
五者 必居其一;
当 时,表示列车当前的运行状态已经超越了最大常用制动模式曲
线而且撞上了紧急制动模式曲线,此时列车应当进行紧急制动。
上述三个直控神经元各自的传递函数分别设计为
为 的合成输出神经元,其输入变量为 和 ,
输出变 量为 且传
递函数为

由公式
( ) 到( )可知, 的输出 的取值范围是
取值属于区间
[ 时,输 入变 量 和 的值均等于 ,
表示列车处于在
常用制动阶段,在当前输入的距离和速度条件下,代表了某种规则的隶属度,一旦隶
属度大于某一阈值,则进行一般常用制动的操作控制; 取值为 和 分别代表列
车处于 和 等于 的情况,这些数值大小的选择体现了各种非常状态紧急程度的
不同,以及它们对列车运行安全控制影响程度的不同。
三个直控神经元的三个输入变量 和 的所有可能组合共有四种,

, , , , , , , 。

神经元 用于防止列车超越减压量为 的一般常用制动模式曲线后仍


未采取制动措施的故障;神经元 用于防止列车超越最大常用制动模式曲线而仍未采
取制动措施的故障;神经元 用于防止列车超越紧急制动模式曲线而仍未采取制动措
施,进而可能发生冒进禁止信号的事故。
通过对几个直控神经元传递函数及 输入神经元传递函数的综合考虑和设
计,使得 能够以“安全优先”的级别对 过程中列车可能出现的各种情况
进行处理,满足了故障一安全原则的要求。

仿 真 结 果

仿真过程和步骤

控制系统的生成过程如下(如图 所示)

设置系统及其环境的各种参数;
)给出初始训练样本;
)确定 的输入神经元,输出神经元和中间隐层神经元的数目;
进行神经网络的训练,利用 学习算法进行学习和训练,经过一定步数的学
习后将得到一个 的控制系统;
在已生成的 控制系统的基础上,加入直控神经元,生成列车运行安全
控制 系统。

控制系统仿真模型的生成

仿真环境和仿真对象的参数
仿真环境
本文的仿真环境为 兼
容机,主频为 ,仿真程序开发
平台为 。

仿真对象的参数
仿真对象参数如下:
韶 山 型电力机车牵引货物
列车 辆,载重 及其以上,装有
型 制 动 机的 重 车 辆,空车
辆,重车中关门车 辆;载 重 及以
上,装有 型制动机的重车 辆;
载重 ,装 有 型制动机的重车
辆;四轴守车 辆。
)机车计算重量 为 ,牵
图 控制系统的生成流程 引重量 为 ,其中空车重量

)列车管空气压力 为
列车运行安全控制系统模型可以表示为

根据上面给出的仿真对象的
条件,可知有:
。列车制动率的理论值为:

坡道坡度 的变化范围为
至 ,
制动初速度
, 时 ,坡
道坡度 对列车制动距离的影
响情况如图 所示。不失一
般性,假定坡道坡度 为 。

模型的建立 图 不同初速度时不同坡道
模型公式如下 坡度 对列车制动距离 的影响

式中 和 可以看作是满足函数对应关系
的两个矢量,他们是 模型初始训练
样本生成的基础。这两个矢量的构成方法如下
首先设矢量式中 的元素个数为 ,即 。
利用理论值
为中心参考元素,即
矢量 中的其他元素的取值是以
为 中心 ,利 用一 个 适当 的步 长
进行加减运算之后得到的,
矢量 中的元素从小到大升序排
列。
)利用公式 ,结 合
上一小节中设定的参数条件,对于
每一个可能的制动初速度 计算
与矢量 相对应的矢量
)的 值 ,矢 量 中的元素从大 图 仿真实例中列车制动率 ,制 动
到小降序排列, 并将其中的最小元  
   
   
   
   初速度 与列车制动距离 的关系
素 作为控制模型 输出模糊
变量在去模糊化过程中的理论参考点 ,并且设列车制动距离 的变化步长为
对于不同的列车制动初速度 ,
理论参 考点 和制动距离的变化步长 都是不同
的。
结合我国货物列车运行速度的实际情况, 取值为 到 之间,并
且取 的变化步长等于 ,即 。如 图 所示,不同的列车
制动率 和不同的制动初速度 下所对应的列车制动距离 三者之间的关系。图中
的垂直双箭头实线与各条曲线的交点为:控制模型 在不同制动初速度 下,
输出

模糊变量去模糊化过程中的理论参考点
图 )分别给出了当列车制动距离
时的实际仿真曲线。

图 不同制动距离 时的实际仿真曲线
训练样本的生成
据上一小节的讨论,可知公式( 也可以表示为下式
) , ,
利用上式即可开始进行初始样本的生成过程。
对应于式 中的样本生成类型,经过适当的改进,可获得以下六种样本类
型:

对于上面生成的训练样本进行标准化处理后,即可直接得到输入变量,并应用于
模型的学习训练过程。
下面是上述六种类型样本中的每一类型的第一个标准化矢量形式的示例:

根据上述的样本生成方法可以得知六种类型的样本数目分别为

初始样本总数为
的网络生成及网络训练
各层神经元数目的确定
模型采用标准的三层神经网络,训练算法是带有动量因子 的改进 学习
算法 。神经网络输入层神经元数目为 ,输出层的单元数目为
为了找出恰当的 中间层的神经元数目 输入层神经元
,在确定了
数目和输出层的单元数目后,利用生成的初始训练样本做了大量的实验,在仿真实验
过程中选取动量因子 ,学习率常数 。仿真过程如下:
设整个网络的所有样本的平均误差平方和是 ,以 数值的大小作为网络
学习过程结束的条件。改变 的值,
比较在相同的误差平方和 的条件下
( 的
取值分别为 和 ,网络所需要的训练次数,实验的结果如图 和图
所 示。
由图 和图 可以看出,迭代次数在 以下,满足 的误
差条件所对应的 值分别为 和 ,
迭代次数分别为 和 。而
迭代次数在 以下,满足 的误差条件所对应的隐层单元数目只有
,迭代次数为

图 时 的 迭 代 次 数 图 时的迭代次数

)以网络学习的耗用时间为衡量参数,在前述仿真环境下,以 耗时为限,
比较不同的隐层神经元数目条件下网络的平均误差平方和 的值,实验结果如图所
示,表明在耗时 以内,只有隐层神经元数目为 时,网络的平均误差平方和
的值令人满意(
当中间隐层的神经元数目大于 时,在一个较大的迭代次数条件下(迭代次
数大于 ,神经网络的训练都不能收敛到一个令人基本满意的程度 (
)。

根据以上分析,在系统中选择 的中间隐层神经元数目等于
的网络训练
通过上一小节的讨论,确定了 的输入神经元数目为 ,
中间隐层神经元数目
为 ,输出神经元数目为 。利 用 所产生的初始训练样本对 进行训练,网
络训练的收敛过程如图 所 示。

图 训练收敛过程示意图

从图 可以看到,实验结果非常理想,最终训练结束后网络的平均误差平方
和 仅为
的系统生成
直控神经元的加入
参见图 所示的 组成图,要生成一个完整的 控制系统,在上一
小节中完成了 构造和训练的基础上,还需要加入三个直控神经元。这三个直控神
经元的模型构造按 节中给出的方法即可完成。
直控神经元输入函数的确定
直控神经元的输入是随着列车运行状态的不同而在实时地变化着,它们的输入函
数都是二值函数,取值非 即
图 表示了在前面给定的仿真列车制动过程中,采用不同制动方式的不同制
动模式曲线。

图 仿真列车在不同制动方式下的真实制动模式曲线
根据列车运行速度和距离目标停车点的距离,按照以上的定义可知三个直控神经
元输入函数的取值分别为:
当列车运行在模式曲线( 以下时,直控神经元的输入取值为

)当列车运行在模式曲线 )以上,模式曲线( 以下时,直控神经元的输


入取值为
( ;

)当列车运行在模式曲线( 以上 ,模式曲线( 以下时,直控神经元的输


入取值为
( ;

当列车运行在模式曲线
( 以上时,直控神经元的输入取值为
, 。

模糊控制规则的获取和应用

模糊控制规则的形式
为了研究方便,根据前面的定义和概念,得出下面的定义
设模糊控制系统的参考论域为 和 ,
将它们进行离散化后可得到
和 , , ;

)设模糊变量 和 的取值均设为五个,即 和
,它们相应的语言表述分别是“较大( “稍大
( “中
“稍小
( “较 小

设权重变量是 ,其取值范围为
)模糊控制规则的形式为

如果 是( 等于
其中 为 与 的匹配程度或相应规则成立的隶属度。
模糊变量的隶属函数
模糊变量 和 的隶属函数均取如 式所述的反曲函数,它们分别是

通过实验选定参数为 和 ,
自变量 变化范围是
,当 取实数值

时分别对应于
, , 。

隶属函数 )
的曲线形状如图 所 示。
模糊控制规则的自动获取
列车运行的模糊控制规则有如下形式:
“若列车制动率较大,
则制动点的选
取应当滞后于理论制动点
“若列车制动率较小,
则制动点的选
取应当提前于理论制动点”;
“若列车制动率相当,则制动点的选
取应当等于理论制动点”。
经过对初始学习样本的训练,就可以得 图 隶属函数 的实际仿真曲线
到各个规则的权重值,在得到所有规则的权
重以后,确定一个阈值,选择那些权重值超过阈值的规则作为 控制系统的控制规
则。
下面举例来说明。
通过对上一小节隶属函数的计算,可以得到每对模糊变量( )的标准化规
范表示(即表示为每个元素均为闭区间[ ]取值的矢量),这些规范化的表示就可以
直接作为 的输入变量,这样,每条可能的规则都将对应于一个 的输入矢量。
最后,根据 输出值的大小来判断相应的规则是否成立。
下面是一些任意组合的可能规则的例子。
“若 为较小( ,则 为较大( 。对应于 的输入矢
量 的输出值 分 别为:

“若 为较小( ,则 为 稍 大( 。
对应于 的输入矢量
的输出值 分别为:


“若 为较小( ,则 为中( 。对应于 的输入矢量
的输出值 分别为:

所有可能的模糊控制规则的总数是 ,根据权重阈值
选择的不同,最终所得系
统控制规则的数目也不同。例如对于上面所述的几条规则,若取 ,则仅有规则
满足条件,可作为最终的系统规则,而 和 将被摈弃;若取 ,则规则
和 均作为最终的系统规则。
本文的仿真过程中选取规则权重阈值为 ,
得到 和 在内的一共 条
规则。
模糊控制规则前提变量的模糊化
模糊控制规则的前提变量是 ,
相应的输入变量 的取值范围为
中的每一个元素 ,
对 应 于在 图 中所示的五个模糊子集
,分别有一个明确的隶属度,采用“取最大”的原则,即可确定
每个 应当归属于哪一个模糊子集。
例如元素 对应于五个模糊子集的隶属度分别为
( , , , , ) ( )

由上式可知
本书给出的仿真实例取 (即制动率满足 时的输入情形)

相应的有
利用上述方法,得到仿真实例中输入矢量 中所有元素分别应归
属的模糊子集,如下式所示

模糊控制规则结果的去模糊化
对应于仿真结果模糊变量的去模糊化过程,包括规范化模糊变量的“去模糊化”和
隶属函数曲线进行平移处理两个子过程。
规范化模糊变量的去模糊化
以反算列车制动率 为例,根据上一小节的分析得到 和
又由规则 和 可以推出 和
由重心法可得

其中 )和 )
的定 义见式 和式
实际精确输出值的获取
根据列车制动率 的不同取值,制动距离 的值是不同的。
将模糊控制系统输出的规范化数值 转化为实际的制动点位置 (即制动距离
,首先必须要确定两点,一是列车制动距离的理论参考点 的确定,二是在制动初
速度 给出后,确定隶属函数曲线中单位步长所对应的制动距离变化的步长
前者相当于对图  所示的隶属函数曲线进行相应的平移处理,后者是规范化数值
向实际数值化的参照标准。
图 所示的隶属函数曲线步长的数值计算公式如下

根据图 所示的结果可得到表 的数据,表中给出了不同的制动初速度


与 及列车制动距离 的变化步长 之间的数值对应关系。
表 制动初速度 与 ,
  和 对应关系

在仿 真实例 中列车 制动率理 论参考 点为 ,


相应地 。由 图

可得,
当制动初速度 时,列车制动距离的理论参考点为
因而控制系统的输出矢量 的理论参考点为 。也就是
说,当输出标准化数值 时,
由图 可以得出当 时, ,其他情况时有

由表 得到制动初速度 时,相应的制动距离变化步长
,根据公式 的结果,利用公式 计算得出当列车制动率
和制动初速度 时,控制模型 的输出结果是

仿真结果及分析

根据本书提出的 控制模型的算法,利用公式 )计算得出在不同制


动初速度 和不同制动率 条件下的制动距离 ,由计算制动距离即可直接求出列
车制动的初始点。
制动率 时的仿真计算结果见表
表 制动率 时的仿 计算结果

控制方法具有很强的系统应用的灵活性,这主要体现在两个方面。一是该方
法基于规则驱动的控制方式,对已经产生的规则既可根据应用情况进行修改,又可利用
专家知识对规则库进行补充;二是可以通过修改模型中模糊变量隶属函数的有关参数
来改进系统,使得系统所生成的控制规则更加合理。
虽然 控制方法在控制规则初期,需要花费一定的时间来进行神经网络的训
练和学习,但它属于一次性的开销,一旦规则的生成过程完毕,其正常工作的响应速度
与其它的方法是差不多的。
而且,随着电子技术的发展, 的运算速度越来越快,所以说从控制系统的响应
速度方面来讲,
应用 控制方法已无障碍而言。
由于 控制系统的控制主体是模糊神经网络,所以它比其他的控制系统需要
更大的存储空间才能够运行。然而就目前的微电子技术的水平,低价高速的大容量存储
器已经可以完全满足 控制系统的需要,因而可以说不存在存储空间需求量大这
一限制。
第十章 模糊神经网络系统
模糊系统与神经网络

模糊系统的知识表示、推理与获取

众所周知,模糊控制作为结合传统的基于规则的专家系统、模糊集理论和控制理
论的成果而诞生,使其与基于被控过程数学模型的传统控制理论有很大的区别。在模
糊控制中,并不是像传统控制那样需要对被控过程进行定量的数学建模,而是试图通
过从能成功控制被控过程的领域专家那里获取知识,即专家行为和经验。当被控过程
十分复杂甚至“病态”时,建立被控过程的数学模型或者不可能,或者需高昂的代价,
此时模糊控制就显得具有吸引力和实用性。由于人类专家的行为是实现模糊控制的基
础,因此,必须用一种容易且有效的方式来表达人类专家的知识。
规则格式是这种专家控制知识最合适的表示方式之一,即 “情 况”
“行动”,这种表示方式有两个显著的特征:它们是定性的而不是定量的;它们
是一种局部知识,这种知识将局部的“情况”与局部的“行动”联系起来。前者可用
模糊子集表示,而后者需用模糊蕴涵或模糊关系来表示。然而,当用数字计算机实现
时,这种规则最终需具有数值形式,隶属函数和近似推理为数值表示集和模糊蕴涵提
供了一种有利工具。
一个实际的模糊控制系统实现时需解决三个基本问题:知识的表示、推理策略和
知识获取。知识表示是指如何将语言规则用数值方式表示出来;推理策略是指如何根
据当前输入“情况”(条件)产生一个合理的“行为”(结果);知识获取解决如何获得
一组恰当的规则。
由于领域专家提供的知识常常是定性的,包含某种不确定性,因此,知识的表示
和推理必须是模糊的或近似的,近似推理理论正是为满足这种需要而提出的。近似推
理可看作是根据一些不精确的条件推导出一个不精确结论的过程,许多学者对模糊表
示、近似推理进行了大量的研究,在近似推理算法中,最广泛使用的是关系矩阵模型,
它基于 的合成推理规则,首次由 采用。由于规则可被解释成逻辑
意义上的蕴涵关系,因此,大量的蕴涵算 子已被提出并应用于实际中。
知识获取常被认为是建造专家系统的“瓶颈”,知识获取在模糊系统(如模糊控制
器)的设计中起着至关重要的作用。有两种建造规则库的方法:从人类专家那里获取
和从环境中获取 ,当没有专家提供必要的知识时 ,这时需要直接从环境中获得数据以
建立知识库。

推理机与函数逼近器

模糊系统作为推理机
对于一个特定的应用,一个模糊系统结构如图 所 示,
图中 和 分别是用
语言表示的模糊集,规则库 是一组用预定语言标号将 和 联系起来的规则。
对于一个当前的输入 ,
对 应 的输 出 可通过 , )
推 导 出 来。
由于 推
导 的机理可简单地看作两级推理过程,即推理机 首先将各规则的 部分与 进
行匹配,然后用一个模糊推理策略将这些规则的匹配结果与规则的 部分结合推
导出输出
值得注意的是:一方面系统的性能除与所用的
匹配和推理方法有关外,还与规则库的质量密切相
关。另一方面,系统本身具有内插或近似推理功能,
更确切地说,对于已知的输入 ,
推导出的输出
图 模糊系统作为推理机看待 至少满意地与已知的 对应,即 为一 (

正数)
, )是规则库中的一个 对。
换句话说,如果规则库中没有一规则与 精确对应,近似的输出 仍然应当通过推
理机推导出来,因此,一个模糊系统可看作一个语言内插:类似的“情况”产生类似
的“ 行 为 ”。
在计算形式上实现一个模糊系统的常用方法是从现有规则库建立一个关系矩阵

当提供一 输入 时,
输出 通过一关系方程 计算出来,这里。表示合成
推理的逻辑算子。
模糊系统作为函数逼近器看待
在上面的讨论中,假定模糊系统的工作环境是语言性质的,即 和 是由模糊子
集表示的语言变量。然而,大多数工程应用仅涉及数值变量。为使模糊系统能在数值
环境下工作,模糊化和去模糊两个过程必须被采用,如图 所示。首先,测量输
入 被转换成模糊值以适应模糊环境,推导出的模糊输出需转换成数值形式 以适合
于数值环境,在这两个过程中,隶属函数起着中心作用。从图 看到,模糊系统
可映射模糊集 到模糊集 ;从 图 中, 到 的映射表示了一个确定的函数映
射 ,它主要由规则库和推理算法确定,更确切地讲,这个模糊系统利用其内插
性质,实现一个函数逼近。
已证明一个加性模糊系统能以任意精度逼近一个紧致域上的任意连续函
数,证明了一个具有积型推理,中心去模糊、高斯型隶属函数的模糊系统能以任意精
度逼近任意闭子集上的实连续函数。 等也证明了模糊系统与神经网络能以任
意精度相互近似,说明模糊系统是一个函数逼近器。

图 模糊系统作为函数逼近器看待

考虑一个有 个输入 , 和单个输出 的模糊系统,这里 和 定义在其


论域 和 上的模糊子集。为建立关系矩阵 ,每个论域通常需要离散化
, 和 ,这个 模 糊系 统 完成 从单 位 立方 体 到 的函数映射,这
里 。当系统为多输入变量时,可能产生相当的计算难度。为解
决这一问题,可将模糊化和去模糊两个过程融合到系统推理中去 ,使模糊系统能适合
于数值环境。此时,模糊系统只涉及输入积空间 个输入而不是 个输 的
入和一维输出空间的单个输出而不是 个输出。这样,有可能设计出更有效的模糊系
统,同时也有可能更容易将模糊系统与神经网络结合起来。

前馈神经网络的函数逼近能力及推广能力

前馈神经网络作为函数逼近器早已为人们所承认,并广泛地应用到各个领域。当
前馈神经网络用于函数逼近时,并不需要对该函数输入输出关系进行数学描述,而仅
需用得到的该函数的一些样本数据训练网络,因此,这种函数逼近器是一种无模型逼
近器。理论研究揭示,前馈神经网络是一种广用函数逼近器,更确切地讲,像
这样的标准前馈神经网络,只要有足够的隐单元,网络能以任意精度逼近紧致集上的
任何函数。
对于一个前馈神经网络来说,仅能在训练样本集(函数采样点)上按要求的精度
逼近期望函数是不够的,它必须能对未在训练集上出现的输入给出恰当的响应,这就
是通常听说的网络的推广( 。网络根据部分信息(训练集)所反映的输
入输出映射规律恰当地推算未在训练集中出现的信息的能力,是一个智能系统应当具
备的能力。何为“恰当地”推算呢?特殊地,为了使网络对输入误差的灵敏度最小同
时也为了输入输出样本存储的一致性好,网络对类似的输入应当产生类似的输出,也
就是输入有微小的变化,网络的输出也只能有微小的变化。从几何上看,这种局部推
广性表示网络能将输入空间中的刺激(或输入)“球”映射到输出空间的响应(或输
出)“球”,其中刺激“球”和响应“球”的中心分别对应训练集上的输入和输出样本。
众所周知, 网络作为广用函数逼近器通常具有好的推广性,但是,在 网络
中信息是按分布式存储的。当网络对新的输入进行学习时,过去已存储的知识将被修
改,这是我们不希望的。解决这一问题的有效方法是使用隐层局部化基函数网络。在
这类网络中,学习是仅按局部方式修改网络响应曲面,知识被局部存储于局部化隐层
基函数及相应连接权中,从而保证局部推广性。这些局部推广网络虽然其中的局部映
射可能仅是非常近似的,但它们也能以任意精度要求逼近任何连续非线性函数。

模糊系统与神经系统结合

模糊系统与神经网络结合的基点
模糊系统和神经网络的起源和发展的动因是十分不同的,前者试图从认知水平上
捕获人类思维和推理能力,后者试图从生物水平上模仿大脑的机理。然而,从知识处
理角度来看,模糊系统与神经网络可用非常类似的语言加以描述。
模糊系统的知识表示与神经网络的结构对应:一个已训练的神经网络可以看
作知识表示的工具,模糊系统通过 联想对表示知识,神经网络则是通过其结
构(更准确地说是按连接权和局部式或分布式的神经元)存储知识。
)模糊系统的推理与神经网络的计算对应:神经网络中的前向计算与模糊系统
中的前向推理起着相同的作用,它们都是利用已存储的知识在当前输入条件下推算出
恰当的输出,相似的输入产生相似的输出是它们的共同点。然而,它们完成这一任务
的方法是有所不同的,模糊系统是按内插方式进行逻辑推理,而神经网络是根据局部
或分布知识的推广进行代数计算。
模糊系统的知识获取与神经网络的学习对应:模糊系统立足于从领域专家那
里获得知识,并借助于模糊逻辑将这些知识存储于系统中,神经网络常常是从训练样
本中获取知识并通过训练将这些知识编码到网络之中。
正如在前面知道的,从功能上讲模糊系统和神经网络都可描述成广用函数逼近器。
正是上面这些相似性和等价关系,构成了模糊系统与神经网络结合的基础。
模糊系统与神经网络结合的基本方法
正如我们所知道的那样,模糊系统具有较强的利用模糊集表示语言和结构化知识
以及利用模糊逻辑完成近似推理的能力,其知识的获取常常依赖于领域专家。神经网
络则擅长于用计算方法表示非线性映射,它们通过从样本中学习而获得知识。模糊系
统与神经网络都能完成广用函数逼近作用,那么两者之间的有机结合,即可构成一类
应用更为广泛,使用更为方便的信息处理系统。
通过分析归纳现有模糊系统与神经网络相结合的实例,这里概括出两种基本结合
方法,即模糊化神经网络方法和神经化模糊系统方法。
模糊化神经网络是指将模糊概念引入神经网络中,正如人们所知道的,模糊
系统是基于模糊集知识表示和灵活的模糊逻辑运算进行推理的,因此用这种方法构
的模糊神经网络可能使用最小、最大或合成算子的神经元,例如,一个“积一和”单
元可由一个“最小一最大”单元代替。
神经化模糊系统是将神经的概念引入模糊系统,技术上可以通过映射一个模
糊系统到神经网络,这种映射既可以是功能上的映射,也可以是结构上的映射,使用
的神经网络既可以是分布式的,也可以是局部化的。在前一种情况,最重要的是两个
系统的输入和输出等价。当用分布式网络时,由网络多个单元和连接权分布式表示
规则,每个单元可能表示有不同激活的许多规则,因此,知识在网络中的表示
是不明显的。如果使用局部化单元,则重点在结构方面而不是功能方面,这里,每一
规则只用一个单元及连接权表示,与之相连的连接权表示规则的 部分和
部分,因此知识在网络中被局部存储,其推广也是局部的,我们认为这种方式
更能表现模糊系统与神经网络的结构等价关系。
需要指出的是,两种结合方法有时是没有明显区别的。

模糊神经网络的学习

学习能力是神经网络最重要的特征之一,网络的学习意味着网络的参数如连接权,
有时可能也包括网络的结构如层数、单元数等随训练样本发生变化,以达到系统的性
能指标。不同的学习方式适合于不同的应用场合,然而,几乎神经网络现有的学习算
法都可以直接或间接地移植到模糊神经系统的学习中来。
学 习 方 法 依 据 不 同 的 出 发 点 有 许 多 不 同 的 分 类 方 法 。如 监 督 学 习 与 非 监 督 学
习 ,在线学习与离线学习 ,全局学习与局部学习 ,时间学习与空间学习,固定结构
与 变 结 构 学 习 等 。 其 中 ,下 列 学 习 概 念 与 本 书 已 讨 论 模 糊 神 经 网 络 的 学 习 直 接 相
关。
固定结构学习与变结构学习:通常的神经网络学习采用固定结构学习。在学
习过程中,网络层数和单元数是保持不变的,只是调整单元连接权,这种学习算法的
使用假定了现有的网络结构能够表示期望函数(或映射关系)。与之对应的是变结构学
习,在学习过程中,网络的结构参数(如单元数)以及连接权等参数随训练数据进行
调整,这种学习有时也称为自组织学习。
全局学习与局部学习:全局学习通常是针对分布式网络(如 网络)来说的,
当网络对新的输入进行学习时,几乎所有网络参数均要作调整,常常伴有学习速度慢
的缺点。局部学习往往是针对局部化网络来说的,当一输入送给网络后,网络中只有
少部分单元激活而对网络输出产生贡献,因此仅需对这些单元参数和与之相关的连接
权进行调整,局部学习具有收敛速度快的特点,且对新知识的学习不会影响已存储的
知识。局部学习具体实现时,通常用瞬时方式而不同批处理方式。
需知网络内部传递函数的学习和不需已知网络内部传递函数的学习:梯度下
降学习算法需要误差代价函数连续可微,如通常的 学习算法。另一种学习方法不需
已知网络内部传递函数关系而将整个网络看作一个黑箱,参数的修改通过扰动分析实
现,其优点是单元传递函数可以是不可微的。
模糊神经计算系统体系结构

智能信息活动的特征

我们回顾一下智能信息处理技术近半个世纪中的发展过程,就不难看出,建立在
预编程序串行集中处理原则上的现行 数字计算机,由于不具备自学习
能力、串行推理的非确定性及检索匹配的指数增长性时间耗费而无法实现接近人脑那
样的人工智能。 年由 所开创的模糊数学,突破了非此即彼的 经典
集合论的框架,衍生出模糊逻辑、模糊聚类和模糊控制等一些新的分支,在市场上的
一些电气机械产品(如模糊洗衣机、模糊电饭煲等)中已开始得到应用。但是,单纯
的由模糊推理机、模糊存储器、放大电路及去模糊电路等单元构成的模糊计算机,并
未达到预期的目的。自从 年代中期掀起的开发研究神经网络热潮,到现在也有十多
年的时间,在各种学术会议和刊物上发表了大量的研究成果和心得,但是大都属于神
经网络实现传统计算机也能设法完成的任务,距接近于人类大脑神经智能行为,还有
着十分巨大的差距。
为了使人工神经网络更好地向生物神经网络学习(即所谓 向 学习),我
们有必要抓住人类大脑神经系统信息活动的一个最为重要的特征一非精确性信息处
理。实际上,如果我们来观察和分析一下人类日常工作、学习和生活中大脑加工处理
信息活动的过程,就会发现,大脑通过五种感官即视、听、嗅、味、触觉系统所接收
到的信息绝大部分都是属于模糊、连续和随机类型的,属于精确数字型的甚少。允许
处理非精确数字型信息有利于降低对感官灵敏度和存储单元的要求,有利于适应于周
围环境的参数变化。其次,我们还可以看到,输入大脑的信息经过加工处理后所产生
的输出,不管是作为表达用的语言,作为控制用的肢体动作,还是作为某种决策暂存
于大脑细胞中,大多数都不是唯一最佳的,而是属于能解决问题的满意型的。大脑神
经系统输出满意解而不追求最佳解的原因,就在于保证智能系统的实时性和多功能性。
可以认为,人类大脑神经系统之所以具有高度智能,原因就在于:
)它允许处理非精确型的模糊输入信息以降低感官灵敏度和精确度的要求;
它按照解决问题的满意解(而不是最佳解)输出的原则来完成信息处理,以
保证大脑处理信息的实时性和多功能性;
它随时作好处理不确定型的、随机输入信息以适应周围环境的各种变化;
它能够根据需要调节注意力集中的程度,从而增加或减少处理信息、存储信
息的能力,以达到优化适应环境的能力。
因此,人类大脑神经系统的构造、功能以及它所擅长处理的信息类型等都和现行
数字计算机有明显的不同。
表 中列出常见的各种输入信息和输出解分类。分析一下表中 、 、 、
部分中的信息处理内容就不难得出如下结论。
表 输入信息 输出解分类

类的数值计算和逻辑推理型信息处理,现行的
属于 数字计
算机有着成熟而巨大的能力,不必由模糊神经计算机系统来承担此项任务;
)第 部分的信息加工处理任务涉及要处理模糊输入信息或实时输出

能解决问题的满意解问题,因此必须研制有效的模糊神经计算机系统来完成这类任务。
显然,如果第 类问题中的接收处理模糊信息及第 类问题中的实时输出满意解问题
分别得到解决,则较为复杂的第 类问题就自然能很好地解决。
此外,受到人类进化过程中 ,将大脑分为左半脑 (主要进行形式思维)和右半脑
(主要进行形象思维)来分工协作的启示,我们认为,将模糊神经计算系统和现行计算
机系统分开构造并协同工作的体系结构是合适的。

模糊神经计算系统体系结构

为了利用模糊神经网络( )来处理模糊信息并输出能解决问题的满意解,同
时也为了使得所建立的模糊神经网络
能够比较简单且具有一定的通用性,
整个模糊神经计算系统 由下
列四部分组成,如图 所示。
提取模糊信息性,使输入参
数规范化的预处理单元;
图 模糊神经计算系统的主要组成部分
)按输入一输出为隶属函数
隶属函数形式的通用型模糊神经网络,和 按功能呈树状层次型构造的
能使样本具备遍历性和致密性以保证学习过程的相容性和可推广性的样本供
给单元;
按给定满意度标准实时输出信息的后处理单元。
用 按树状层次型功能来构造 的 方法 如图 所示 ,图
)表示正常情况下,模式识别功能模块内可以同时并行地处理图象、语音和文字的
识别问题。当需要对某一个模式识别功能高度集中注意力时(例如英语默写考试要集
中语音识别时),则可以中断图象、文字部分的识别功能,而将其神经网络全部集中于
语音识别,如图 所示。
图 的层次型功能模块
与集中注意情况下的功能集中
对于图 各部分主要功能如下。
模糊输入信息处理
由于模糊神经网络处理对象是模糊信息,我们有必要研究一下模糊信息的特征。相
对于精确信息,模糊信息有:
①主观表达模糊信息,它是当人们用语言文字建立了某种模糊集合(如高矮和冷、
热等)后,用隶属函数来表达某数据项的取值
②客观映射模糊信息,它是某个参数映射到仪器或人的感官时,由于干扰和接收
灵敏度等所带来的不肯定。我们用模糊区间或模糊子集中心数组来表示。
年 给出如下定义:
给定论域 到[ ]闭区间的某一映射
, )

都确定 的一个模糊子集 , 叫 的隶属函数, 叫做元素 对 的隶属度。


对于具有模糊和随机性的客观映射信息,用下述定义来表达。
[定义 ]以概率 在[ 闭区间中取值的模糊信息量用模糊区间数
来表示,且表达为

[定义 以概率 在以 为中心, 为半径的区间内取值的模糊信息量用


模糊中心数值 来表示

当模糊信息不是随机变量,即 和 时,
模糊区间 与模糊中心 之
间的变换关系为
( )


定义 与定义 可以推广到 维信息矢量空间,即对在[ ]闭 区
间中取值,即

时,


式中

[定义 ]当[ , )
时 ,模 糊 区 间 对
, )的隶属度定义为

于是,所有用模糊区间或模糊中心表达的模糊信息,都可以用隶属函数来表达,从
而通过的模糊神经网络的输入具有统一的隶属函数形式。
显然有

下面我们用一个计算实例来说明这种运算。
设 ,
量度身高的模糊子集

按照我国人的身高特点,可以将隶属函数按图 形式 设定,

图 身高模糊子集 的隶属函数
不难用定积分法由( 式得出
)当 ]

从而由 式得到


)当 时,
相应地求得

从而由
( 式得到


将 )与 )式相比较,可知后者更接近于中等身材( ) 一 些 。
模糊神经网络(
它是由若干个层次型网络按照需要加以组合而成,这种组合可以是串并联的,也
可以是区组设计的。网络中各神经元之间的连接权能够按自适应的原则予以调节。网
络中调节权值采用 型算法的误差反传原理,但是用模糊逻辑运算规则进行迭代。
后处理单元
其作用是将 的输出结果用给定的满意度标准加以评判,一旦达到规定的满
意度标准,就实时地输出所得结果。
为了较为普遍地给定满意度的定义,我们对输出解的论域 和表征解 的某种性
能 ,称

为 ]
水平截集, 为隶属函数, 表示解的某种性能指标大于 的所有
解集合。
从而,
解 的满意度定义为

式中 、 分别表示集合 和解的全体集合 的势。


上式说明,当获得解 时,它的满意度定义为排除比 要差的解的百分数。显然

对应于组合数学中的加法法则和乘法法则,我们得出满意度的两个定义和运算规
则如下。
平均满意度
设 , , , 和
分别表示 个独立事件、它们的满意度和满意度重要性的权重,则平均满意度定
义为

)组合满意度
在前述表达形式下,组合满意度定义为

式中

样本供给单元
研究表明,神经网络学习的收敛速度和学习的效果,与学习的样本数量和质量密
切相关。数量适当且代表性好的样本,学习速度快且在使用时推广性好;反之,数量
过少或数量虽够但互相矛盾的样本,学习效果差甚至收敛不到有意义的权值分配上去。
一般言之,样本的好坏取决于特征提取后的概率密度分布,样本的品质首先与下
面三个参数密切相关,即
遍历性:它表示样本在被判释对象特征概率密度分布曲线上应当是具有代表
性,在曲线的各部分上都有取样点;
)致密性:它表示样本在被判释对象特征概率密度分布曲线上应当具备均匀性,
变化剧烈的曲线处取样点要多,变化不大的地方可少取样;
相容性:即要求各输入/输出样本对彼此相容,不能出现矛盾现象。

模糊神经计算的满意输出原理
基本定义

在许多实际问题中,需要对一定的计划指标或工作效果进行满意度估计,对于
一类智能信息处理系统,我们期望有一类应用面较广,易于进行运算的满意度衡
量标准和计算方法。
实际上 ,根据输出解的离散和连续性质 ,实时或非实时要求,可以有不同的满意
度表示方法,并且有静态满意度和动态满意度之分。
[定义 ]设离散解集 为有 效解 集,
对解 的某种性
能评价用 )
表 示,
定义子集

则当 输出解 时,它的满意度定义为

式中, 表示集合 的数目。


由式( 可知,对于给定评价指标 ,
得到某解 时的满意
度,就等于该解优于其他那部分在整个离散解集 中所占的百分数。显然

即 , 。

定义 ] 设 表示定义在 的解概率密度函数,
则当
获得质量为 的解 时,满意度为

式( 所定义的满意度与时间无关,我们称之为静态满意度。
在许多智能决策或智能控制中,实时性是至关重要的。例如,当列车运行中途故
障以至破坏了正常的运行图时,调度员(或代替调度员的 智能决策装置)就必
须在有效的时间内实时地作出比较满意的运行图调整方案。同样,智能机器人作业过
程中,也必须根据周围环境的变化,实时的选择出比较满意的运行路线方案。因此,下
面定义的动态满意度,就是用来刻划神经网络在一定时间内解的满意程度。
[定义 设 在 时刻输出可供选择的解数为 ,在单位时
间 后获得可供选择的解数为 ,
则该系统在 时刻输出解的动态满意度为

式中,单位时间 可根据系统的特点(例如输出一组解的周期)来确定。

运算法则

我们知道 ,组合数学中有两个基本计算法则,即对应于 “或”逻辑的加法法则和


对应于 “与”逻辑的乘法法则 。与这两个计算法则相对应的有平均满意度和组合满意
度运算方 法。
[定义 设 为 个独立事件,每个事件的权重和完成的
满意度分别为 和 ,则按加法法则运算所得到的平
均满意度为

[定义 设 , 为 个独立事件,每个事件的权重和
完成的满意度分别为 , 和 , ,
则 按乘 法法 则
运算所得到的组合满意度为

( ) )

图 表示当 时, 与 由下至上分别为 至 的曲
线)
及 的关系。

图 组合满意度与 和 的函数关系
[定理 设独立事件 , , , 的权值为 , ,

,满意度为 , ,则

且当 中的最大值和最小值为 和 时

[定理 平均满意度和组合满意度满足交换律和结合律,即

[定理 ]采用符号 ,
则当
时,

在求解 中的应用

众所周知,旅行商问题 是组合优化领域中一个模型简单明了,但计算复杂
性为 的计算难题。 年 就是通过建立能量函数,用全互联神经网络成
功地解决了求解 而引起世界同行的震惊和关注。因此,求解 常常被视为衡量
某种算法有效性的试金石。 并没有在传统的求绝对最佳解的意义上解决了
这个组合优化难题,而只是能保证在一定的时间内找出较佳解中的一部分。下面
我们就结合求解 实例,阐明 满意输出原理的具体应用方法。
满意度的近似解方法
当城市数目 较大时,可能的巡回路径数目 急剧增 加。
例如,
当 时,巡
回路径数目 条巡回路径。为了解决无法知道最短路径和
路径长短分布特征条件时,仍能适应定义式( 中的式 来估计输出
解的满意度,我们利用如下的概率统计方法有如下的近似结果

式中 为城市数目,第一式适合于较大的 ,第二式适合于较小的

其中
为了检验满意度近似估计公式 的性能,
表 中列出城市数
时,利用穷举法得到所有可能路径,任意抽出 条 路 径 ,然 后 列 出 该 路 径 的 长 度 ,按
式( 计算出真实满意度 ( ),按 式 )计算出近似满意度 ( )。
表 时近似满意度与真实满意度的比较
由表 可以看出,在城市数目相当少即 下,近似满意度和真实满意度
之差也不超过 左右,说明这种估值在实际中是可以使用的。
分区解法
我们可以设想,如果将前面所述的 个城市按位置靠近原则分成三个 城市
区分别求解 ,而后将三个区所得到的最短路径合理地连成一个闭合路径,将会极
大地节省计算时间。在前述 条/ 的计算机计算下,只需约 /

那么,在什么条件下,这种分区求解 是容许的呢?下面的定理显然是成立的。
[定理 ] 设 个城市 分成 个区 ,


, ,

则当
时,这种分区计算后再组合起来的求解满意度方法是合理的。
)式表明,各区域间的距离和区内城市间的距离相比较起来必须足够大,
才不致发生不同区内城市需互联的可能性。但是,在许多实际城市分布情形下,这个
条件往往较难满足。
研究表明,即使条件
( 没有满足,我们用分区求解 并计算其满意度,
所得出的结果仍然是相当好的。
图 的( )的四个子图中,用不同图形表示三个 城市
区的位置 ,对每个区随机选出两条路径并计算其满意度 ,而后按
( 式
计算其组 合满意度 ( ,并且和 个城市按( 式所得到的近似满意度
)作比较,其结果如表 所 示。
表 组合满意度和近似满意度的比较
由表 可以看出,除了图 )
中三个 城市区混杂在一起的一种情
况外,用组合满意度公式分区求解 的总满意度,是能很好地和近似满意度相接近
的。

图 个城市时分区求解
求解 的动态满意度
为了检验 求解 输出的动态满意度性能,图 中表示出满意解数
目、动态满意度随时间变化的曲线。

图 满意解数目( 、动态满意度( )变化曲线


从图中可以看出,随着横向时间 的增加,不低于前面解平均值的满意解数目呈波
动状衰减至 ,相应的动态满意度曲线则逐渐趋近于
在人类大脑智能信息活动求满意解而不苛求最佳精确解以节省大量时间从而保证
实时性的启发下,本节重点探讨了模糊神经计算系统的满意解输出原理,建立了表征
静态满意度,动态满意度的若干定义,导出了计算平均满意度和组合满意度的运算公
式,并用求解 为实例,阐明满意解输出原理的具体应用方法。
今后进一步要进行的工作,是根据待解决的具体问题在精度和实时性方面的要求,
确定出合适的满意度数值。一旦 输出的解达到规定的满意度标准,就立即停机
并输出结果。
参   考   
文 献

党建武 神经网络求解组合优化问题应用研究 博士学位论文,成都:西南交通大学,


徐杨 基于可能性理论的高速列车智能控制系统的研究 模糊系统与专家系统,成都:西南交通
大学出版社,
(日)野寿郎、浅居喜代治、管野道夫 模糊系统理论及应用,天津:天津大学出版社,

: ,

, , ,

, ,

贺仲雄 模糊数学及其应用 天津:天津科学技术出版社


史忠植 神经计算 北京:电子工业出版社,
施鸿宝 神经网络及其应用 西安:西安交通大学出版社,
刘宝光 非线性规划 北京:北京理工大学出版社,

罗四维 人工神经网络建造 北京:中国铁道出版社,

汪希时 我国 系列新型列车超速防护系统的研制,北方交通大学学报,第 卷 (总 第
期 ),
汪希时 型列车超速防护系统中几个重要问题的分析 铁道学报,第 卷,列车超速防护
系统专辑,
金以慧 过程控制 北京:清华大学出版社,
列车牵引计算规程解释 北京:中国铁道出版社,
陈理君、符健豪 微机模糊控制 武汉:武汉大学出版社,
罗公亮、卢强 智能控制与常规控制 自动化学报,第 卷,第 期, 年 月

, , ,

贾利民 模糊控制与决策及其在铁路自动化中的应用 铁道部科学研究院博士论文,


党建武、张润敏、靳蕃 神经网络学习算法及其在列车控制中的应用 兰州铁道学院学报,

汪希时等 列车超速防护系统研究总技术报告,北方交通大学,

李群 便携式 检测仪的设计 北方交通大学学报,


党建武 靳蕃 驼峰速度控制系统中神经网络方法的研究 铁道学报,第 卷,

党建武、靳蕃,神经网络求解 的应用研究,铁道学报,第 卷, ,

靳蕃 ,范 俊波 ,谭 永东 神经网络与神经计算机,成都:西南交通大学出版社,
党 建 武、
靳蕃 神经网络在铁道运输优化问题中的应用 西南交通大学学报, (增刊)

党 建 武,
靳蕃 一种直接控制神经元模型及在列车定位停车中的应用研究 西南交通大学学报,
第 卷
靳蕃 神经网络及其在铁道科技应用的探讨 铁道学报 第 卷, ,

内燃、电力机车空气制动机 北京:中国铁道出版社
(美)
空气制动协会 铁道制动工程设计 北京:中国铁道出版社,
张沛山 内燃机车操纵和保养 北京:中国铁道出版社,
, ,

党建武 神经计算机理论 兰州铁道学院学报


卢开澄 组合数学算法与分析,下册 北京:清华大学出版社,
郑时德,吴汉琳 铁路行车组织 北京:中国铁道出版社 ,第二版
朱松年 列车编组计划的二次 规划模型及其解法 西南交通大学学报, 年 增刊 ,
赵瑜,郑时德 铁路网络上车流组织优化与调整 北方交通大学学报, 年第 期,
曹建猷 电气化铁道供电系统 北京:中国铁道出版社
贺建闽 辐射供电方式下电气化铁道并联补偿的多目标优化设计 西南交通大学 年校庆学术
报告论文集
陈国良 并行算法、排序和选择 中国科学技术大学出版社,
张 延 光学神经网络计算机的体系结构及研究进展 神经网络理论及应用 最新进展,

汉:华中理工大学出版社,
余道衡 关于用人工神经网络解货郎问题 )
的 探 讨 中国神经网络首届学术大会论文集,
上册,
徐雷,
石青云 国外神经网络研究综述 第一届全国信号处理、神经网络学术会议论文集,

焦李成 神经网络系统理论 西安:西安电子科技大学出版社,


何明 神经计算 :原理、语言 、设计、应用 西安:西安电子科技大学出版社
范俊波,靳蕃,史燕 用联接机制网络实现图像滤波 中国神经网络首届学术大会论文集,下
册,
王其文,秦宛顺,吕景峰 运用神经网络方法建立宏观经济模型 神经网络理论及应用一 最
新进展 华中理工大学出版社
靳蕃 ,胡飞,党建武 用 网络求解 中国神经网络 学术大会论文集,下
册, ;

党建武 神经网络的组合优化原理及其在解 中 的应 用:
[硕士 学 位论 文 西南交通大学,

党建武,靳蕃 神经网络方法在解 中的应用 兰州铁道学院学报 年第 期

党建武,靳蕃 神经网络方法在解多路旅行商问题中的应用 西南交通大学学报 年第


期,

党建武,靳蕃 神经网络方示在解 中的应用 电子学报 ,


党建武,靳蕃 神经网络方法在驼峰速度控制中的应用 电子信息理论与应用 中国电子学会
首届青年学术年会论文集 西安:西北工业大学出版社
党建武,靳蕃 一种直接控制神经元模型及其在列车停车控制中的应用 西南交通大学学报
年第 期,
党建武,靳蕃 神经网络学习算法及其在列车控制中的应用 兰州铁道学院学报 年第
期,
党建武,靳蕃 神经网络方法在列车定位停车中的应用 神经网络理论及应用一 最新进展
武汉:华中理工大学出版社,
党建武,靳蕃 驼峰速度系统神经网络模型研究 铁道学报,
靳 蕃 用神经网络解决货物调运问题 神经网络,理论及应用一
胡飞, 最新进展 武汉:华
中理工大学出版社
靳 蕃 多机调度问题的一种神经网络计算方法 神经网络理论及应用一
何奉道, 最新进展
武汉:华中理工大学出版社

Das könnte Ihnen auch gefallen