一种类脑感知-学习-决策系统及方法

未命名 09-29 阅读:73 评论:0


1.本发明涉及人脑模拟领域,特别是涉及一种类脑感知-学习-决策系统及方法。


背景技术:

2.脉冲神经网络(spiking neuralnetwork,snn)是为了结合神经科学与机器学习优势而设计的生物可信性更高的新一代神经网络,在内部信号的传递和处理上与目前比较流行的神经网络与机器学习方法有着根本上的不同,即其使用离散脉冲而不是采用浮点数进行学习。脉冲信号是一种离散事件,一般用0和1进行表示,与生物神经元中的动作电位相似。通常来说,snn的输入序列和输出序列也都是脉冲序列。snn在计算性能上相比于其他人工神经网络,在处理复杂时序数据的能力、低能耗以及生物可信性方面有很大的前景,因而受到了广大的关注。snn也因此成为了新一代有望实现通用人工智能、同时能够帮助神经科学家建立脑模型探索脑机制的一种主要方法。
3.目前,研究人员在建立大脑多脑区模型,理解、模拟人脑行为和决策功能的方法主要包括两种方法,自下而上的方法和自上而下的方法。自上而下的方法通常侧重于对大脑的各种属性特征进行详细建模。自下而上的方法则侧重于通过再现在实验中观察到的生物对象的具体行为,却忽视了大脑决策和行为的多样性。
4.部分工作同时结合自上而下和自下而上的两种方法来建模大脑多脑区功能,通过复杂的模拟神经元动态和预定义的神经环路规则来实现多脑区协同运作。这类工作虽然粗略地构建了模拟脑系统,但是所构造的神经元连接过于复杂,而且作为模拟脑系统其能执行的任务及其可扩展性都有限。
5.现有的模拟脑系统主要存在以下问题:1)可扩展性较弱,或是只能完成特定任务,或是对新任务的扩展非常困难或是复杂;2)在多脑区协同或是脑区功能的实现之间无法兼顾,或是强调对于大脑中的真实组织结构的建模而缺乏功能性的实现,或是强调大脑的某些确切功能而未能在众多独立脑区之间形成协同调度。


技术实现要素:

6.本发明的目的是提供一种类脑感知-学习-决策系统及方法,可对人脑接收的环境信息自主进行学习决策行为,实现多个独立脑区之间的协同调度。
7.为实现上述目的,本发明提供了如下方案:
8.一种类脑感知-学习-决策系统,所述系统包括:感知皮层模块、门控模块、奖励与决策模块、工作记忆模块、认知地图构建模块和用户交互模块;
9.所述感知皮层模块用于输入至少一个感知信息,采用注意力机制或贝叶斯决策将输入的所有感知信息整合成感知脉冲序列,并将所述感知脉冲序列传输至门控模块;
10.所述门控模块用于将最新的控制信号与所述感知脉冲序列拼接,并根据拼接后的信号自动编码输出下一时刻的控制信号,进一步根据所述下一时刻的控制信号控制所述感知脉冲序列是否输出,将下一时刻的控制信号传输至认知地图构建模块和/或奖励与决策
模块;
11.所述奖励与决策模块用于在接收到所述下一时刻的控制信号后输入所述感知脉冲序列,并根据所述感知脉冲序列获得对应的奖励信号,同时根据控制信号选择相应的运行模式,进而依据奖励信号采用相应的运行模式生成决策信号;
12.所述认知地图构建模块用于在接收到所述下一时刻的控制信号后输入所述感知皮层模块中的视觉信息和里程计信息,根据视觉信息和里程计信息持续构建认知地图;
13.所述用户交互模块用于展示决策信号所代表的具体内容,和/或以图像的方式展示构建的认知地图。
14.可选地,所述感知皮层模块包括:多个神经网络和一个基于注意力的模态融合层;
15.每个神经网络用于对一个通道输入的感知信息进行特征提取和目标识别,获得一个通道的识别结果;
16.所述基于注意力的模态融合层用于对所有神经网络输出的识别结果进行模态融合,合成一个感知脉冲序列。
17.可选地,当所述感知信息为视觉信息时,所述神经网络为基于lif神经元的卷积神经网络;所述视觉信息包括动态视觉信息和静态视觉信息;
18.当所述感知信息为听觉信息时,所述神经网络为基于clif神经元的循环脉冲神经网络。
19.可选地,所述门控模块包括一个按照控制信号发放规则训练好的脉冲神经网络。
20.可选地,所述系统还包括:工作记忆模块和机动输出模块;
21.工作记忆模块与奖励与决策模块连接;所述工作记忆模块用于接收各个脑区的奖励信号和对应的决策信号,形成决策记录后进行存储;
22.机动输出模块与门控模块连接;在门控模块将下一时刻的控制信号传输至奖励与决策模块时,门控模块同时将下一时刻的控制信号传输至机动输出模块;
23.机动输出模块还分别与用户交互模块、奖励与决策模块连接;所述机动输出模块用于将奖励与决策模块生成的决策信号输出至用户交互模块中。
24.可选地,所述奖励与决策模块包括:奖励子模块和决策子模块;
25.奖励子模块与决策子模块连接,所述奖励子模块用于获得与所述感知脉冲序列中的感知信号对应的奖励信号,并将奖励信号传输至决策子模块;
26.决策子模块分别与门控模块和工作记忆模块连接,所述决策子模块用于根据控制信号选择相应的运行模式,当选择的运行模式为离线决策模式时,直接输出预设的决策信号;当选择的运行模式为在线决策模式时,在接受到奖励信号后,从工作记忆模块中读取多个决策记录,根据多个决策记录更新决策模型,进而依据奖励信号采用更新后的决策模型生成决策信号。
27.可选地,所述认知地图构建模块包括:网格细胞子模块、位置细胞子模块、视觉细胞子模块和经验地图构建子模块;
28.网格细胞子模块中的网格细胞使用连续吸引子网络建模,所述网格细胞受里程计信息驱动和激活,网格细胞的神经活动随着智能体的移动而变化,并通过与位置细胞子模块的连接驱动位置细胞的活动进而表征智能体当前的位置信息;
29.视觉细胞子模块中的视觉细胞受视觉信息驱动和激活,表征当前智能体所处环境
的视觉特征信息,并与位置信息一起传输至经验地图构建子模块;
30.经验地图构建子模块用于根据视觉特征信息和位置信息一起更新经验地图,并通过视觉信息结合更新的经验地图对累积的误差进行校正,从而持续生成认知地图,输出至用户交互模块中。
31.可选地,根据视觉特征信息和位置信息一起更新经验地图,并通过视觉信息结合更新的经验地图对累积的误差进行校正,从而持续生成认知地图,具体包括:
32.将视觉特征信息和位置信息一起作为轨迹信息与经验地图构建子模块中已存储的经验地图进行比较;
33.若轨迹信息与经验地图有重合,则将当前点的网格细胞和位置细胞发放重置为匹配到的经验的网格细胞和位置细胞发放;
34.根据重合信息迭代更新经验地图中沿途每个经验点的全局位姿;
35.在每次迭代更新经验点的全局位姿过程中,遍历经验地图中的所有经验点及连接,并根据每个连接的方向和距离对相连两经验点的全局位姿做修正,使两经验点的全局位姿差向着两经验点连接的方向收敛,生成认知地图。
36.可选地,所述用户交互模块用于提供图形交互界面,在图形交互界面上输入信号,并获得可视化执行结果;根据给定的指令序列生成相应的信号,并发送至感知皮层模块;根据对指令序列的解析执行不同的指令,展示感知皮层模块、门控模块、奖励与决策模块、工作记忆模块、认知地图构建模块中的信息和激活情况。
37.一种类脑感知-学习-决策方法,包括:
38.采用注意力机制或贝叶斯决策将获取的至少一个感知信息整合成感知脉冲序列;
39.将最新的控制信号与所述感知脉冲序列拼接,并根据拼接后的信号自动编码输出下一时刻的控制信号;
40.当所述下一时刻的控制信号控制所述感知脉冲序列输出时,根据所述感知脉冲序列获得对应的奖励信号,同时根据控制信号选择相应的运行模式,进而依据奖励信号采用相应的运行模式生成决策信号;
41.当所述下一时刻的控制信号抑制所述感知脉冲序列输出时,接收视觉信息和里程计信息,并根据视觉信息和里程计信息持续构建认知地图;
42.将所有时刻的决策信号和/或认知地图进行综合输出。
43.根据本发明提供的具体实施例,本发明公开了以下技术效果:
44.本发明公开一种类脑感知-学习-决策系统及方法,感知皮层模块对至少一个感知信息进行整合,门控模块根据整合后的感知脉冲序列和最新的控制信号自动编码输出控制信号,控制信号可用于奖励与决策模块和认知地图构建模块任务通路的选择,奖励与决策模块被选择时能够生成决策信号,认知地图构建模块被选择时能够持续构建认知地图,用户交互模块展示决策信号所代表的具体内容,和/或以图像的方式展示构建的认知地图。通过门控模块的自动编码实现了对人脑接收的环境信息自主进行学习决策行为,并且门控模块使得多个具有独立功能的脑区可以在一个系统内并行存在,实现了多个独立脑区之间的协同调度。
附图说明
45.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
46.图1为本发明实施例提供的一种类脑感知-学习-决策系统的结构示意图;
47.图2为本发明实施例提供的感知皮层模块示例图;
48.图3为本发明实施例提供的认知地图构建模块路径修正过程示例图;
49.图4为本发明实施例提供的可视化界面示例图;
50.图5为本发明实施例提供的执行认知地图构建时的模块交互方式示例图;
51.图6为本发明实施例提供的执行感知信息识别时的模块交互示例图;
52.图7为本发明实施例提供的执行在线强化学习时的模块交互示例图;
53.图8为本发明实施例提供的一种类脑感知-学习-决策方法的流程图。
具体实施方式
54.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
55.为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
56.本发明实施例提供了一种类脑感知-学习-决策系统,包括:感知皮层模块、门控模块、奖励与决策模块、工作记忆模块、认知地图构建模块和用户交互模块。
57.感知皮层模块用于输入至少一个感知信息,采用注意力机制或贝叶斯决策将输入的所有感知信息整合成感知脉冲序列,并将所述感知脉冲序列传输至门控模块。
58.门控模块用于将最新的控制信号与所述感知脉冲序列拼接,并根据拼接后的信号自动编码输出下一时刻的控制信号,进一步根据所述下一时刻的控制信号控制所述感知脉冲序列是否输出,将下一时刻的控制信号传输至认知地图构建模块和/或奖励与决策模块。
59.奖励与决策模块用于在接收到所述下一时刻的控制信号后输入所述感知脉冲序列,并根据所述感知脉冲序列获得对应的奖励信号,同时根据控制信号选择相应的运行模式,进而依据奖励信号采用相应的运行模式生成决策信号。
60.认知地图构建模块用于在接收到所述下一时刻的控制信号后输入所述感知皮层模块中的视觉信息和里程计信息,根据视觉信息和里程计信息持续构建认知地图。
61.用户交互模块用于展示决策信号所代表的具体内容,和/或以图像的方式展示构建的认知地图。
62.参见图1,对系统中每个模块进行详细阐述。
63.(1)感知皮层模块
64.感知皮层模块的输入:一个或多个通道的量化信息:如视觉信息(图片)+听觉信息(音频),输出:感知脉冲序列。感知皮层模块包括至少一个输入感知通道,模块内带有一个
能够整合多个通道信息的脉冲神经网络。该脉冲神经网络能够先处理(特征提取+目标识别)各个通道的输入信息并进行模态融合,脉冲神经网络)可以采用基于注意力机制或者贝叶斯决策的特征层面或者决策层面的融合将外部的多通道感知信息进行整合并生成整合的感知脉冲信号,用于给后续模块进行使用处理。
65.感知皮层模块会感知外部多模态信息并通过多模态脉冲神经网络整合成统一的表征,感知到的信息可以是多通道信息中的一种或多种。即,感知皮层模块包括:多个神经网络和一个基于注意力的模态融合层。每个神经网络用于对一个通道输入的感知信息进行特征提取和目标识别,获得一个通道的识别结果。所述基于注意力的模态融合层用于对所有神经网络输出的识别结果进行模态融合,合成一个感知脉冲序列。
66.图2为一种可行的、能够同时整合静态视觉、听觉、动态视觉信息中的一种或多种的网络结构。针对图2,上述的整合是先对三种(或者只有其中一种或两种)通道的信息进行规范化,再经过各自的网络初步编码成该通道的信息(即图2的前半段),然后再经过整合成统一信号(图2的后半段)。图2中被描粗线,内部没有文字的图形(包括加粗矩形和堆叠的平行四边形)代表的是神经网络执行过程中的feature maps,而被箭头贯穿,没有粗描边,且内部有文字的图形代表的是神经网络的中间层或是一些向量操作(用于从向量中提取特征),其中fc代表全连接层,pooling代表池化层,conv代表卷积层,rc代表循环连接层,是为神经网络中间层。而concat与attention分别表示拼接与注意力加权和操作。
67.在图2的网络中,处理视觉信息(包括动态视觉和静态视觉),采用的是基于lif神经元的卷积神经网络(convolutional neural networks,cnn),而处理听觉信息则采用的是基于clif神经元的循环脉冲神经网络。其中lif神经元的动态定义如下:
[0068][0069][0070][0071][0072]
其中代表膜电位的衰减过程,g(x)表示脉冲方程,即当膜电位超过阈值v
th
时神经元会发放脉冲。l(n)表示第n层所带有的神经元的数量,w
ij
表示突触前的第j个神经元到突触后第i个神经元的突触权重。而oj∈{0,1}代表第j个神经元的输出,当值为1的时候说明产生脉冲,值为0的时候说明无事发生。表示第n层第i个神经元在时间步t+1的膜电位值,表示第n层第i个神经元获得的来自上一层神经元输入的电流值,表示恒定偏移电流值(一般在脉冲神经网络中可以忽略)。
[0073]
而c-lif神经元的动态定义如下:
[0074]
[0075][0076][0077][0078][0079][0080][0081]
其中θ代表阈值电位。k、上标n和下标i表示在时间步k第n层的第i个神经元,l(n)表示第n层的神经元数量。表示神经元的输出信号,表示上一层神经元的脉冲信号的加权值。是对生物神经元在发出脉冲后产生的“不应期”的抽象表征,是神经元结合从上层神经元收到的脉冲输出的抽象,最终的表示神经元最后的膜电位。而βm、βs则是时间常数,v0为归一化参数。
[0082]
编码不同感知输入信息的网络最终会整合到一个基于注意力的模态融合层进行模态信息融合,并获得最终的编码结果,完成多通道感知信息的编码。
[0083]
(2)门控模块
[0084]
门控模块包括一个按照控制信号发放规则训练好的脉冲神经网络(与感知皮层模块中的多模态脉冲神经网络结构不同)。门控模块的输入:感知皮层模块输出的感知脉冲序列以及上一个时刻门控模块输出的控制信号,控制信号可用于控制数据通路的选择,门控模块的输出:包含感知皮层模块中的脉冲序列以及控制信号(用于任务通路的选择)。
[0085]
门控模块相当于整个类脑感知-决策-模拟系统的中枢,主要负责生成控制信号并传递由感知皮层模块传递而来的感知信息,用于控制除了感知皮层模块以外所有模块的输入脉冲,从而控制整个系统各个模块的运行和数据流在不同模块之间的传递,来让任务能够有条不紊地进行。
[0086]
实际执行中,该模块会搭载训练好的模型,持续接受感知信号并将其与彼时在系统内的脉冲控制信号拼接,经过网络处理以后产生新的脉冲控制信号并传输至下游的模块。此处的网络是指“脉冲神经网络(spiking neural network),该类神经网络对于脉冲信号(输入向量)的处理可以直观地视作对输入信号进行某种非线性变换,在这里处理结果就是输入感知信号与系统内的脉冲控制信号,输出一组新的脉冲控制信号。具体来说,脉冲神经网络由若干层神经元组成,神经元的层与层之间通过突触连接,突触内部具有权重,会对上层传来的输入信号进行加权求和并移交给下一层,每层神经元则会接收突触传来的信号并逐渐累积膜电位直到达到阈值电位以后则会发放脉冲,实现一个非线性过程。
[0087]
门控模块持续接收感知皮层模块传递来的感知脉冲序列中的感知脉冲信号,与同一时间在系统内自身发放的脉冲控制信号进行拼接以后作为内置的脉冲神经网络的输入,拼接方法可以是信号向量直接拼接或者是信号向量相加。该内置脉冲神经网络能在接收输入后根据事前学习的规则自动编码输出新的控制信号,用于实时控制其它模块的活动,并
处理感知信号(控制感知脉冲信号的向下传播),传递给后续的其他模块;输出的控制信号也会立刻对该模块当前的输出产生影响(阻断脉冲序列的继续传播),在有些情境下,有些脉冲序列会接着往后传递,有些脉冲序列不会被传递(具体规则是事先定好并且脉冲神经网络会根据这个规则执行),比如说当感知皮层模块传递来的信号表征了信号“9”时,说明下一个传递来的信号应该表征指令的类型,此时下一个信号无论表征了什么都不会往后面传递。
[0088]
(3)奖励与决策模块
[0089]
奖励与决策模块接收由门控模块加工过的感知脉冲信号(脉冲序列)和控制信号(任务通路的选择)。该模块内带有一个奖励子模块和一个决策子模块,决策子模块内置用于强化学习的脉冲神经网络模型。
[0090]
奖励子模块根据感知信号(输入)获得对应的奖励信号(输出)(即粗略的匹配关系),奖励信号可以是正或负信号,并传递给决策子模块用于帮助决策子模块学习合理的决策方式。
[0091]
决策子模块(与感知皮层模块中脉冲神经网络的结构完全不同,输入:奖励信号和控制信号,输出:决策信号(用于表征需要采取哪一种行动的向量))则用于输出决策信号。决策子模块根据控制信号的不同有两种运行模式:在线决策和离线决策,在离线决策的情况下,决策子模块可以直接继续输出决策信号而不需要根据决策记录和奖励信号更新自身的决策策略(即网络的参数不需要更新)。而在在线决策模式下,当接受到奖励信号时,该子模块会将奖励信号和上一次决策信息存储在工作记忆模块(一次只存储对应的一条决策记录)中。接受完奖励信号后,决策子模块便从工作记忆模块中读取一定数量的决策记录,根据决策记录中所记录的决策条件、行动、决策结果学习倾向于获得最好奖励信号的决策策略(更新脉冲神经网络模型),并在学习完成后生成新的决策信号。比如说,考虑一个简单的决策任务,给定数字与其奖励值的关系为数字“0”“1”“2”对应奖励值0,数字“3”对应奖励值3,那么在相同条件下,该决策子系统在多次决策以后会更倾向于做出决策“3”。
[0092]
(4)工作记忆模块
[0093]
工作记忆模块是一种抽象自海马体的长短期记忆的模块,具有一定容量上限,会按照给定的指标进行随机记忆存取,并可以通过巩固将短期记忆固化为长期记忆。工作记忆模块作为信息存储模块,用于接收其他脑区传来的信息(输入)并进行记忆存储和唤醒(输出),存储容量固定,当容量满时会按照重要性覆盖掉并不关键的信息。当一些模块如奖励与决策模块需要从中唤醒记忆时,会随机读取一定数量的存储的记忆并交给奖励与决策模块。
[0094]
(5)机动输出模块
[0095]
机动模块:输入为奖励与决策模块产生的决策信号,输出到用户交互模块中(在用户交互模块中表现为展示决策信号代表的具体内容),同时也可以引入额外的模型经过加工(根据外接输出设备的输入要求而定,比如延伸等,现在的默认情况就是不加工。)以后并将决策信号输出到可能存在的外接输出设备中。
[0096]
机动模块持续接受奖励与决策模块中产生的决策信号,并将决策信号输出到可能的外界接口中,同时可能对感知信息的输入产生影响。
[0097]
(6)认知地图构建模块
[0098]
认知地图构建模块的输入信号为门控模块中的传来的控制信号,以及从外界输入的独立的视觉信息、里程计信息,该模块内包含有网格细胞子模块、位置细胞子模块、视觉细胞子模块和经验地图构建子模块,网格细胞是用简化的can(连续吸引子网络,continuous attractor network)进行建模的,该细胞的活动受里程计信息(角度、距离等)驱动和激活,其神经活动会随着智能体的移动而变化,以实现对自身运动的路径积分,并通过与位置细胞的连接驱动位置细胞的活动进而表征智能体当前的位置信息;视觉细胞受视觉信息驱动和激活,表征当前智能体所处环境的视觉特征信息,并与位置信息一起更新经验地图,除此之外还需通过视觉信息结合经验地图对累积的误差进行校正,从而持续构建认知地图并输出到用户交互模块中(具体输出的内容为可以描述一个认知地图的一系列实数点,而用户交互模块则会将它们用图像的方式输出);
[0099]
其中,对累积的误差进行校正的具体过程为:在每次迭代更新路径积分信息的过程中,遍历经验地图中的所有经验点及其连接,根据每个连接的方向和距离对相连两经验点的全局位姿做修正,使两经验点在全局位姿差向着两经验点连接的方向收敛,误差收敛大小取决于连接的长度。由于误差是在最新的经验点引入的,因此该过程需要迭代进行,以保证误差能够分散到地图中所有的地点上。
[0100]
认知地图构建模块中基于图像序列与里程计信息进行认知地图构建的方法,包括以下步骤:
[0101]
1)接收控制信号,根据控制信号控制运行与否。
[0102]
2)接收外部信息,从外部视觉输入接口中获得视觉信息,并接收里程计的输入,将这些信息递交给网格细胞子模块、位置细胞子模块与视觉细胞子模块。
[0103]
3)模拟神经活动,认知地图构建模块的网格细胞子模块采用的是简化版can(连续吸引子网络continuous attractor network)模型进行建模,该细胞活动会受用步骤2)中的里程计输入驱动和激活,其神经活动会随着智能体的移动而变化,以实现对自身运动的路径积分。而由于单个网格细胞的表征可能会存在歧义,因此采用多个网格细胞进行联合驱动,并通过与位置细胞的连接驱动位置细胞的活动,进而表征智能体当前的位置信息。
[0104]
4)根据步骤3)的结果获得位置信息,与输入的视觉信息与已生成的经验地图进行校正。
[0105]
5)校正路径,若在步骤4)中发现当前的经历与过去的视觉经历有重合,则根据重合内容迭代更新所有沿途路径积分的信息,修正路径积分过程中产生的误差。修正过程会根据经验设置持续若干次,来防止出现修正强度过高或是生成的认知地图未收敛的情况,如图2为一个路径修正过程的案例。
[0106]
综合步骤4)和步骤5)的结果,构筑认知地图,并循环执行步骤2),直至传来的控制信号发生改变。
[0107]
如图3所示的执行认知地图构建时的模块交互示例,箭头方向代表时间。每张图的横纵坐标轴代表全局地图的位置(x,y),智能体从(0,0)点出发,实线代表移动过的轨迹,圆点代表智能体当前位置。前三张图表示随着时间推移,路径积分误差不断累积,导致智能体实际已经回到当前位置时而经验地图中的全局坐标并未回到(0,0);第4张图表示智能体通过视觉信息匹配到了之前经验中的视觉信息,并修正当前位置;第5张图表示经过迭代更新轨迹的路径积分信息,修正了经验地图中所有经验点的位置;第6-7张图表示智能体在移动
过程中,由于每次都可以与之前的经验匹配成功,所以轨迹与之前移动的轨迹几乎重合。
[0108]
(7)用户交互模块
[0109]
用户交互模块:用于帮助用户调控感知数据流(即可以控制对感知皮层模块的外界信号输入、通道数量等,输入为用户给定的指令(符号),并向感知皮层模块输出与符号对应的各种通道信息(即图片、声音等)),激发感知皮层模块的激活进而控制这个系统,并向用户宏观地展示系统中各个模块的输出及其各种状态参数(即控制信号对它们的影响的图形化显示)。
[0110]
用户交互模块包括以下功能:1)提供图形交互界面,用户控制输入信号,并获得可视化执行结果;2)根据用户给定的指令序列生成相应的信号,交由感知皮层模块和门控模块根据给定信号开始执行指令,协同发送控制脉冲激发各个其他模块;3)根据对指令序列的解析执行不同的指令,展示各模块及其子模块中的相关信息和激活情况。
[0111]
本发明实施例的类脑感知-学习-决策系统的可视化界面如图4所示。图4中,orbitofrontal表示额皮质,prefrontal表示前额叶,motorcortex表示运动皮层,entorhinal表示内嗅皮层,da表示奖励,hippocampus表示海马,output表示输出。
[0112]
示例性的,本发明能实现的四种任务分别是:
[0113]
分开的指令(90):认知地图构建——接收外界输入接口传来的图片序列与里程计信息,激发认知地图构建模块中的模拟网格细胞和位置细胞,进行认知地图构建,并将重建出来的路径信息在用户交互模块中输出。当认知地图构建正在进行中时,再次获得指令(90)时认知地图构建过程会终止,其他指令则不会干扰已开启的认知地图构建过程。
[0114]
指令(91):感知信息识别——输入一个随机符号的声音/图片/神经形态图片,系统输出感知到的符号内容,该过程可以持续进行直至切换至别的任务(也就是感知皮层模块再次感知到“9”时)。
[0115]
指令(92):离线强化学习——基于给定的决策网络持续进行预设定的决策行为(比如离线的平衡杆游戏等),当再次接收到(92)时强化学习任务会结束,接收到(93)时会切换至在线强化学习任务,而其他指令则不会对其产生干扰。
[0116]
指令(93):在线强化学习——(92)指令输入时,模块(3)才会开始工作,因此从最初开始执行该任务需要的指令是(92)(93),该任务会在切换任务时停止(即感知皮层模块再次感知到“9”时,再次进入该任务需要再输入(92)(93)。该任务下系统会在若干数字中决定一个预期价值最大的数字,并接收奖励调整决策模式。对预期价值的判断会随着奖励值反馈而持续发生变化。
[0117]
在每个任务前输入特定图片/声音序列便可以控制不同任务的执行。此外,该系统并不是面向特定任务的,且是一个可以持续、不间断的系统,因此不仅可以在不同任务间采用相同的模块,还可以在使用模块不冲突的情况下同时进行,也可以通过扩展新的模块来执行新的任务。通过内载网络模型地迭代,该系统可以执行更复杂地决策并逐渐接近于人脑的多脑区并行。
[0118]
参照图5可以看到认知地图构建过程中的相关脑区的图示,图5的双箭头上方部分为接收到相关感知信号的门控模块编码的控制信号的变化。可以看到,最初门控模块编码的信号最初都是抑制信号。当门控模块接收到来自感知皮层模块用脉冲表征的信息数字“9”时,门控模块激活自身,但是此时认知地图构建模块的输入仍然被控制信号抑制,因此
此时无法接收输入进行认知地图构建。随后门控模块接收到来自感知皮层模块用脉冲表征的信息是数字“0”时,门控模块激活往认知地图构建模块发送的控制信号,而抑制自身,从而认知地图构建模块开始进行认知地图构建:有微量误差的自身移动信息(角度/距离)输入到网格细胞中驱动模拟网格细胞的活动,同时通过赫布学习规则调整模拟位置细胞与网格细胞之间的连接强度,并由此连接驱动模拟位置细胞进行路径积分。
[0119]
同时接收持续的视觉输入,跟着位置细胞的活动表现一起存储在认知地图构建,用于在视觉检测到路径闭包时对路径积分中累积的误差进行修正。直到皮层感知模块再次感知到相同的信号序列(或者感知到需要触发冲突模块的感知信息)为止。
[0120]
图6展示了该系统在进行感知识别任务时的各模块表现,自上而下分别是输入“9”,“1”,“4”,“1”四种感知信号(且实际上组成通道不同),并展示了相关脑区的信号传递和接受。可以看到感知信号模块综合所有相关模态的信息并输出,并不需要每个可感知的模态都有相应的输入。并且任务能在没有被新的指令叫停之前一直执行。
[0121]
图7显示该系统在进行在线强化学习任务时的各模块表现,其中忽略了前面开启通路的几个感知信号输入,最初模型的决策是随机的,然后每次决策后,都会再接收感知信号。奖励生成子模块生成相应的奖励值,决策子模块在工作记忆模块中存储决策记录,再从工作记忆模块中唤醒若干次决策记录进行决策策略学习,最终会慢慢学会进行潜在奖励更大的决策。
[0122]
以上两种情况下,脑区没有干涉的认知地图构建任务仍然可以同时进行。
[0123]
总的来说,类脑的感知-学习-决策系统是包括了感知皮层模块、门控模块、奖励与决策模块、机动模块、认知地图构建模块为内核的模拟脑决策模型。它用感知皮层模块接收周围的感知信号,并传递给门控模块进行控制编码从而抑制/激活若干个功能独立的脑区,实现单模型,多任务。
[0124]
神经网络作为一个热门学科,在各个领域都已经有了相应的成果,但是在人脑行为模拟上面进展缓慢。由于人脑行为与人类行为的复杂性和对应关系,不同功能网络的结构差异,导致构造出来的大脑模拟系统往往存在延展性差,执行逻辑错综复杂,生物学合理性低的问题。
[0125]
本发明有益的效果是构造了一个可行的类脑模拟系统以及相应的框架,在实现类脑的感知、决策、学习,能同时进行多种任务的基础上,又保留了多脑区中不同神经环路实现特定功能的特点。
[0126]
本发明只需要通过对门控模块内部的网络针对新任务的执行顺序重新训练就可以扩展新的任务,解决了现有的模拟脑系统存在的第一个问题;由于门控模块的存在,多个具有独立功能的脑区可以在一个系统内并行存在,而门控模块可以根据感知模块和系统内的状态而执行不同的功能,实现各个脑区功能与多脑区系统的协同,解决了现有的模拟脑系统存在的第二个问题。
[0127]
本发明实施例还提供了一种类脑感知-学习-决策方法,如图8所示,包括:
[0128]
步骤1:采用注意力机制或贝叶斯决策将获取的至少一个感知信息整合成感知脉冲序列。
[0129]
步骤2:将最新的控制信号与所述感知脉冲序列拼接,并根据拼接后的信号自动编码输出下一时刻的控制信号。
[0130]
步骤3:当所述下一时刻的控制信号控制所述感知脉冲序列输出时,根据所述感知脉冲序列获得对应的奖励信号,同时根据控制信号选择相应的运行模式,进而依据奖励信号采用相应的运行模式生成决策信号。
[0131]
步骤4:当所述下一时刻的控制信号抑制所述感知脉冲序列输出时,接收视觉信息和里程计信息,并根据视觉信息和里程计信息持续构建认知地图。
[0132]
步骤5:将所有时刻的决策信号和/或认知地图进行综合输出。
[0133]
对于实施例公开的方法而言,由于其与实施例公开的系统相对应,所以描述的比较简单,相关之处参见系统部分说明即可。
[0134]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
[0135]
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

技术特征:
1.一种类脑感知-学习-决策系统,其特征在于,所述系统包括:感知皮层模块、门控模块、奖励与决策模块、工作记忆模块、认知地图构建模块和用户交互模块;所述感知皮层模块用于输入至少一个感知信息,采用注意力机制或贝叶斯决策将输入的所有感知信息整合成感知脉冲序列,并将所述感知脉冲序列传输至门控模块;所述门控模块用于将最新的控制信号与所述感知脉冲序列拼接,并根据拼接后的信号自动编码输出下一时刻的控制信号,进一步根据所述下一时刻的控制信号控制所述感知脉冲序列是否输出,将下一时刻的控制信号传输至认知地图构建模块和/或奖励与决策模块;所述奖励与决策模块用于在接收到所述下一时刻的控制信号后输入所述感知脉冲序列,并根据所述感知脉冲序列获得对应的奖励信号,同时根据控制信号选择相应的运行模式,进而依据奖励信号采用相应的运行模式生成决策信号;所述认知地图构建模块用于在接收到所述下一时刻的控制信号后输入所述感知皮层模块中的视觉信息和里程计信息,根据视觉信息和里程计信息持续构建认知地图;所述用户交互模块用于展示决策信号所代表的具体内容,和/或以图像的方式展示构建的认知地图。2.根据权利要求1所述的类脑感知-学习-决策系统,其特征在于,所述感知皮层模块包括:多个神经网络和一个基于注意力的模态融合层;每个神经网络用于对一个通道输入的感知信息进行特征提取和目标识别,获得一个通道的识别结果;所述基于注意力的模态融合层用于对所有神经网络输出的识别结果进行模态融合,合成一个感知脉冲序列。3.根据权利要求2所述的类脑感知-学习-决策系统,其特征在于,当所述感知信息为视觉信息时,所述神经网络为基于lif神经元的卷积神经网络;所述视觉信息包括动态视觉信息和静态视觉信息;当所述感知信息为听觉信息时,所述神经网络为基于clif神经元的循环脉冲神经网络。4.根据权利要求1所述的类脑感知-学习-决策系统,其特征在于,所述门控模块包括一个按照控制信号发放规则训练好的脉冲神经网络。5.根据权利要求1所述的类脑感知-学习-决策系统,其特征在于,所述系统还包括:工作记忆模块和机动输出模块;工作记忆模块与奖励与决策模块连接;所述工作记忆模块用于接收各个脑区的奖励信号和对应的决策信号,形成决策记录后进行存储;机动输出模块与门控模块连接;在门控模块将下一时刻的控制信号传输至奖励与决策模块时,门控模块同时将下一时刻的控制信号传输至机动输出模块;机动输出模块还分别与用户交互模块、奖励与决策模块连接;所述机动输出模块用于将奖励与决策模块生成的决策信号输出至用户交互模块中。6.根据权利要求5所述的类脑感知-学习-决策系统,其特征在于,所述奖励与决策模块包括:奖励子模块和决策子模块;奖励子模块与决策子模块连接,所述奖励子模块用于获得与所述感知脉冲序列中的感知信号对应的奖励信号,并将奖励信号传输至决策子模块;
决策子模块分别与门控模块和工作记忆模块连接,所述决策子模块用于根据控制信号选择相应的运行模式,当选择的运行模式为离线决策模式时,直接输出预设的决策信号;当选择的运行模式为在线决策模式时,在接受到奖励信号后,从工作记忆模块中读取多个决策记录,根据多个决策记录更新决策模型,进而依据奖励信号采用更新后的决策模型生成决策信号。7.根据权利要求1所述的类脑感知-学习-决策系统,其特征在于,所述认知地图构建模块包括:网格细胞子模块、位置细胞子模块、视觉细胞子模块和经验地图构建子模块;网格细胞子模块中的网格细胞使用连续吸引子网络建模,所述网格细胞受里程计信息驱动和激活,网格细胞的神经活动随着智能体的移动而变化,并通过与位置细胞子模块的连接驱动位置细胞的活动进而表征智能体当前的位置信息;视觉细胞子模块中的视觉细胞受视觉信息驱动和激活,表征当前智能体所处环境的视觉特征信息,并与位置信息一起传输至经验地图构建子模块;经验地图构建子模块用于根据视觉特征信息和位置信息一起更新经验地图,并通过视觉信息结合更新的经验地图对累积的误差进行校正,从而持续生成认知地图,输出至用户交互模块中。8.根据权利要求7所述的类脑感知-学习-决策系统,其特征在于,根据视觉特征信息和位置信息一起更新经验地图,并通过视觉信息结合更新的经验地图对累积的误差进行校正,从而持续生成认知地图,具体包括:将视觉特征信息和位置信息一起作为轨迹信息与经验地图构建子模块中已存储的经验地图进行比较;若轨迹信息与经验地图有重合,则将当前点的网格细胞和位置细胞发放重置为匹配到的经验的网格细胞和位置细胞发放;根据重合信息迭代更新经验地图中沿途每个经验点的全局位姿;在每次迭代更新经验点的全局位姿过程中,遍历经验地图中的所有经验点及连接,并根据每个连接的方向和距离对相连两经验点的全局位姿做修正,使两经验点的全局位姿差向着两经验点连接的方向收敛,生成认知地图。9.根据权利要求1所述的类脑感知-学习-决策系统,其特征在于,所述用户交互模块用于提供图形交互界面,在图形交互界面上输入信号,并获得可视化执行结果;根据给定的指令序列生成相应的信号,并发送至感知皮层模块;根据对指令序列的解析执行不同的指令,展示感知皮层模块、门控模块、奖励与决策模块、工作记忆模块、认知地图构建模块中的信息和激活情况。10.一种类脑感知-学习-决策方法,其特征在于,包括:采用注意力机制或贝叶斯决策将获取的至少一个感知信息整合成感知脉冲序列;将最新的控制信号与所述感知脉冲序列拼接,并根据拼接后的信号自动编码输出下一时刻的控制信号;当所述下一时刻的控制信号控制所述感知脉冲序列输出时,根据所述感知脉冲序列获得对应的奖励信号,同时根据控制信号选择相应的运行模式,进而依据奖励信号采用相应的运行模式生成决策信号;当所述下一时刻的控制信号抑制所述感知脉冲序列输出时,接收视觉信息和里程计信
息,并根据视觉信息和里程计信息持续构建认知地图;将所有时刻的决策信号和/或认知地图进行综合输出。

技术总结
本发明公开一种类脑感知-学习-决策系统及方法,属于人脑模拟领域。感知皮层模块对至少一个感知信息进行整合,门控模块根据整合后的感知脉冲序列和最新的控制信号自动编码输出控制信号,控制信号可用于奖励与决策模块和认知地图构建模块任务通路的选择,奖励与决策模块被选择时能够生成决策信号,认知地图构建模块被选择时能够持续构建认知地图,用户交互模块展示决策信号所代表的具体内容,和/或以图像的方式展示构建的认知地图。通过门控模块的自动编码实现了对人脑接收的环境信息自主进行学习决策行为,并且门控模块使得多个具有独立功能的脑区可以在一个系统内并行存在,实现了多个独立脑区之间的协同调度。现了多个独立脑区之间的协同调度。现了多个独立脑区之间的协同调度。


技术研发人员:唐华锦 倪文遥 申江荣 姜润皓 柴清澳 王自铭
受保护的技术使用者:浙江大学
技术研发日:2023.06.26
技术公布日:2023/9/23
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐