识别与可执行规则相对应的监管数据的制作方法

未命名 08-03 阅读:73 评论:0


1.本发明总体上涉及计算系统,更具体地涉及用于使用计算处理器识别监管数据并将其与可执行规则关联的各种实施例。


背景技术:

2.计算系统广泛见于工作场所、家庭或学校。计算机系统可以包括数据存储系统或磁盘存储系统,用以处理和存储数据。每天必须处理大量数据,目前的趋势表明,在可预见的未来,这些数据量将继续不断增加。由于最近信息技术的进步和互联网的日益普及,大量信息现在以数字形式提供。这种信息的可用性提供了许多机会。数码和在线信息是商业情报的一个有利来源,对于实体在高度竞争的环境中的生存和适应性至关重要。此外,使用计算系统和在线数据的许多企业和组织必须确保操作、实践和/或程序符合一般商业协议、公司合规性和/或法规、政策或要求。


技术实现要素:

3.提供了用于通过处理器识别监管数据并将其与计算环境中的可执行规则关联的各种实施例。在一个实施例中,仅作为示例,提供了一种用于由处理器识别与可执行规则相关的监管数据的方法。可以将规则与从描述规则的至少一部分的政策文档(policy document)中提取的一个或多个文本段落相关联。
4.在其他实施例中,可以将从法律、政策、法规或其组合中提取的语义数据与来自一个或多个数据源的描述法律、政策和法规或其组合的至少一部分的文本数据相关联。
附图说明
5.为了易于理解本发明的优点,将参考附图中所示的具体实施例,对上文简要描述的本发明进行更具体的描述。应理解这些附图仅描述了本发明的典型实施例,因此不应被视为对其范围的限制,将通过使用附图以附加的具体性和细节来描述和解释本发明,其中:
6.图1是描述根据本发明实施例的示例性云计算节点的框图。
7.图2是描述根据本发明的实施例的示例性云计算环境的附加框图。
8.图3是描述根据本发明的实施例的抽象模型层的附加框图。
9.图4是描述本发明各个方面之间的示例性功能关系的附加框图。
10.图5是描述用于识别监管数据并将其与可执行规则相关联的示例性操作的框图,其中可以实现本发明的各个方面。
11.图6是描述用于识别监管数据并将其与可执行规则相关联的示例性操作和工作流的框图,其中可以实现本发明的各个方面。
12.图7是描述用于识别监管数据并将其与可执行规则相关联的示例性知识图的图,在该可执行规则中可以实现本发明的各个方面。
13.图8是描述使用前向和后向翻译来识别监管数据并将其与可执行规则相关联的示
例性操作的示意图,其中可以实现本发明的各个方面。
14.图9是描述了用于通过处理器识别监管数据并将其与可执行规则关联的示例性方法的流程图,在该方法中也可以实现本发明的各个方面。
具体实施方式
15.随着电子信息量的不断增加,对复杂信息访问系统的需求也在增长。数字或“在线”数据通过实时全球计算机网络变得越来越可访问。这些数据可反映科学、法律、教育、金融、旅游、购物和休闲活动、医疗保健等话题的许多方面。许多数据密集型应用需要从数据源中提取信息。信息的提取可以通过知识生成过程来获得,知识生成过程可包括不同源之间的初始数据收集、数据归一化和聚合、以及最终数据提取。
16.此外,实体(如企业、政府、组织、学术机构等)可能会受到与实体相关的某些流程、政策、指南、规则、法律和/或法规的约束。遵守这些流程、政策、指南、规则、法律和/或法规对于确保公司的完善(integrity)至关重要,同时也避免违规、罚款或法律处罚。例如,随着新法规的不断涌现,合规管理对组织来说是一件至为重要的事情。在一个方面,合规是指实体遵守与其目的或业务相关的法律、法规、指南和规范。这些企业/实体通常需要具有各种技能和专业知识的人员交互(例如,主题专家(sme)),以支持整个企业的合规。
17.此外,为了帮助合规,政府和企业正在以编码规则的形式自动化政策(例如,检查公民是否有资格享受他们可能有权享受的特定福利)。例如,“规则即代码”(rac)是一项倡议,其设想一种机器可消费形式的“规则(例如法律和法规)的正式版本”,其允许计算机系统以一致的方式理解和执行规则。它构成构建数字政府的广泛运动的一部分,并引起了公共部门的广泛兴趣。经合组织(oecd)最近的一份关于规则即代码的报告[3]确定了解决这一问题的方法,例如将立法起草者、政策分析人员和软件开发人员召集在一起,共同制定政策和规则的机器可消费版本,或使用人工智能和自动化来缩短从政策到代码的路径。
[0018]
自动化政策的组织有责任处理从立法到政策、到业务需求、到可执行规则和代码的“意图翻译”错误,但通常情况下,实现(可执行规则/代码)与其起源的原始政策文本之间的链接是缺失的。因此,鉴于大量的文本数据和监管文档的变化速度,本文提供了各种实施例来识别与可执行规则相关的监管数据。可以将从法律、政策、法规或其组合中提取的语义数据与来自一个或多个数据源的描述法律、政策和法规的至少一部分的文本数据相关联。
[0019]
在一些实施方式中,本发明提供了将现有政策规则(代码)与政策和立法文本中的特定章节/段落对准和关联。本发明还提供了规则到文本之间的映射,解决立法领域中的多翻译问题,并确保以下事项。
[0020]
1)本发明提供了要学习和理解的规则和对其他规则的依赖性,并且可以通过机器学习操作进行校正。应当指出,一个章节/段落可以转化为多条规则,一条规则可能会依赖于政策中其他章节的、甚至可能跨政策手册和/或立法法案的其他规则。2)本发明提供支持和检测立法错误,例如代码中缺少的政策部分。3)本发明提供支持规则、维护规则和在政策中引入变化时更新规则。特别是提高更新的效率和速度,使资格规则(eligibility rules)准确地反映最新的政策意图。4)本发明提供支持和识别规则层次结构、重复的规则和属性或定义。5)本发明通过识别当引入新政策时哪些规则已经存在来提供支持和可重用性。也就是说,与新政策文本的部分内容相似—即定义相同或存在细微差异—的现有规则,,例
如,在两个州之间实施的居住规则或关于现金援助和儿童福利实施的不同政策可能非常相似。5)本发明提供将规则与文本关联和对准,也支持生成用于支持实体注释或规则提取的机器学习操作的训练数据。
[0021]
因此,本发明提供识别与计算环境中的可执行规则相关的监管数据。在一个方面,可以从来自一个或多个数据源的一个或多个文本数据段中识别、提取实体有义务履行的立法、法律、政策、法规或其组合。可以将从法律、政策、法规或其组合中提取的语义数据可以与来自一个或多个数据源的描述法律、政策和法规的至少一部分的文本数据相关联。在一个方面,“义务”可代表法律要求(包括法律、政策、法规、强制执行、责任或其组合)。换言之,义务目标/内容提取组件可以执行感知器算法来提取实体类。应当指出,“义务”代表法律要求(包括法律、政策、法规、强制执行、责任或其组合)。
[0022]
在一个方面,可以使用一个或多个自然语言处理(nlp)和/或命名实体识别(ner)操作来提取一个或多个实体。ner操作可以是信息提取的子任务,其可以定位文本中的命名实体,将其分类为预定义的类别,例如,个人、实体、组织和位置。具有义务类内容的语句集合,可以用提取操作和应用于语句中的语义角色的内容的一个或多个过滤操作来确定(例如,计算)。可以用机器学习(ml)分类器来确定所摄取的文本数据的选定段/条款是否是义务/要求。
[0023]
在一个方面,如本文所用,术语“法规”(regulation)可以是用自然语言编写的文档,包含立法、法律、政策、法规、监管目标、实体和要求的集合,其具体说明与企业的期望结构和行为相关的义务、义务目标、约束和偏好。法规可以指定其适用的领域要素。例如,法规可以是法律(例如,卫生保健法、环境保护法、航空法等)、标准化文档、合同等。此外,如本文所用,感兴趣的实体类型包括例如“定义”,即定义/代表利益相关者或特定设备的条款/文本段。也就是说,“定义”可以是法律文本中的条款,定义受文本(例如,法律文本,例如特定管辖区的规则/法律/政策)管辖的特定行为体、实体和/或利益相关者。定义目标可以是定义实体,定义内容可以是描述目标的条款/文本段。此外,“义务”可以是代表法律要求的条款。义务目标是特定条款的立法目标。义务内容可能是适用于目标的要求。
[0024]
此外,术语“领域”(domain)是个具有普通含义的术语。此外,术语“领域”可包括某系统的专业领域或与特定一个或主题或主题相关的材料、信息、内容和/或其他资源的集合。例如,领域可以指监管、法律、政策、政府、金融、医疗保健、广告、商业、科学、工业、教育、医疗、生物医学特定信息,或由主题专家定义的其他领域或信息。领域可以指与任何特定主题或选定主题的组合相关的信息。
[0025]
术语“本体”(ontology)也是个具有普通含义的术语。例如,本体可以包括与感兴趣的领域相关的信息或内容或特定类别或概念的内容。内容可以是任何可搜索的信息,例如,分布在计算机可访问的网络(如因特网)上的信息。概念或话题(topic)通常可以被分类为多个内容概念或话题中的任何一个,而内容概念或话题还可以包括一个或多个子概念和/或一个或多个子话题。概念或话题的示例可以包括但不限于合规信息、政策信息、法律信息、政府信息、商业信息、教育信息或任何其他信息群组。可以通过与源同步的信息一起持续地对本体进行更新,将来自源的信息作为模型、模型属性或本体内模型之间的关联添加到本体中。
[0026]
应注意的是,如本文所述,术语“智能的”(intelligent)(或“认知”(cognition))
可与有意识的智力活动有关、是有意识的智能活动或涉及有意识的智能活动,有意识的智能活动例如为思维、推理或记忆,可以用机器学习来执行。在另一个方面,智能的或“智能”可以是进行认知的心理过程,包括意识、感知、推理和判断等方面。机器学习系统可以使用人工推理来解释来自一个或多个数据源(例如,基于传感器的设备或其他计算系统)的数据,并学习可以通过机器学习确定和/或导出的话题、概念、判断推理知识和/或过程。
[0027]
一般而言,如本文所用,“优化”可指和/或定义为“最大化”、“最小化”、“最有可能”、“最佳”或实现一个或多个特定目标、目的或意图。优化还可以指最大化用户的利益(例如,最大化经过训练的机器学习流水线/模型的利益)。优化也可以指最有效地或功能性地利用形势、机会或资源。
[0028]
此外,优化未必是指最佳解决方案或结果,而可以指对于特定应用来说例如“足够好”或“最有可能”的解决方案或效果。在一些实现中,目标是建议预处理操作(“预处理器”)和/或机器学习模型/机器学习流水线的“最佳”组合,但可能有多种因素会导致预处理操作(“预处理器”)和(或)机器学习模型的组合的产生更好的结果的替代性建议。这里,术语“优化”可指此类基于最小值(或最大值,取决于优化问题中考虑的参数)的结果。在另一方面,术语“优化”和/或“进行优化”可指为了实现改进的结果—例如降低执行成本或提高资源利用率—而执行的操作,无论是否实际实现了最佳结果。类似地,术语“优化”可指用于执行此类改进操作的组件,术语“最优化”可用于描述此类改进操作的结果。
[0029]
应当提前理解,虽然本公开包括关于云计算的详细描述,但是本文给出的教导的实现不限于云计算环境。相反,本发明的实施例能够结合现在已知的或以后开发的任何其他类型的计算环境来实现。
[0030]
云计算是服务交付的模型,用于使得能够方便地、按需地网络访问可配置计算资源(例如,网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池,所述可配置计算资源可以以最小的管理努力或与所述服务的提供者的交互来快速供应和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。
[0031]
特性如下:
[0032]
按需自助服务:云消费者可以单方面地根据需要自动地提供计算能力,诸如服务器时间和网络存储,而不需要与服务的提供者的人类交互。
[0033]
广泛的网络接入:能力可通过网络获得并且通过标准机制接入,该标准机制促进异构瘦客户机平台或厚客户机平台(例如,移动电话、膝上型计算机和pda)的使用。
[0034]
资源池化:提供者的计算资源被池化以使用多租户模型来服务于多个消费者,其中不同的物理和虚拟资源根据需要动态地指派和重新指派。存在位置独立性的感觉,因为消费者通常不具有对所提供的资源的确切位置的控制或了解,但可能能够以较高抽象级别(例如,国家、州或数据中心)指定位置。
[0035]
快速弹性:能够快速和弹性地提供能力,在一些情况下自动地快速缩小和快速释放以快速放大。对于消费者而言,可用于供应的能力通常显得不受限制并且可以在任何时间以任何数量购买。
[0036]
测量的服务:云系统通过在适合于服务类型(例如,存储、处理、带宽和活动用户账户)的某个抽象级别处利用计量能力来自动控制和优化资源使用。可以监视、控制和报告资源使用,为所利用的服务的提供者和消费者提供透明度。
[0037]
服务模型如下:
[0038]
软件即服务(saas):提供给消费者的能力是使用在云基础设施上运行的提供者的应用。可通过诸如web浏览器(例如,基于web的电子邮件)之类的瘦客户端接口从不同客户端设备访问应用。消费者不管理或控制包括网络、服务器、操作系统、存储或甚至单独的应用能力的底层云基础设施,可能的例外是有限的用户特定应用配置设置。
[0039]
平台即服务(paas):提供给消费者的能力是将消费者创建的或获取的使用由提供商支持的编程语言和工具创建的应用部署到云基础设施上。消费者不管理或控制包括网络、服务器、操作系统或存储的底层云基础设施,但是对所部署的应用和可能的应用托管环境配置具有控制。
[0040]
基础设施即服务(iaas):提供给消费者的能力是提供处理、存储、网络和消费者能够部署和运行任意软件的其他基本计算资源,所述软件可以包括操作系统和应用。消费者不管理或控制底层云基础设施,而是具有对操作系统、存储、所部署的应用的控制以及对所选联网组件(例如,主机防火墙)的可能受限的控制。
[0041]
部署模型如下:
[0042]
私有云:云基础架构仅为组织运作。它可以由组织或第三方管理,并且可以存在于场所内或场所外。
[0043]
社区云:云基础架构被若干组织共享并支持共享了关注(例如,任务、安全要求、策略、和合规性考虑)的特定社区。它可以由组织或第三方管理,并且可以存在于场所内或场所外。
[0044]
公共云:使云基础架构对公众或大型行业组可用,并且由出售云服务的组织拥有。
[0045]
混合云:云基础架构是两个或更多个云(私有、社区或公共)的组合,这些云保持唯一实体但通过使数据和应用能够移植的标准化或专有技术(例如,云突发以用于云之间的负载平衡)绑定在一起。
[0046]
云计算环境是面向服务的,集中于无状态、低耦合、模块化和语义互操作性。云计算的核心是包括互连节点网络的基础设施。
[0047]
现在参考图1,显示了云计算节点示例的示意图。云计算节点10仅是合适的云计算节点的一个示例,并非是暗示对本文所述的本发明的实施例的使用范围或功能的任何限制。无论如何,云计算节点10能够被实现和/或执行上文所述的任何功能。
[0048]
在云计算节点10中,有计算机系统/服务器12,其可与许多其他通用或专用计算系统环境或配置一起运行。适用于计算机系统/服务器12的公知计算系统、环境和/或配置的示例包括但不限于个人计算机系统、服务器计算机系统、瘦客户端、厚客户端、手持或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络pc、小型计算机系统、大型计算机系统和包括任何上述系统或设备的分布式云计算环境等。
[0049]
计算机系统/服务器12可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般上下文中描述。一般而言,程序模块可包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等。计算机系统/服务器12可以在分布式云计算环境中实践,其中任务由通过通信网络链接的远程处理设备执行。在分布式云计算环境中,程序模块可以位于本地和远程计算机系统存储介质(包括存储器存储设备)中。
[0050]
如图1所示,计算机系统/服务器12以通用计算设备的形式示出。计算机系统/服务
器12的组件可包括但不限于一个或多个处理器或处理单元16、系统存储器28和将包括系统存储器28的各种系统组件耦合到处理器16的总线18。
[0051]
总线18代表若干类型的总线结构中的任何一种或多种,包括存储器总线或存储器控制器、外围总线、加速图形端口、以及使用各种总线架构中的任一种的处理器或局部总线。作为示例而非限制,这样的体系结构包括工业标准体系结构(isa)总线、微通道体系结构(mca)总线、增强型isa(eisa)总线、视频电子标准协会(vesa)局部总线和外围组件互连(pci)总线。
[0052]
计算机系统/服务器12通常包括各种计算机系统可读介质。这样的介质可以是可由计算机系统/服务器12访问的任何可用介质,并且其包括易失性和非易失性介质、可移动和不可移动介质。
[0053]
系统存储器28可包含呈易失性存储器形式的计算机系统可读介质,例如随机存取存储器(ram)30和/或高速缓冲存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动、易失性/非易失性计算机系统存储介质。仅通过示例的方式,可以提供存储系统34以用于从不可移动、非易失性磁介质(未示出,通常称为“硬盘驱动器”)中读取和向其写入。尽管未示出,可以提供用于从可移动非易失性磁盘(例如,“软盘”)读取或向其写入的磁盘驱动器,以及用于从可移动非易失性光盘(如cd-rom、dvd-rom或其它光学介质)读取或向其写入的光盘驱动器。在这样的情况下,每一个都可以通过一个或多个数据介质接口连接到总线18。如以下将进一步示出和描述的那样,存储器28可包括具有被配置为执行本发明的实施例的功能的一组(例如,至少一个)程序模块的至少一个程序产品。
[0054]
具有一组(至少一个)程序模块42的程序/实用程序40,以及操作系统、一个或多个应用程序、其它程序模块和程序数据,可以通过示例而非限制的方式存储在存储器28中。操作系统、一个或多个应用程序、其它程序模块和程序数据中的每一个或它们的一些组合可包括联网环境的实现方式。程序模块42一般执行如本文中所述的本发明实施例的功能和/或方法。
[0055]
计算机系统/服务器12也可以与诸如键盘、定点设备、显示器24之类的一个或多个外部设备14通信;与使得用户能够与计算机系统/服务器12的一个或多个设备通信;和/或与使得计算机系统/服务器12能够与一个或多个其它计算设备通信的任何设备(例如,网卡、调制解调器等)通信。这种通信可通过输入/输出(i/o)接口22进行。此外,计算机系统/服务器12可以通过网络适配器20与诸如局域网(lan)、通用广域网(wan)和/或公共网络(例如因特网)的一个或多个网络通信。如图所示,网络适配器20通过总线18与计算机系统/服务器12的其它组件通信。应当理解,虽然未示出,但是其它硬件和/或软件组件也可以与计算机系统/服务器12结合使用。示例包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器和数据归档存储系统等。
[0056]
现在参见图2,描述了说明性云计算环境50。如图所示,云计算环境50包括云消费者使用的本地计算设备可以与其通信的一个或多个云计算节点10,本地计算设备诸如例如个人数字助理(pda)或蜂窝电话54a、台式计算机54b、膝上型计算机54c和/或汽车计算机系统54n。节点10可彼此通信。它们可以物理地或虚拟地分组(未示出)在一个或多个网络中,诸如如上所述的私有云、社区云、公共云或混合云、或其组合。这允许云计算环境50提供基础设施、平台和/或软件作为云消费者不需要为其维护本地计算设备上的资源的服务。应当
理解,图2中所示的计算装置54a-n的类型仅旨在是说明性的,并且计算节点10和云计算环境50可通过任何类型的网络和/或网络可寻址连接(例如,使用网络浏览器)与任何类型的计算机化装置通信。
[0057]
现在参见图3,示出了由云计算环境50(图2)提供的一组功能抽象层。应提前理解,图3中所示的组件、层和功能仅旨在是说明性的,本发明的实施例不限于此。如图所示,提供以下层和对应功能:
[0058]
设备层55包括物理和/或虚拟设备,嵌入和/或独立的电子设备、传感器、致动器和其他对象,以在云计算环境50中执行各种任务。设备层55中的每个设备将联网能力结合到其他功能抽象层,使得可以向其提供从设备获得的信息,和/或可以向设备提供来自其他抽象层的信息。在一个实施例中,包括设备层55在内的各种设备可以包括统称为“物联网”(iot)的实体网络。如本领域普通技术人员将理解的,这样的实体网络允许数据的相互通信、收集和传播以实现各种目的。
[0059]
如图所示的设备层55包括传感器52、致动器53、带有集成处理、传感器和网络电子设备的“学习”恒温器56、相机57、可控家用插座/插座58和可控电气开关59。其他可能的设备可以包括但不限于各种其他的传感器设备、网络设备、电子设备(例如远程控制设备)、其他的致动器设备,所谓的“智能”设备,例如冰箱或洗衣机/烘干机,以及各种其他可能的互连对象。
[0060]
硬件和软件层60包括硬件和软件组件。硬件组件的示例包括:大型机61;基于risc(精简指令集计算机)架构的服务器62;服务器63;刀片服务器64;存储设备65;以及网络和联网组件66。在一些实施例中,软件组件包括网络应用服务器软件67和数据库软件68。
[0061]
虚拟化层70提供抽象层,从该抽象层可以提供虚拟实体的以下示例:虚拟服务器71;虚拟存储器72;虚拟网络73,包括虚拟专用网络;虚拟应用和操作系统74;以及虚拟客户端75。
[0062]
在一个示例中,管理层80可以提供以下描述的功能。资源供应81提供用于在云计算环境内执行任务的计算资源和其他资源的动态采购。计量和定价82在云计算环境内利用资源时提供成本追踪,并为这些资源的消费开账单或发票。在一个示例中,这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证,以及为数据和其他资源提供保护。用户门户83为消费者和系统管理员提供对云计算环境的访问。服务水平管理84提供云计算资源分配和管理,使得满足所需的服务水平。服务水平协议(sla)规划和履行85提供根据sla预期未来需求的云计算资源的预安排和采购。
[0063]
工作负载层90提供可以利用云计算环境的功能的示例。可以从该层提供的工作负荷和功能的示例包括:地图和导航91;软件开发和生命周期管理92;虚拟教室教学交付93;数据分析处理94;交易处理95;以及在本发明所示实施例的情境中用于识别监管数据并将其与可执行规则相关联的各种工作负载和功能96。此外,用于识别监管数据并将其与可执行规则相关联的工作负载和功能96可包括诸如分析、实体和义务分析之类的操作,以及将进一步描述的用户和设备管理功能。本领域普通技术人员将理解,用于识别监管数据并将其与可执行规则相关联的工作负载和功能96也可以与各种抽象层(例如硬件和软件层60、虚拟化层70、管理层80、应用程序80)的其他部分以及工作负载层90的其他部分(例如数据分析处理94)一起工作,以实现本发明所示实施例的各种目的。
[0064]
现在转到图4,描述与识别监管数据并将其与可执行规则相关联相关的示例性功能400的框图。如图所示,各个功能块辅以箭头,表示各块彼此之间的关系,并表示过程流程。此外,还可以看到与每个功能块相关的描述性信息。如将看到的,也可将功能块中的许多功能块视为功能“模块”,其描述性意义与图1至3中已经描述的相同。鉴于前文的内容,还可以将各模块结合到根据本发明的用于提取的系统和总结决策方法和特征的各种硬件和软件组件中,例如图1-图3中描述的那些硬件和软件组件中。功能块中的许多功能块可以作为后台进程在各种组件上执行,或者在分布式计算组件中,或者在用户设备上,或者在其他地方执行。
[0065]
多个数据源401-403可以由一个或多个内容贡献者提供。可以提供数据源401-403作为语料库或定义和/或识别的数据源组。数据源401-403可包括但不限于与一个或多个文档、电子邮件相关材料、书籍、科学论文、在线期刊、期刊、文章、草稿、音频数据、视频数据有关的数据源、和/或能够被发布、显示、解释、转录或简化为文本数据的其他各种文档或数据源。数据源401-403可以都是相同类型的,例如,wiki中的页面或文章或博客的页面。可选地,数据源401-403可以是不同类型的,例如word文档、wiki、网页、power point、可打印文档格式或能够由自然语言处理系统分析的任何文档。
[0066]
除了基于文本的文档之外,还可以使用其他数据源,如音频、视频或图像源,其中可以对音频、视频和图像源进行预分析,以提取或转录其内容以进行自然语言处理,例如从音频转换为文本和/或图像分析。例如,由内容贡献者发出的语音命令可以由语音激活的检测设备404检测并记录每个语音命令或通信。然后可以将记录的语音命令/通信转录成文本数据,用于自然语言处理。作为另外的示例,数据源401-402中的一个或多个可以是音频和/或视频捕获设备(例如,具有麦克风的相机),并且可以记录音频、视频或其组合,例如网络研讨会或会议,其中摄像机安装在房间中,用于将会议广播到各种知识产权内容贡献者可以远程协作的远程位置。由视频捕获设备捕获的视频数据可以被分析并转录成图像或文本数据,以进行自然语言处理。
[0067]
数据源401-403群组可由例如使用自然语言处理(nlp)和人工智能(ai)的监管数据关联系统430用来提供处理后的内容0。
[0068]
数据源401-403可由nlp组件410(和转录组件439—如果需要的话)进行分析,以进行数据挖掘或转录数据源401-403的内容(例如,文档、电子邮件、报告、笔记、音频记录、视频记录、直播通信等)中的相关信息,以便以更可用的方式显示信息和/或以更易于搜索的方式提供信息。nlp组件410可以作为云服务或本地服务来提供。
[0069]
监管数据关联系统430可以包括nlp组件410、内容消费组件411、特征关联组件412和后处理分析组件450。nlp组件410可以与消费组件411相关联。例如可以通过使用机器学习组件438,用内容消费组件411来输入数据源401-403,针对数据源运行nlp和ai工具,学习内容。应该注意,图4的其他组件也可以使用一个或多个nlp系统,将nlp组件410仅用于nlp系统仅仅是示例性的。当nlp组件410(包括机器学习组件438)学习不同的数据集时,特征关联组件412(或“智能特征关联组件”)可以使用人工智能,通过确定共同的概念、方法、特点、相似特征和/或潜在的共同话题来在数据源401-403之间建立关联或链接(links)。
[0070]“智能”或“认知”是进行认知的心理过程,包括意识、感知、推理和判断等方面。人工智能系统使用人工推理来解释数据源401-403,并提取其话题、想法或概念。所学习到的
决策、决策要素、决策的备选方案、备选选项/选择、决策标准、概念、建议、话题和感兴趣领域的子话题、义务、法规、法律、政策、立法文本或其他内容,可能不会在数据源401-403中具体命名或提及,而是由人工智能解释导出或推断的。
[0071]
可以将所学习到的由nlp系统消费的数据源的内容合并到数据库420(和/或知识库)中,或者采用其他数据存储方法来存储所消耗的内容与所学习到的数据源401-403的学习概念、方法和/或特征,从而提供参考原始数据源401至403的内容之间的关联。
[0072]
数据库420也可与监管数据关联系统430中包括的转录组件439协同工作,以维护每个内容贡献者所有交互和贡献、决策、备选方案、标准、主题、话题或想法的带时间戳的记录。数据库420可以记录和维护数据源401-403中讨论的决策、义务、法规、法律、政策、立法文本、备选方案、标准、主题、话题、想法或内容的演变。例如,可以用转录组件439来转录各种类型的数据,例如来自数据源401-403的音频数据或图像/视频数据。例如,可以将语音激活的检测设备捕获的语音命令/通信由转录组件439转录成文本数据,用于进行自然语言处理。作为另一示例,可以将视频捕获设备捕获的视频数据由转录组件439分析并转录成文本数据,用于进行自然语言处理。
[0073]
数据库420可以跟踪、识别和关联在决策、义务、法规、法律、政策、立法文本、备选方案、标准、主题、话题或想法的发展或“生命周期”的所有阶段期间生成的所有数据的所有通信线程、消息、抄本等。将数据合并到一个数据库420(其可以包括领域知识)中使监管数据关联系统430能像搜索引擎一样工作,但监管数据关联系统不是使用关键词搜索,而是使用ai方法,利用所推断的概念作出数据源之间的认知关联。
[0074]
监管数据关联系统430可以包括用户界面(“ui”)组件434(例如,交互式图形用户界面“gui”),其提供用户与索引内容的交互,用于挖掘和导航和/或接收来自用户的一个或多个输入/查询。更具体地说,用户接口组件434可以与无线通信设备455(也参见图2的pda或蜂窝电话54a、台式计算机54b、膝上型计算机54c和/或汽车计算机系统54n)通信,以提供用户输入的输入数据,诸如数据源401-403,并且还提供用户与决策元素、备选方案和/或标准的提要的交互。无线通信设备455可以使用ui组件434(例如,gui)来提供数据输入和/或提供查询功能,诸如用于使用户能在gui422中输入与感兴趣的领域、话题、决策、备选方案、准则、决策摘要和/或相关目标有关的查询的交互式gui功能。例如,gui 422可以显示与识别监管数据并将其与可执行规则相关联的数据。
[0075]
监管数据关联系统430还可包括识别组件432。识别组件433可使用直接从一个或多个数据源检索的数据或在数据库420(或多个不可变分类账)中存储的数据。识别组件432可以识别与一个或多个决策有关的片段、语句、短语、段落和话题,识别与一个或多个决策有关的每个决策元素和一个或多个决策中的每个决策的标准,和/或识别和提取与一个或多个决策有关的标准和一个或多个备选建议。
[0076]
监管数据关联系统430还可包括对准组件435、映射组件436和过滤组件437。
[0077]
监管数据关联系统430可以用对准组件435,按照相似的决策、义务、法规、法律、政策、立法文本、备选方案、标准、主题、话题、想法或内容,对决策、义务,法规、法律,政策,立法文本、备选方案、标准、主题、想法或内容进行对准、分组、聚类和/或组织。对准组件435可以基于上下文、相似的情感、相似的概念、相似的义务、相似的法规、相似的法律、相似的政策、相似的立法文本、相似的备选方案、相似的主题、相似的话题、相似的想法、相似的内容
from transformers)模型,然后被微调以最大化给定的似然度目标。
[0089]
机器学习组件438可以使用多种方法的组合来应用一个或多个基于启发式和机器学习的模型,例如有监督学习、无监督学习、时间差分学习、强化学习等。可与本发明技术一起使用的有监督学习的一些非限制性示例包括aode(averaged one-dependence estimators)、人工神经网络、贝叶斯统计、朴素贝叶斯分类器、贝叶斯网络、案例式推理、决策树、归纳逻辑编程、高斯过程回归、基因表达编程、数据处理的组方法(gmdh)、学习自动机、学习向量量化、最小消息长度(决策树、决策图等)、懒惰学习、基于实例的学习、最近邻算法、类比建模、可能近似正确(pac)学习、波纹规则、知识获取方法、符号机器学习算法、子符号机器学习方法、,支持向量机、随机森林、分类器集合、装袋算法(bagging)、提升(boosting)(元-算法)、序数分类、回归分析、信息模糊网络(ifn)、统计分类、线性分类器、费雪线性判别、逻辑回归、感知器、支持向量机、二次分类器、k最近邻分类算法(k-nearest neighbor)、隐马尔可夫模型与提升。可以与本发明技术一起使用的无监督学习的一些非限制性示例包括人工神经网络、数据聚类、期望最大化、自组织映射、径向基函数网络、矢量量化、生成地形图、信息瓶颈方法、ibsead(分布式自治实体系统交互)、关联规则学习、,先验算法、eclat算法、fp-growth算法、分层聚类、单链聚类、概念聚类、分区聚类、k-means算法、模糊聚类和强化学习。时间差学习的一些非限制性示例可以包括q学习和学习自动机。关于本段中描述的有监督、无监督、时间差或其他机器学习的任何示例的具体细节都是已知的,视为在本公开的范围内。
[0090]
在一个方面,领域知识可以是表示知识领域的概念的本体。同义词库或本体可以用作领域知识,也可以用于识别观察到的和/或未观察到的变量之间的语义关系。在一个方面,术语“领域”是个具有其普通含义的术语。此外,术语“领域”可包括某系统的专业领域或与特定一个或主题或主题相关的材料、信息、内容和/或其他资源的集合。领域可以指与任何特定主题或选定主题的组合相关的信息。
[0091]
术语“本体”也是个具有其普通含义的术语。在一个方面,术语本体在其最广义上可以包括可以建模为本体的任何东西,包括但不限于分类法、同义词表、词汇表等。例如,本体可以包括与感兴趣的领域或特定类别或概念的内容相关的信息或内容。可以通过与源同步的信息一起持续地对本体进行更新,将来自源的信息作为模型、模型属性或本体内模型之间的关联添加到本体中。
[0092]
此外,领域知识可包括一个或多个外部资源,诸如到一个或多个因特网域、网页等的链接。例如,文本数据可以超链接到网页,网页可描述、解释或提供与文本数据相关的附加信息。因此,可以通过与外部资源的链接来增强提要,这些外部资源进一步解释、指示、说明、提供上下文和/或附加信息,以支持决策、备选建议、备选选择、标准、义务、法规、法律、政策、立法文本、备选方案、标准、主题、话题、想法和/或内容。
[0093]
在一个方面,监管数据关联系统430可以执行一个或多个各种类型的计算。可以使用可能涉及一个或多个数学运算的各种数学运算或函数来执行计算操作(例如,使用加法、减法、除法、乘法、标准差、均值、平均值、百分比、使用统计分布的统计建模,通过找到组合变量的最小值、最大值或类似阈值等,以分析或计算方式求解微分方程或偏微分方程)。应当注意,监管数据关联系统430的每个组件都可以是监管数据关联体系430的单个组件和/或单独组件。
[0094]
为了进一步解释,图5是描述其中可以实现本发明的各个方面的识别监管数据并将其与可执行规则关联的示例性操作的框图。在一个方面,图1至4中描述的组件、模块、服务、应用和/或功能中的一个或多个可在图5中使用。例如,图1的结合处理单元16的计算机系统/服务器12可以用于执行图5中描述的不同计算、数据处理和其他功能。
[0095]
例如,可以分析政策文档510(例如,来自一个或多个数据源的政策文档)和规则文档520(例如来自一个或者多个数据来源的一组规则、法律或法规),并且可以摄取文本数据(“t”,例如,t1、t2和tn)。可以从政策文档510和立法文档520中提取一个或多个文本数据片段。可以识别和提取监管文本(例如,立法文档)中的每个实体。
[0096]
也就是说,可以提取并编译从政策文档510和规则文档520中提取的文本段落的列表,这些文本段落以某种格式/可执行格式表示(包括关于规则公式中变量的元信息)。
[0097]
可以将每个规则与政策文档510中的、最好地描述了规则文档520中的每个规则的部分或整个规则的一个或多个相关文本段落对准、相关和关联。
[0098]
此外,可以从政策文档510和规则文档520中识别和提取文本数据中的每个命名实体,并使用这些命名实体从规则文档520中获得与政策文档510中的文本具有高度重叠的实体的候选规则。
[0099]
在一些实施例中,可以从政策文档510和规则文档520中的文本提取每个逻辑结构,并用逻辑结构与来自政策文档512的规则逻辑结构进行比较,以从规则文档520中获得具有相似结构的候选规则。使用所提取的实体和逻辑结构,就可将规则、段落和每个段落/规则的候选规则/段落用作输入,输出从规则文档520提取的每个规则(例如,r1、r2和rn)与从策略文档510提取的诸如t1、t2和tn的段落之间的匹配分数表530。
[0100]
为了确定匹配分数(例如,段落-规则匹配分数)以将语义数据(例如,政策的文本段落)与规则数据相关联,可以如下地进行确定。在一个实现中,对于给定的一组规则r=r1,r2,...,rn(例如,立法规则、政策、法规等)和一组文本t=t1,t2,...,tn(例如,法规政策文本中的文本段落),识别并定位规则与文本的最优、最佳或最接近的对准,即,对于每个规则r,找到最佳匹配文本t,如匹配分数表530中所示。
[0101]
可以使用机器学习操作来学习具有最接近匹配或“最优”或“最佳”的匹配分数的那些段落/片段数据(例如,“best start tax credit”(最佳起始免税额度)),诸如t1、t2、和tn。例如,机器学习操作学习并识别政策文档510中的段落t2与从规则文档520提取的r2相关的匹配分数“最佳”或最高,但与从准则文档520中提取的r1相关的匹配分数最低。此外,仅作为举例,机器学习操作学习并识别政策文档510中的段落tn与从规则文档520提取的r1相关的匹配分数“最佳”或最高,但与从准则文档520中提取的r2相关的匹配分数最低。
[0102]
因此,可以使用机器学习操作将规则文档520中的形式规则(formal rules)与其引用的政策文档510中的文本对准,以理解每个规则对其他规则、证据或输入数据、代码和费率表、时间性(temporality)和合格性(eligibility)约束和/或确定的依赖性。
[0103]
也就是说,可以使用机器学习操作将来自规则文档520的形式规则与其引用的政策文档510中的文本对准,以理解每个规则对其他(包括替代的或相似的)决策、义务、法规、法律、政策、立法文本、备选方案、标准、主题、话题、想法或内容的依赖性。
[0104]
现在转到图6,示出其中可以实现本发明的各个方面的用于识别监管数据并将其与可执行规则相关联的框图/流程图600。在一个方面,图1至图5中所描述的部件、模块、服
务、应用和/或功能中的一个或多个可以在图6中使用。例如,图1的结合处理单元16的计算机系统/服务器12可以用于执行图5中描述的各种计算、数据处理和其他功能。
[0105]
在一个实现中,在框610,可以过滤基于命名实体的候选。例如,为了过滤基于实体的候选,步骤1,可以将规则r转换为命名实体集合s={e1,e2,...,en}。s的每个命名实体可以与一个分数(例如,[0,1]范围内的实数)相关联,该分数指示其重要性水平或程度(排名)。可以用实体集合s来从政策文档中重新识别可能对应于规则r的一个或多个文本段落。每个文本段落p与一个分数(例如,[0,1]范围内的实数)相关联,该分数指示p对应于规则r的置信度。
[0106]
在一些实施方式中,规则r的逻辑结构可以从实体集合s中导出,如框620中所示。段落候选(c)(例如,c(r1)、c(r2)和c(rn))和规则候选(c)(例如,c(t1)、c(t2)和c(tn))可以从实体集合s中导出,如图620所示。如框630所示,可以执行前向-后向的无监督翻译操作,生成段落-规则匹配分数(例如,m(tjr1)=0.5*p(tj|rj)+0.5*p(rj|tj))。
[0107]
因此,用候选过滤操作610和620为每个规则或段落产生较小匹配的候选,用前向-后向无监督翻译操作来通过机器学习操作估计匹配分数m(tjr1)。
[0108]
为了在步骤1(框610)中将规则转换为一个命名实体集合,可以执行以下操作。在一些实现中,可以将规则r转换为一个命名实体集合。规则r可具有文本描述,诸如:用一个或多个操作从文本描述中提取命名实体。规则r可以有条件,变量可以有“表达性”名称,例如“iscitizenof”、“hasage”、“person.name”、“personaddress”、“income”等,可以通过将条件/变量名称映射到一个或多个标准词汇表和/或知识图来将条件/变量名称转换为实体。规则r可以具有绑定到数据/值的变量,数据/值可被用来推断命名实体。
[0109]
数据也可以是表格格式,并且可以用一个或多个操作来恢复表的语义,例如,基于列的值来标记列。在其他实现中,数据可以是xml/json/yaml或其他“描述性”格式。因此,可以将诸如xml标签或json/yaml之类的数据形式转换为命名实体的属性名称(类似于规则r中的“表达性”条件/变量名称)。此外,可以使用xml标签中的值或json/yaml值来恢复语义(例如标签)。
[0110]
在其他实现中,可以用命名实体扩展(具有自定义/标准词汇表和/或知识图)来扩展实体集s。例如,可以使用维基化和/或其他语义匹配和查询扩展操作。为了将分数与命名实体相关联,可以使用一种或多种类型的操作,例如,频率分数、命名实体提取器的置信度分数,或者用于从数据/值恢复语义的操作,或者这些分数的组合。
[0111]
在一些实现中,为了在步骤2中将一个命名实体集合映射到一个或多个文本段落,可以执行以下操作。在一些实现中,可以将一个命名实体集合映射到的一个或多个文本段落。例如,实体集合s可以是命名实体的输入集(从规则r导出)。给定一个文本段落,可以提取该段落中的命名实体的一组文本段落p。
[0112]
可以确定s与p之间的相似性度量(例如,使用包括s与p之间的jaccard相似性,或s(基本事实)与p(预测)之间的f1分数的朴素度量),其中s是从规则r提取的实体集合,p是从文本t提取的实体集合。f1和jaccard相似性是两个表示两个集合有多相似的度量。
[0113]
可以使用预先训练的嵌入模型将变量s转换为向量vs。可以将文本段落p的变量转换为相同嵌入空间中的向量vp。可以确定vs和vp之间相似性度量(例如,诸如余弦相似性)。例如,可以使用预先训练的嵌入模型将变量s转换为向量vs。可能需要一个中间步骤,在中
间步骤中将变量s转换为语句(文本),然后使用嵌入模型将语句转换为向量v。这可以使用实体s集合中的命名实体来执行。
[0114]
在一些实现中,规则r的逻辑结构可以从实体集合s中导出,如框630所示的那样,因为已知哪些实体对应于规则r中的条件或规则r中变量,并且规则r中逻辑连接器是已知的。一旦s和p对被匹配并且候选段落被识别,就可应用“集体”匹配/评分(或者换句话说,将一个命名实体集合与所有候选段落匹配)来识别累积地定义规则的段落(一个或多个)的子集。这可以通过分层方法来实现,例如,使用依赖树或语义知识图将所有s个命名实体和所有p个实体独立地链接起来,然后探索每个段落的“覆盖/匹配”,确保段落对规则进行了添加/贡献。
[0115]
为了进一步解释,图7是描述用于识别监管数据并将其与可执行规则关联(例如,图6的基于逻辑结构的候选过滤器620)的示例性知识图的图700,其中可以实现本发明的各个方面。在一个方面,图1至图6中描述的组件、模块、服务、应用程序和/或功能中的一个或多个可用在图7中。
[0116]
如图所示,为了过滤基于逻辑结构的候选(图6的框620),可以将规则r转换为表示逻辑公式的知识图树tr710,其中节点可以是数学或逻辑运算符,诸如“and”(逻辑“与”)、“or”(逻辑“或”)、“》”(大于)、“《”(小于)、“+”(加)、
“‑”
(减)等,节点是变量或常数。例如,公式“age》19and ssn=true”被表示为知识图树tr 710中的树。
[0117]
接下来,可以将语句(文本)转换为树ts,其中节点为检测到的逻辑运算符或文本片段。例如,语句“in order to be eligible,participant must be older than 19years old and has a valid ssn”(合格的参与者须年满19岁且持有有效ssn)被表示为知识图树ts720中的树。
[0118]
可以使用树相似性度量将知识图树tr 710与知识图树ts 720进行比较。
[0119]
为了进一步解释,图8是描述了使用前向和后向翻译来识别监管数据并将其与可执行规则关联的示例性操作(例如,图6的正向-反向无监督翻译操作630)的示意图,其中可以实现本发明的各个方面。在一个方面,图1至图6中描述的组件、模块、服务、应用程序和/或功能中的一个或多个可用在图8中。
[0120]
在一些实现中,对于每个规则r,可以识别或确定一组候选文本c(r),使得候选文本c(r)很可能(例如,以增加的概率)包括最佳或最匹配(例如,最大化的匹配)。对于每个文本t,可以识别或确定一组候选规则c(t),使得候选规则c(t)很可能(例如,以增加的概率)包括最佳或最匹配(例如,最大化的匹配)。
[0121]
在一些实现中,可以使用语言模型来估计概率p(t|r)和p(r|t),并基于以下等式使段落规则匹配分数最大化:
[0122][0123]
现在转到图9,示出用处理器识别监管数据并将其与可执行规则关联的方法900,其中可以实现所示实施例的各个方面。功能900可以被实现为在机器上作为指令执行的方法,其中指令被包括在至少一个计算机可读介质或一个非瞬态机器可读存储介质上。功能900可以在框902中开始。
[0124]
如框904所示,可以将从法律、政策、法规或其组合中提取的语义数据与来自一个或多个数据源的文本数据相关联,该文本数据描述了法律、政策、法规或其组合的至少一部
分。可在使用词汇分析、解析、概念提取、语义分析、机器学习操作或其组合处理文本数据时从一个或多个数据源摄取文本数据。概念提取、语义分析、机器学习操作或其组合。如在框906中,功能900可以结束。
[0125]
在一个方面,结合图9的至少一个框的一部分和/或作为图9的至少一个框的一部分,900的操作可以包括以下每一项。900的操作可以使用词汇分析、解析、概念提取、语义分析、机器学习操作或其组合在处理文本数据时从一个或多个数据源摄取文本数据。900的操作可以识别法律、政策、法规或其组合(例如,立法文本)所要求的规定的合规范围。
[0126]
此外,900的操作可以使用自然语言处理(nlp)来确定具有义务内容的语义数据和文本数据。语义数据和文本数据可以是语句,义务内容要求义务遵守义务、法律、政策、法规或其组合,初始化机器学习机制以从文本数据的一个或多个片段学习、确定或识别义务,和/或从训练一个或多个机器学习模型管理合规中生成合规语料库。900的操作可以将义务定义为遵守法律、政策、法规或其组合、禁止实体的行为或活动、法律权利、实体的约束或其组合所需的行动。
[0127]
900的操作可以从文本数据中提取一个或多个实体,并基于一个或多个实体将语义数据的一部分识别为候选语义数据。900的操作可以从文本数据中提取一个或多个逻辑结构;并通过将一个或多个逻辑结构与语义数据进行比较来将语义数据的一部分识别为候选语义数据。也就是说,可以从代表描述合规语料库和/或期待遵守义务、法律、政策、法规或其组合的类型组织的合规命名实体的一个或多个对象的数据源中提取文本数据的一个或多个片段。
[0128]
900的操作可以生成从文本数据的一个或多个片段识别的实体的聚类。900的操作可以分配语义数据与文本数据之间的匹配分数,其中该分数指示语义数据与文字数据之间的对应关联度。
[0129]
900的操作可以将语义数据转换为一个命名实体集合,其中每个命名实体被分配有排名分数;基于分配给每个命名实体的排名分数来识别文本数据的选定部分;并且向文本数据的选定部分分配置信度分数,置信度分数指示文本数据的选定部分与文本数据匹配的置信度。
[0130]
900的操作可以为用机器学习操作将法律、政策、法规或其组合的语义数据与文本数据相关联而初始化机器学习组件。
[0131]
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可包括其上具有用于使处理器执行本发明的各方面的计算机可读程序指令的计算机可读存储介质。
[0132]
计算机可读存储介质可以是可保留和存储供指令执行设备使用的指令的有形设备。计算机可读存储介质可以是,例如但不限于,电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备、或者上述的任意合适的组合。计算机可读存储介质的更具体示例的非穷尽列表包括以下各项:便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式紧凑盘只读存储器(cd-rom)、数字通用盘(dvd)、记忆棒、软盘、诸如穿孔卡或具有记录在其上的指令的槽中的凸出结构之类的机械编码设备、以及上述各项的任何合适的组合。如本文所使用的计算机可读存储介质不应被解释为瞬态信号本身,例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如,穿过光纤电缆的光脉冲)或通
过导线发射的电信号。
[0133]
本文所述的计算机可读程序指令,可以从计算机可读存储介质下载到相应的计算/处理设备,或者通过网络(例如,互联网、局域网、广域网和/或无线网络)下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输纤维、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口接收来自网络的计算机可读程序指令,并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。
[0134]
用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或以一种或多种编程语言的任何组合编写的源代码或目标代码,这些编程语言包括面向对象的编程语言(如java、smalltalk、c++等)和常规的过程编程语言(如“c”编程语言或类似的编程语言)。计算机可读程序指令可以完全地在用户计算机上执行、部分在用户计算机上执行、作为独立软件包执行、部分在用户计算机上部分在远程计算机上执行或者完全在远程计算机或服务器上执行。在后一种情况下,远程计算机可通过任何类型的网络(包括局域网(lan)或广域网(wan))连接至用户计算机,或者可连接至外部计算机(例如,使用互联网服务提供商通过互联网)。在一些实施例中,包括例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla)的电子电路可以通过利用计算机可读程序指令的状态信息来使电子电路个性化来执行计算机可读程序指令,以便执行本发明的各方面。
[0135]
本文参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图来描述本发明的各个方面。应当理解,流程图和/或框图的每个框以及流程图和/或框图中各框的组合,都可以通过计算机可读程序指令实现。
[0136]
这些计算机可读程序指令可被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器,使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现在流程图和/或框图的或多个框中指定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置、和/或其他设备以特定方式工作,从而,其中存储有指令的计算机可读存储介质包括包含实现流程图和/或框图的框中规定的功能/动作的方面的指令的制造品。
[0137]
也可将计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上,使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤,以产生计算机实现的处理,使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图中的或多个方框中规定的功能/动作。
[0138]
附图中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。对此,流程图或框图中的每个框可表示指令的模块、段或部分,其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些备选实现中,框中标注的功能可以不按照图中标注的顺序发生。例如,取决于所涉及的功能,连续示出的两个框实际上可以基本上同时执行,或者这些框有时可以以相反的顺序执行。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作或执行专用硬件与计算机指令的组合的专用的基于硬件的系统来实现。

技术特征:
1.一种用于由处理器在计算环境中关联监管数据的方法,包括:将规则与从描述规则的至少一部分的政策文档中提取的一个或多个文本段落相关联。2.根据权利要求1所述的方法,进一步包括:从所述文本段落中提取一个或多个实体;和基于一个或多个实体将所述文本段落的一部分识别为候选文本段落。3.根据权利要求1所述的方法,进一步包括:从所述文本段落中提取一个或多个逻辑结构;和通过将所述一个或多个逻辑结构与所述规则的一个或多个规则逻辑结构进行比较,将所述文本段落的一部分识别为候选文本段落。4.根据权利要求1所述的方法,还包括使用前向-后向翻译操作将所述规则映射到所述文本段落。5.根据权利要求1所述的方法,进一步在所述文本段落和所述规则之间分配匹配分数,其中所述分数指示所述文本段和所述准则之间的对应相关性的程度。6.根据权利要求1所述的方法,进一步包括:将所述规则转换为实体集合,其中所述实体集合是实体的候选集合;和使用规则的候选实体集来识别并匹配从政策文档中提取的一个或多个候选文本段落。7.根据权利要求1所述的方法,还包括向所述文本段落分配置信度分数,所述置信度分数指示所述文本段与所述规则匹配的置信度。8.一种用于在计算环境中关联计算环境中的监管数据的系统,包括:具有可执行指令的一个或多个处理器,所述可执行指令在执行时使所述系统执行根据权利要求1至7中任一项所述的方法。9.一种用于在计算环境中关联计算环境中的监管数据的计算机程序产品,所述计算机程序产品包括用于执行根据权利要求1至7中任一项所述的方法的程序指令。

技术总结
识别与可执行规则相对应的监管数据,提供了各种实施例,用于通过处理器在计算环境中关联监管数据。规则可以与从描述规则的至少一部分的政策文档中提取的一个或多个文本段落相关联。关联。关联。


技术研发人员:桑赫拉姆
受保护的技术使用者:国际商业机器公司
技术研发日:2023.01.20
技术公布日:2023/8/1
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐