一种自动弹性伸缩的AI运行时装置的制作方法

未命名 10-08 阅读:69 评论:0

一种自动弹性伸缩的ai运行时装置
技术领域
1.本技术涉及一种ai运行时装置,具体是一种自动弹性伸缩的ai运行时装置,属于ai应用服务技术领域。


背景技术:

2.在ai应用发展至今日,尤其是aigc应用的快速发展中,gpu资源的不足成为了影响应用性能和部署效果的瓶颈之一,传统的gpu计算方式需要在特定服务器上预配置,运行较为僵化,不便于应用的弹性伸缩和部署,同时,gpu资源价格的高昂也给企业带来了沉重的负担,限制了许多创新应用的发展。
3.另外,在ai应用的发展中,高并发度、内容安全等也成为了ai应用开发者和用户所关注的重点。实现高可用的ai应用构建需要极专业的知识和技能,但很多企业和开发者并不具备这些技术能力和经验,传统的银行卡充值方式多数较为单一,影响人们的使用体验,同时在银行卡丢失后多数难以预防内部的财产丢失,存在一定的安全隐患,同时在银行卡丢失后也缺乏一定的应变手段。
4.当前ai模型或应用托管平台大多采用传统的基于虚拟机(vm)或容器的云计算架构,实现ai训练或推理应用的托管和运行。这些平台需要提前预留计算、存储等各种资源,且需要大量运维人员来进行平台管理和维护。同时,这些平台的计费模式大多是基于虚拟机或容器的数量和时长计费,导致成本较高。详细的已有技术实现ai应用构建和托管的原理大致如下:
5.docker容器技术:使用docker容器技术可以将应用程序和其所需要的依赖项(如库、依赖包等)封装为一个独立的容器,从而实现应用程序的可移植性和隔离性。docker容器化技术通常被用于实现ai应用的构建和托管。
6.kubernetes集群技术:使用kubernetes集群技术可以管理和自动化部署多个docker容器,以实现高可用性和弹性的ai应用部署。
7.云计算平台(特指云主机架构,即便是阿里云pai等也是将模型等直接部署到gpu云服务器):云计算平台提供了一种可扩展的部署解决方案,使得应用程序的资源管理和托管更加简单。
8.以上技术的融合可以实现较为全面和高效的ai应用构建和托管,但需要专业的技术人员进行配置和管理,对一些中小型企业和开发者来说较为困难,现有传统构架部署和维护难度大;gpu资源不足、成本高昂;并发量大导致性能下降和排队、限流、内容安全等能力不足。因此,针对上述问题提出一种基于serverless架构实现的ai应用平台解决方案,具有更低的部署和维护难度、更高的效率和性能、更多的可扩展性、更好的排队、限流和内容安全能力等优势,对其它传统架构的ai应用平台有着极大的优化和提升的自动弹性伸缩的ai运行时装置。


技术实现要素:

9.本技术的目的就在于为了解决上述问题而提供一种自动弹性伸缩的ai运行时装置。
10.本技术通过以下技术方案来实现上述目的,一种自动弹性伸缩的ai运行时装置,包括api网关、核心可插拔模块、kafka消息中间件、模型推理模块和公共模块;所述api网关与客户端同步或异步连接,所述api网关通过核心可插拔模块与kafka消息中间件连接,且所述kafka消息中间件与模型推力模块连接,且所述api网关、核心可插拔模块、kafka消息中间件和模型推理模块都与公共模块连接,所述公共模块包括对象存储单元、数据库单元、日志服务单元、链路追踪和其它模块单元。
11.进一步的,所述api网关过滤流量后与核心可插拔模块连接,所述api网关用于接收请求和做出响应,且所述api网关还包括鉴权等相关能力。
12.进一步的,所述核心可插拔模块包括内容安全、排队、限流等模块的动态插拔,所述心可插拔模块通过将筛选的数据以事件形式投递到下游kafka消息中间件。
13.进一步的,所述核心可插拔模块包括生产者单元、内容安全单元和其他模块单元,所述生产者单元由serverless架构组成,且所述核心可插拔模块分别与api网关可kafka消息中间件双向连通。
14.进一步的,所述模型推理模块用于对已存在kafka中的任务进行穿行处理,包括单卡串行和多卡并行,所述模型推理模块包括消费者模块、模型处理模块以及生产者模块的结果的投递。
15.进一步的,所述ai运行时装置包括操作系统和基础环境,如ubuntu+python3.8。
16.进一步的,所述ai运行时装置包括基于serverless架构的ai应用平台、ai应用构建插件、开发者上传ai模型及其代码、自动伸缩和按量付费资源管理、ai应用构建插件的自动集成和ai模型的上线及openapi的开放。
17.进一步的,所述serverless架构还具有自动伸缩和按量付费等特点。
18.进一步的,所述ai应用构建插件包括自动集成功能,所述开发者上传ai模型及其代码包括文件或者数据库的配置,根据客户端传递的具体需求,进行对应的模型匹配和业务逻辑的加载。
19.进一步的,所述ai模型的上线及openapi的开放使用openapi对外暴露ai应用接口,从而能够将ai技术奉献给更多的开发者和用户。
20.本技术的有益效果是:本技术解决了传统架构下ai应用部署和维护难度大的问题,用户只需要上传ai模型和基础业务逻辑就可以获得部署好的应用,从而方便了用户的使用和管理,提供了gpu资源的自动弹性伸缩,用户只需根据实际需求分配gpu资源,避免了gpu资源浪费和高成本问题,基于本技术的serverless架构的ai应用平台天然集成了弹性伸缩的特性,能够快速响应客户需求,且能够保证高效稳定的性能,从而解决了传统架构下因为高并发导致的性能下降的问题,且提供插件思路,使得ai应用平台具备排队、限流、内容安全等能力,在ai应用中,可以最大化地发挥异步排队的特性,通过整合这些功能,本技术平台能够为用户提供更好的服务质量,防止恶意用户攻击和非节点合理占用等情况。
附图说明
21.图1为本技术整体结构示意图;
22.图2为本技术核心可插拔模块结构示意图;
23.图3为本技术模型推理模块结构示意图;
24.图4为本技术serverless架构结构示意图。
具体实施方式
25.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
26.请参阅图1-3所示,一种自动弹性伸缩的ai运行时装置,包括api网关、核心可插拔模块、kafka消息中间件、模型推理模块和公共模块;所述api网关与客户端同步或异步连接,所述api网关通过核心可插拔模块与kafka消息中间件连接,且所述kafka消息中间件与模型推力模块连接,且所述api网关、核心可插拔模块、kafka消息中间件和模型推理模块都与公共模块连接,所述公共模块包括对象存储单元、数据库单元、日志服务单元、链路追踪和其它模块单元。
27.所述api网关过滤流量后与核心可插拔模块连接,所述api网关用于接收请求和做出响应,且所述api网关还包括鉴权等相关能力。
28.所述核心可插拔模块包括内容安全、排队、限流等模块的动态插拔,所述心可插拔模块通过将筛选的数据以事件形式投递到下游kafka消息中间件。
29.所述核心可插拔模块包括生产者单元、内容安全单元和其他模块单元,所述生产者单元由serverless架构组成,且所述核心可插拔模块分别与api网关可kafka消息中间件双向连通。
30.所述模型推理模块用于对已存在kafka中的任务进行穿行处理,包括单卡串行和多卡并行,所述模型推理模块包括消费者模块、模型处理模块以及生产者模块的结果的投递。
31.所述ai运行时装置包括操作系统和基础环境,如ubuntu+python3.8。
32.所述ai运行时装置包括基于serverless架构的ai应用平台、ai应用构建插件、开发者上传ai模型及其代码、自动伸缩和按量付费资源管理、ai应用构建插件的自动集成和ai模型的上线及openapi的开放。
33.所述serverless架构还具有自动伸缩和按量付费等特点。
34.所述ai应用构建插件包括自动集成功能,所述开发者上传ai模型及其代码包括文件或者数据库的配置,根据客户端传递的具体需求,进行对应的模型匹配和业务逻辑的加载。
35.所述ai模型的上线及openapi的开放使用openapi对外暴露ai应用接口,从而能够将ai技术奉献给更多的开发者和用户。
36.本技术通过高效的开发和部署模式:传统架构下需要繁琐的部署流程和数据管理,而基于serverless架构的ai应用平台,开发者只需要简单上传模型及其基本代码即可,
进而大大简化了应用的开发和部署流程;动态资源分配和按量付费:在传统架构下,通常需要购买大量的服务器来满足高并发业务,不仅造成资源浪费,而且成本高昂。而基于serverless架构的ai应用平台,可根据实际需要动态分配资源,并按量付费,大幅度降低了开销;自动伸缩和弹性:传统架构的ai应用需要固定的服务器或者gpu资源,极限并发情况下还需要机器人协助扫描,其伸缩性和弹性都很难保证。基于serverless架构的ai应用平台可以自动伸缩,实现弹性伸缩资源管理,保证高效且快速地响应高峰需求,最大化利用资源;天然的应用构建插件:本专利提供的ai应用构建插件可以很方便地集成排队,限流和内容安全等功能,基于开箱即用的设计理念,无需开发者编写额外的代码,大大提高了应用的安全性和稳定性;高度灵活互通性:本专利可互通和支持多种编程语言和开发框架,并可以自由选择在公有云或私有云上搭建,使得该平台具有更高的灵活性和开放性。
37.总的来说,本技术所提供的基于serverless架构的ai应用平台方案,异常清晰化、标准化、简单易用、性能高、成本低,具有很强的应用及商业价值,优化和缓解了传统架构下为开发者带来的种种瓶颈和困难,将有效推动和促进人工智能技术的进一步发展和应用。
38.通过将ai模型和基础业务逻辑上传到serverlessgpu中,实现了gpu计算能力的自动弹性伸缩,并实现了按量付费的计费模式,降低了企业的应用成本;插件思路:通过插件思路,使得该应用默认具备排队、限流、内容安全等能力,为用户提供了更便捷和安全的应用部署和管理方式。此点也是与其他ai应用平台区分的重要保护点;按需生成和销毁计算资源:本发明通过serverless架构的特点,实现了按需生成和销毁计算资源,从而解决了gpu资源成本高昂和使用率低的问题。此点也是本发明的重要保护点之一;天然集成的弹性伸缩功能:本发明的核心点在于天然具备弹性伸缩能力,可以根据用户的实际需求分配计算资源,这也是与传统架构ai应用平台相比的重要优势。
39.本发明的技术实用性和商业价值非常大,对于中小型企业和开发者来说,可以降低应用平台的部署和维护难度,节省了时间和人力成本,提高了效率,同时也有较强的商业化应用前景。
40.对于本领域技术人员而言,显然本技术不限于上述示范性实施例的细节,而且在不背离本技术的精神或基本特征的情况下,能够以其他的具体形式实现本技术。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本技术的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的得同要件的含义和范围内的所有变化囊括在本技术内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
41.此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

技术特征:
1.一种自动弹性伸缩的ai运行时装置,包括api网关、核心可插拔模块、kafka消息中间件、模型推理模块和公共模块;所述api网关与客户端同步或异步连接,所述api网关通过核心可插拔模块与kafka消息中间件连接,且所述kafka消息中间件与模型推力模块连接,且所述api网关、核心可插拔模块、kafka消息中间件和模型推理模块都与公共模块连接,所述公共模块包括对象存储单元、数据库单元、日志服务单元、链路追踪和其它模块单元。2.根据权利要求1所述的一种自动弹性伸缩的ai运行时装置,其特征在于:所述api网关过滤流量后与核心可插拔模块连接,所述api网关用于接收请求和做出响应,且所述api网关还包括鉴权等相关能力。3.根据权利要求1所述的一种自动弹性伸缩的ai运行时装置,其特征在于:所述核心可插拔模块包括内容安全、排队、限流等模块的动态插拔,所述心可插拔模块通过将筛选的数据以事件形式投递到下游kafka消息中间件。4.根据权利要求1所述的一种自动弹性伸缩的ai运行时装置,其特征在于:所述核心可插拔模块包括生产者单元、内容安全单元和其他模块单元,所述生产者单元由serverless架构组成,且所述核心可插拔模块分别与api网关可kafka消息中间件双向连通。5.根据权利要求1所述的一种自动弹性伸缩的ai运行时装置,其特征在于:所述模型推理模块用于对已存在kafka中的任务进行穿行处理,包括单卡串行和多卡并行,所述模型推理模块包括消费者模块、模型处理模块以及生产者模块的结果的投递。6.根据权利要求1所述的一种自动弹性伸缩的ai运行时装置,其特征在于:所述ai运行时装置包括操作系统和基础环境,如ubuntu+python3.8。7.根据权利要求1所述的一种自动弹性伸缩的ai运行时装置,其特征在于:所述ai运行时装置包括基于serverless架构的ai应用平台、ai应用构建插件、开发者上传ai模型及其代码、自动伸缩和按量付费资源管理、ai应用构建插件的自动集成和ai模型的上线及openapi的开放。8.根据权利要求7所述的一种自动弹性伸缩的ai运行时装置,其特征在于:所述serverless架构还具有自动伸缩和按量付费等特点。9.根据权利要求1所述的一种自动弹性伸缩的ai运行时装置,其特征在于:所述ai应用构建插件包括自动集成功能,所述开发者上传ai模型及其代码包括文件或者数据库的配置,根据客户端传递的具体需求,进行对应的模型匹配和业务逻辑的加载。10.根据权利要求1所述的一种自动弹性伸缩的ai运行时装置,其特征在于:所述ai模型的上线及openapi的开放使用openapi对外暴露ai应用接口,从而能够将ai技术奉献给更多的开发者和用户。

技术总结
本申请公开了一种自动弹性伸缩的AI运行时装置,包括API网关、核心可插拔模块、Kafka消息中间件、模型推理模块和公共模块。本申请天然集成了弹性伸缩的特性,能够快速响应客户需求,且能够保证高效稳定的性能,从而解决了传统架构下因为高并发导致的性能下降的问题,且提供插件思路,使得AI应用平台具备排队、限流、内容安全等能力,在AI应用中,可以最大化地发挥异步排队的特性,通过整合这些功能,本申请平台能够为用户提供更好的服务质量,防止恶意用户攻击和非节点合理占用等情况,本申请具有较高技术实用性和商业价值,可以降低应用平台的部署和维护难度,节省了时间和人力成本,提高了效率,同时也有较强的商业化应用前景。同时也有较强的商业化应用前景。同时也有较强的商业化应用前景。


技术研发人员:刘宇 边江
受保护的技术使用者:刘宇
技术研发日:2023.07.20
技术公布日:2023/10/5
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐