文档视界 最新最全的文档下载
当前位置:文档视界 › 信息化项目可行性研究报告

信息化项目可行性研究报告

信息化项目可行性研究报告
信息化项目可行性研究报告

信息化项目可行性研究报告

项目名称:基于云技术的人工智能平台建设

项目申报单位:

编制单位:

20年月日

编制:校核: 审核:批准:

目录

1 总论 (1)

1.1主要依据 (1)

1.2主要原则 (2)

1.3必要性分析 (3)

1.4效益分析 (5)

2 项目建设现状 (6)

3 项目需求分析 (7)

3.1业务功能需求 (7)

3.2非功能性需求 (8)

4 项目方案 (9)

4.1项目目标及范围 (9)

4.2项目建设内容 (11)

4.3技术方案 (12)

4.4项目实施计划 (19)

5 经济性和财务合规性 (21)

6 软硬件设计 (22)

7 主要设备材料清册 (22)

7.1编制说明 (22)

7.2主要设备材料表 (22)

8 投资估算书 (22)

8.1概述 (22)

8.2编制原则和依据 (23)

8.3投资分析 (23)

8.4估算表及附件 (23)

附录 (24)

表-1 (24)

表-2 (25)

表-3 (26)

表-4 (27)

表-5 (28)

1总论

本公司为“十三五”信息化重点任务SG-ERP3.0企业级信息系统建设的综合试点单位,率先建成融合企业云计算大数据一体化服务平台和全业务统一数据中心。然而,公司已有基础设施平台在计算算力及技术支撑上尚不足以应对日益增长的人工智能应用开发需求。

为强化人工智能应用基础支撑能力,提升人工智能服务水平,该项目基于企业云计算大数据一体化服务平台,集成全业务统一数据中心的海量数据,建设以电力系统运营管理为主导的人工智能基础服务平台,加强人工智能应用创新,引导创新应用集聚发展,促进人工智能在电网各个领域的推广,从而构建人工智能完整支撑体系,发展“人工智能+”新模式新业态,为实现国网公司建设具有卓越竞争力的世界一流能源互联网企业的目标提供有力支撑。

1.1主要依据

(1)《公司“十三五”信息化发展规划》

(2)《国家电网公司信息化建设管理办法》

(3)《国家电网智能化规划总报告》

(4)《新一代人工智能发展规划》

(5)《国家电网公司人工智能专项规划》

1

(6)《信通技术〔2018〕8号国网信通部关于印发公司信息化建设业务应用典型设计(试行)(2017版)的通知》(7)《国家电网公司应用软件通用安全要求》

1.2主要原则

(1)统一性原则

项目遵循四统一原则,即统一领导、统一规划、统一标准、统一建设的原则。承接国家电网公司“大云物移智”行动计划的建设要求,按照公司企业云计算大数据一体化服务平台整体规划的指导下进行,符合公司整体要求。

(2)先进性原则

选用可控、可靠、成熟、实用的技术,确保平台架构设计先进性、技术路线先进性、测试技术先进性以及组件选择先进性。

(3)安全、可靠性原则

充分考虑系统的安全防护、容错能力和抗干扰能力,保证系统长期稳定、安全、可靠、高效地运行。

(4)实用性原则

充分考虑人工智能模型开发、模型训练和模型发布等用户的个性化需求,提供精而专的管理工具,操作便捷实用,功能完善,界面友好。

2

(5)可扩展性原则

符合国际及国家通用标准,具备良好的开放性和可移植性。采用标准开放平台接口,支持与其它系统的数据交换和共享,便于维护、扩展和互联。

(6)资源复用原则

建设过程将充分考虑到已有软硬件设备设施,尽可能继承和复用有价值的软硬件资源和数据资源,避免资源浪费,重复投资。

1.3必要性分析

《国家电网公司人工智能专项规划》明确了国网公司在人工智能方面的发展方向,在公司基础业务不断发展的现状下,电力信息系统对人工智能算法、应用的需求不断增加,将面临很多问题,具体表现为:

(1)数据处理能力薄弱

随着电力行业新能源持续高比例运行、电力电子装置大量应用、电力市场化水平不断提高,电力系统的动态非线性、多时间尺度、不确定性和难预测性表现得更加突出。目前浙江公司全业务数据中心汇集了数据量达到700T以上,在电网安全与控制领域、输变电领域、配用电领域、新能源领域等应用场景下表现出大维度、小样本、非结构化的数据特性,目前常规的

3

统计分析、数据挖掘、机器学习,难以满足需求,需以人工智能为核心的数据驱动方法替代基于物理模型的分析方法,更加精准地刻画电力系统特征,提升数据处理能力。

(2)人工智能计算资源匮乏

面对全业务数据中心大量的非结构化数据,采用普通的CPU 硬件服务器处理显得过于乏力,搭载GPU的硬件服务器可以有效处理计算资源要求比较高的人工智能图像流处理等应用,利用GPU与CPU服务器的混合使用将使得资源得到优化配置,提升运算处理速度。而对于大规模GPU服务器集群的管理和调用,以及复杂的环境设置,对于人工智能应用的开发来说都是极大的障碍,需要一个统一的人工智能平台来解决这些部署上的问题,减少手动部署的时间,方便硬件资源的配置,减少开发人员的重复性工作。

(3)人工智能应用场景广泛,技术框架多元

电力行业人工智能应用场景丰富,运检、营销、后勤、财务等各专业都有大量的需求,包括多功能场景分析系统,包括摄像机自动标定、人员检测、人员跟踪、姿势分类、行为分析、三维重建等模块;利用无人机,巡线机器人和遥感卫星等对输电设备和输电通道环境进行立体巡检和风险评测,基于图片识别技术有效的处理图片以及视频技术,准确识别出输变电设备本体的缺陷和输电线路的潜在风险;基于导航图像的知识积累

4

和人工智能,通过对空间导航和智能巡检规划,优化巡检路径和重点排查区域等场景。而人工智能的技术框架种类多样,包括TensorFlow、Pytorch、Caffe等,相互之间无法转换,每个应用都相对独立,使算法模型的开发无法复用,增加了人力和物力的消耗,需要统一的技术规范作为应用开发的标准,减少不必要的资源浪费。

因此,建设人工智能平台,提升海量数据处理能力、资源调配能力,支持多种计算框架的人工智能算法,对于突破人工智能关键技术,梳理人工智能应用的发展需求,应用人工智能技术提升公司基础业务水平具有重要意义。

1.4效益分析

建设人工智能平台,可以提升对公司海量、多元异构数据的处理能力,加快企业数据向企业的数据资产转变,降低人工智能应用开发的使用门槛,统一人工智能算法模型的开发部署规范,驱动人工智能应用的高速迭代,具体体现如下:(1)降低人工智能应用的开发成本

基于容器云技术的人工智能平台建设项目,通过容器技术可以实现对大规模计算资源(包括CPU、GPU和内存等)的弹性调配及灵活处理。同时,平台内置算法库并接入全业务统一数

5

据中心,对于人工智能应用的开发人员,可以减少算法调用和数据导入过程,减少工作量,降低人工智能应用的开发成本。

(2)挖掘数据价值,提升公司智能化水平

建设人工智能平台,为开发人员提供了统一的入口,便于处理电力行业内海量非结构化数据,充分挖掘数据价值,推动企业向以人工智能算法为核心的数据驱动模式转变。平台面向全省提供实验和测试环境,有利于人工智能技术的推广,提升浙江公司的智能化水平。

(3)统一人工智能模型开发的技术规范

支持机器学习、深度学习等基础架构下的多种人工智能算法框架,提供相应的开发环境,开发人员可以根据具体业务场景选择合适的算法。基于平台内部的多种类型框架算法库、数据管理、模型开发、模型训练等功能模块建立平台应用开发流程规范以及典型场景应用(图像类、语音类、自然语言处理类、时间序列预测类)开发的技术规范。

2项目建设现状

信通公司成立新技术研究中心,中心内部成立了专门的团队对大数据、人工智能、物联网等新技术进行跟踪研究,并筹建“大数据智能计算实验室”,对数据、模型、应用等方面已经取得部分研究成果。另一方面,信通公司作为国网浙江电力

6

的信息化支撑单位,率先建成企业云计算大数据一体化服务平台和全业务统一数据中心。已有303台服务器规模,部署了24个技术组件,并完成38套企业核心业务系统全业务数据的汇集,总的数据存储量达700TB以上。企业数据统一汇集共享机制及业务创新运营机制的初步建成,为人工智能在国网浙江电力的试点应用落地及铺开打下了较为坚实的基础。本项目建设实施公司已具备成熟的软硬件环境。

3项目需求分析

3.1业务功能需求

(1)需要计算资源管理和调配功能:对底层硬件服务器集群的GPU、CPU、内存、存储、网络等资源进行统一的管理,同时针对人工智能任务训练的特点GPU等资源进行调配。

(2)数据集管理以及图片打标系统:对来自全业务数据中心预处理完毕的数据进行打标操作,对于已经打标好的各类人工智能数据集进行统一的管理。

(3)支持3种人工智能主流算法框架(TensorFlow,Caffe,Pytorch):由于开发人工智能应用神经网络和数据输入整理等工作较为复杂,所以需要内置开发框架降低人工智能开发的复杂度,减短人工智能应用的开发周期。当前支持三种主流人工智能开发框架TensorFlow、Caffe、PyTorch。

7

(4)需要内置通用算法库和电力专用算法库:仅仅提供人工智能应用开发框架是不够的,针对各类场景的人工智能的应用开发需要提供特定的算法。基于图像类、语音类、自然语言处理类、时间序列预测等类型的算法打造成统一的算法库,方便人工智能应用开发时直接调用和调试。同时针对电力特定应用场景基于通用算法库适配改造优化成电力专用算法库。

(5)需要人工智能典型应用场景验证

针对图像识别领域,输电巡检三跨区域各配备摄像头,存储了大量视频数据,同时无人机巡检杆塔拍摄的大量图像数据离线存储在各个基层班组中,针对这些非结构化数据,对输电线路杆塔上的异物进行检测,自动进行识别,可以有效减少巡检人员的工作量,提高巡检的安全性。以此来验证平台功能的完备性,以及人工智能技术在该场景下的可行性。

3.2非功能性需求

(1)性能与可靠性

各类工具系统或组件应不受用户数量限制,按需分配;

系统最大在线用户数预计将超过100个;

系统所需储存空间需求将达100GB;

每个工具业务处理能力和吞吐量不小于100TPS;

8

响应时间要求小于500ms;

网络带宽需求:系统并发用户数在设计要求范围内时,系统网络带宽平均利用率不得超过60%;

可靠性:支持7*24小时连续运行,同时具有良好容错能力。

(2)信息安全

依据《关于信息安全等级保护建设的实施指导意见》和《国家电网公司信息化SG186工程安全防护总体方案》,根据业务信息安全保护等级分析和系统服务安全保护等级分析,对浙江企业级云服务平台受到破坏后的侵害程度进行分析,系统安全标准参照两级等级保护要求。

(3)系统灾备设计

本系统灾备设计从应用、数据存储设计及备份方面考虑:应用平台采用分布式集群设计;数据存储通过分布式文件系统及分布式数据库集群方式结合(一式三份),实现高可靠性;对用户数据和系统通过备份系统进行数据备份。

除上述非功能性需求内容外,其他非功能性需求相关内容将严格按照《国家电网公司信息系统非功能性需求规范(试行)》执行,在系统后续设计、建设过程中逐步完善。

4项目方案

4.1项目目标及范围

9

4.1.1预期目标

目标是在公司现有的云平台遵从统一的技术架构规范构建满足人工智能应用开发的人工智能平台。主要目标包括:(1)大幅降低管理大规模GPU资源难度,提高GPU资源使用率,高效分配管理人工智能训练任务,加快人工智能应用开发迭代速度。

(2)提供图片打标系统可以为人工智能训练任务快速构建所需的特征数据集和测试数据集,同时提供数据管理功能统一管理数据集。

(3)内置通用深度学习算法库降低人工智能应用开发的难度,提高人工智能应用开发的速率。简化开发流程,减轻人工智能应用开发者的开发工作量,极大缩短电力AI应用的开发周期。

(4)提供人工智能典型场景应用示例为人工智能应用开发提供参考,制定人工智能应用开发统一规范和制度流程。

4.1.2项目范围

本项目的建设范围是实现全省信通基于浙电云构建统一的人工智能开发平台。全省基于人工智能的算法开发、模型训练和业务应用应在浙江电力人工智能平台上,遵从统一的技术架构规范。

10

按照全面全员的项目建设思路和范围,本项目实施覆盖省公司本部、11 家地市公司、64 家县公司及所有直属单位。4.2项目建设内容

(1)人工智能平台功能模块建设

提供TensorFlow、Caffe 和 PyTorch的jupyter notebook 在线交互式开发环境,共享数据和资源,支持小组协作开发模式,进一步提升模型开发效率。

支持提交 TensorFlow、Caffe和 PyTorch框架的模型训练作业;支持分布式训练和 GPU 加速,并提供 TensorBoard 来可视化模型训练过程。

模型从开发到生产环境的一站式部署管理,提供统一的RESTful、gRPC模型服务的API,支持模型版本管理和灰度发布,实时监控服务流量,并能够根据资源利用率实现弹性伸缩。

(2)开发人工智能平台打标系统

首先由全业务数据中心得到需要开发、训练及测试的生产运营数据,进行清洗、加工及格式转换等预处理工作,通过开发人工智能平台图片打标系统对预处理的图片数据进行标记和注释,最后将打标好的数据分为特征数据集和测试数据集。

(3)建设人工智能算法库

基于最新的研究成果,通过源代码实现包括图像类、语音类、自然语言处理类、时间序列预测等在内的多种通用算法模

11

型,便于业务人员开箱即用,支持不同业务部门的人工智能应用开发需求。

(4) 设计人工智能典型应用场景示例开发

针对输电线路电线杆塔的异物检测(鸟巢、鸟粪、闪络等)需求,基于人工智能平台开发人工智能场景应用示例,分别从国网统一视频平台中导入视频流数据、从输电运检工区基层班组中提取图片数据,通过人工智能平台打标系统对这些数据进行打标分类,整理成特征数据集和测试数据集,将人工智能应用和数据集通过人工智能平台创建成训练任务进而训练出业务模型,在平台上发布模型服务。将业务部门新的数据通过模型服务进行预测并评估预测结果,进而验证人工智能技术针对该场景的可行性。

4.3技术方案

4.3.1技术架构

人工智能平台为公司电力AI应用的开发及部署运营提供统一的硬件平台及软件支撑服务。本项目从整体技术架构视角出发,从下至上将人工智能平台划分为物理资源层、资源调度层、框架算法库层、数据资源层、业务模型层和API接口层。技术架构如下图所示:

12

图1.人工智能平台技术架构

(1)物理资源层

为让资源的高效使用将GPU与CPU硬件服务器的组成混合集群。物理资源层主要由现有搭载GPU的硬件服务器和搭载普通CPU的硬件服务器共同组成统一GPU、CPU、内存、网络、存储资源池。

(2)资源调度层

基于浙江电力“浙电云”平台及全业务统一数据中心的建设基础,针对人工智能应用开发平台的特点,对人工智能训练任务资源分配、GPU调度等功能进行进一步完善。其中围绕多租户权限体系展开开发适配基于K8S的GPU资源调度,存储管理,资源监控,日志收集展示,服务故障修复、模型服务弹性伸缩,集群扩缩容,训练任务系统等功能模块的工作。

(3)数据资源层

13

数据资源层主要分为特征数据集和测试数据集。首先由运检部、营销部门等向全业务数据中心提交数据申请,得到需要开发、训练及测试的生产运营数据,通过清洗、加工及格式转换等预处理工作后,经由人工智能平台图片打标系统对预处理数据进行标记以及分类,最后将打标好的数据分为特征数据集和测试数据集。为人工智能模型训练提供高质量的数据集支持。

(4)框架算法库

应用开发框架库提供TensorFlow、PyTorch、Caffe框架。通过这些开发框架提供的大量内置功能和函数模块能够快速帮助人工智能应用开发者构建人工智能应用以及简化人工智能应用开发流程从而减少人工智能应用开发工作量和开发周期。

应用开发算法库主要针对各种各样的应用场景提供了常见通用的算法库,包含图像类:R-CNN、KNN、BPNN等,语音类:RNN、隐马尔科夫、MDS等,自然语言处理:ANN、遗传算法、SVM 等,和时间序列预测:BP算法、Boosting、Adaboost等(5)业务模型层

主要负责业务模型的管理,包括模型文件的存储,模型的版本管理,模型配置,模型托管,以及运行生成模型服务实例。业务模型层主要包含图像识别、智能客服、人脸识别、发票识别、语音翻译类模型。

(6)API接口层

14

将业务模型层生成的服务实例通过gRPC和RESTful方式暴

露给外部系统应用进行调用。

4.3.2功能架构

人工智能平台集数据导入、数据处理、模型开发、模型训练、模型评估、服务上线等功能于一体,提供一站式全方位的深度学习建模流程,快速打造智能业务。平台功能架构图如下:

图2.人工智能平台功能架构

(1)web管理页面

提供一个 web 页面供客户使用,用户通过浏览器就可以对平台的各个功能进行管理。

(2)人工智能平台SDK接口

平台研发了一套减少开发周期的工具来提供系统的API,方便对接其他的第三方接口。

15

(3)公共组件

租户系统:对平台上的租户和用户及权限、配额进行管理。资源计量:对平台上面应用所使用的资源进行计量,方便用户查看资源的使用情况。平台配置:对平台上面一些功能的及参数进行配置以便用户对平台进行优化。操作审计:对用户使用时的访问、操作进行记录,方便后期复盘。平台安全:对平台进行相应的安全设置,密码长度,过期期限等。

(4)数据管理

存储管理:对用户数据集存储的管理。存储共享:同一个数据集可被多个用户共享使用。打标系统:将用户上传的数据进行打标。数据上传:对用户提供的数据集进行上传。数据下载:对用户提供的数据集进行下载。平台可以对上传的代码文件通过NoteBook进行代码编辑调试,并同时对训练产生的事件,日志,模型文件进行存储。

(5)模型训练

项目管理:每个训练任务代表一个项目,方便用户对多个项目进行管理。分布式训练:将一个任务拆分成多个子任务,分散到多个GPU上训练。资源分配:对各个任务所使用到资源进行合理的分配。排队任务:如果存在很多任务,会先将这些

任务进行排队,然后顺序执行。任务系统: 对所有的模型任务

16

相关文档