本标准规定了通过大数据分析平台的术语和定义、技术要求、性能要求、业务流程、测试方法、验收标准、售后服务、培训以及运行维护。
本标准适用于基于分布式架构下的异构数据体系的大数据分析需求,所以要求能够管理大数据中心集群的物理服务器计算资源。
下列文件中的条款通过本标准的引用而成为本标准的条款。凡是注日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本标准,然而,鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本标准。
GB/T11457–2006:信息技术、软件工程术语GB8566–88计算机软件开发规范
GB/T20271–2006《信息安全技术–信息系统通用安全技术要求》GB/T8566–2007信息技术软件生存周期过程
下列术语和定义适用于本标准,未列出的术语和定义遵循GB/T11457–2006《信息技术、软件工程
是一个来描述使用多个服务器丰富资源的一个集群(cluster)的计算的形象化术语。更技术层面的理解是,在集群处理的语境下,我们可能会讨论节点(node)、集群管理层(clustermanagementlayer)、负载平衡(loadbalancing)和并行处理(parallelprocessing)等等。
识别数据结构的探索性分析,也称为分割分析或分类分析。更具体地说,它试图确定案例的同质组(homogenousgroups),即观察、参与者、受访者。如果分组以前未知,则使用聚类分析来识别案例组。因为它是探索性的,确实对依赖变量和独立变量进行了区分。SPSS提供的不同的聚类分析方法可以处理二进制、标称、序数和规模(区间或比率)数据。
ETL分别是Extract,Transform,Load的首字母缩写,代表提取、转化和加载的过程。它具体是指“提取”原始数据,通过数据清洗/修饰的方式进行“转化”以获得“适合使用”的数据,进而“加载”到合适的存储库中供系统使用的整个过程。尽管ETL这一概念源于数据仓库,但现在也适用于其它情景下的过程,例如在大数据系统中从外部数据源获取/吸收数据。
——处理器(CP?):CP?个数4颗及以上,单颗要求CP?频率3GHz及以上,
大数据分析软件系统软件环境需要linux系统及基础开源项目支撑。大数据分析管理基础设施包括下列内容:
硬件方面,平台运行的主机系统应具有良好的纵向扩展性(通过在单机中增加CPU、内存等资源提高系统处理性能)和横向扩展性(当采用多机体系架构时通过增加服务器数量提高系统处理性能)。考虑到大量数据的备份要求,需要刻录机接口以及插拔式硬盘扩容的接口。
在涉及业务审批时,根据业务流程,一个流程节点未处理完毕,下一级流程节点处理人不能处理,必须按照规定流程进行操作。只有审批通过的业务信息才能进行打印操作。
大数据分析管理为大数据分析供高可靠、安全、容错、易用的集群管理能力,支持大规模集群的安装部署、统一监控告警、统一用户权限管理、日志查询、服务管理等。
关联数据是建模的第一步,用户可以在数据源直接连接数据库或导入本地数据,并可通过新建文件夹或保存到相关的文件夹的方式来对数据进行方便有效的管理。
支持多种数据库类型,例如:基于大数据的HIVE、HDFS等;传统关系型数据库Oracle、Mysql、
DB2、PostgreSQL等。同时支持多种格式的本地数据,例如excel、txt、csv等类型。
建模过程是一个不断尝试不断探索的过程。用户从原始数据出发,经过对数据的探索和处理,运用合适的算法,最终形成业务上可用的模型。
在大数据分析系统中,每一个流程都是由多个算法组成,复制一个算法的同时也复制了其参数配置,极大的方便了用户快速构建大规模数据挖掘系统。每个算法接受若干输入,产生若干输出。每个算法的输出都可以作为其他算法的输入。用户只需把自身业务系统相关的算法拖拽到设计面板内,按需连接输入输出端,即可完成流程设计。
在建模的过程中,会有很多尝试性的步骤,用户还可以通过在流程设计中添加算法分支的方式来对比进行不同的尝试方法,然后根据预测结果找到最佳的预测算法,帮助客户产生更多价值。
在流程设计过程中,用户可以随时保存操作步骤,下次打开该流程时继续进行设计。
当流程设计完毕后,用户可以保存设计步骤,这样就可以在同类型条件下使用该流程来输出模型结果,大大缩减了流程重设计的时间。流程只记录了原始数据如何一步一步转换为最终模型结果的过程,所不同的是,该流程只保留了输出模型结果的必要步骤,不再保留用户在建模时所做的尝试性工作。
建模的目的就是将读取的数据通过一系列算法组合得到最终的模型结果。然后通过数据统计和分析图表等可视化的方式展示,供用户更直观的从图表中发掘数据背后的意义。
在模型搭建或运行期间,用户可随时查看每个算法的运行状态、运行结果和时间。还可查看其运行日志,便于用户排查运行故障。
大数据分析系统从业务落地出发,帮助客户有效的管理大数据挖掘的各个阶段,不仅为客户内置了丰富多样的数据挖掘算法,同时也为用户提供了强大的自定义算法功能及其便捷的管理系统。
客户可根据自身业务需求上传算法JAR包,并可对自定义算法进行编辑、启用、停用和删除操作,以便于对算法进行管理。
——编辑自定义算法。用户可根据业务实际需求,对自定义算法进行基本信息、端口信息、参数信息相应的配置。
——启用自定义算法。启用某个自定义算法后,它将在算法库的相应分类下展示,便于用户设计流程时调用。
——停用自定义算法。停用某个自定义算法后,它将在算法库的相应分类下删除,便于用户对算法库进行整理。
——删除自定义算法。删除某个自定义算法后,它将在算法库和算法列表中同时删除(但不影响占用流程的运行),便于用户对自定义算法的管理。
功能特性:强大的预测模型,提供行业里最全面的系列建模技术,支持GB到PB级数据量训练,超大数据集;高吞吐量的数据读取,高可扩展性,轻松应对数据量持续增长,高性能处理,高效的并行化处理方式;流式的数据访问,一次写入多次读写;高效的结构化、非结构化处理性能,简洁的模型训练,无需编写代码,简单拖拽即可操作,可快速创建、更新模型配置;流程多分支同时训练,支持流程多个分支同时训练,提供简洁易懂的可视化分析报告对比训练结果;丰富的数据挖掘算法;强大的扩展性,支持多种类数据源,可以支持Excel、txt、csv等本地数据,可连接HIVE、HDFS、Oracle、Mysql、DB2、Postgresql等数据库,可信赖的安全控制,提供用户管理及多种权限控制设置,支持数据级别访问安全控制,支持资源级别访问安全控制
通过申请查看授权向数据提供部门提出查询申请,信息所属部门可以对其他部门对本部门信息提请的查看申请进行审批授权。可以设置授权的查看次数和有效期限,也可以永久授权。
如果部门希望其他部门数据交换到本部门,通过数据交换申请向数据所属部门发送申请,申请得到授权后,通过自主交换的方式将数据交换到本部门的指定数据库内。
部门设置信息共享的级别,包括:授权开放、公众开放、部门开放等。同时通过信息管理日志查看用户的操作记录,以确保信息的安全。
主要表现在功能的易操作性、业务流程的易操作性以及界面的友好性方面。系统用户界面友好、生动。系统提供操作手册、在线帮助,功能菜单的安排应符合使用人员习惯,数据能够以清单、表格、图形等形式显示。
软件方面,支持通过参数化配置应对业务功能的一般性变化,提供预留接口以支持与来其他系统的连接,尽量减少业务扩充对系统的影响。
硬件方面,平台运行的主机系统应具有良好的纵向扩展性(通过在单机中增加CPU、内存等资源提高系统处理性能)和横向扩展性(当采用多机体系架构时通过增加服务器数量提高系统处理性能)。
产品说明、用户文档集、程序和任何要交付的数据都作为软件包的组成部分,对产品说明和用户文档集的
2023GWH191-6.0 V12R03C100 中速永磁风力发电机组.pdf
2023 GWH191-6.0 V12R03C100 中速永磁风力发电机组.docx
2021直驱永磁风力发电机组陆上风电场安装规范第2部分:卸货存储.docx
DELTA台达VFD-MS300精巧标准型向量控制变频器使用手册调试说明.pdf
2022-2023学年济南市历城区八年级上学期期中数学试卷(含答案解析).docx
2024秋新北师大版物理八年级上册教学课件 第四章 光现象 第五节 设计舞台灯光秀 .pptx
《大数据挖掘与统计机器学习(第3版)》 课件全套 吕晓玲 第1--10章 概述、线性回归方法 ---循环神经网络和注意力机制.pptx
原创力文档创建于2008年,本站为文档C2C交易模式,即用户上传的文档直接分享给其他用户(可下载、阅读),本站只是中间服务平台,本站所有文档下载所得的收益归上传人所有。原创力文档是网络服务平台方,若您的权利被侵害,请发链接和相关诉求至 电线) ,上传者