德尔塔DInst数据挖掘系统

德尔塔DInst数据挖掘系统(简称DInst),是公司推出的一款SaaS模式的国产机器学习和数据挖掘产品,提供了易用的图形化用户界面和强大的数据可视化技术,使分析人员无须编程即可快速构建各类数据分析模型,实现了从数据接入、数据处理、模型建立、模型评估、应用预测的全流程管理。
系统提供40多种深度优化的机器学习算法,支持MPP+SMP并行计算架构,是一款所有算法支持并行计算的数据分析软件,在海量数据分析场景下具有速度优势。
系统支持多种数据源(数据库、大数据平台、平面数据)接入方式,提供灵活标准化的模型调用接口,能够与企业现有业务系统无缝整合。

数据接入

提供多种数据接入方式,支持Oracle、DB2、SQL Server、MySQL、PostgreSQL、神通数据库、神通集群数据库等主流关系数据库和MPP数据库系统,支持CSV、EXCEL、TXT等平面数据源以及Hive、HBase等大数据平台,实现了数据的统一接入和管理,为企业级数据分析建立坚实的数据基础。

丰富的分析算法

提供了描述性统计、数据探索、异常检测、层次聚类、方差分析5大类14个实用的统计分析方法,结果展示采用定量分析和图形展示相结合的方式,从而方便分析人员对数据进行初步探索和分析。
为满足更深层更智能的数据分析需求,DInst提供了众多经典数据挖掘算法,涵盖了属性筛选、分类、回归、聚类分析、关联分析、时间序列分析、智能推荐7大类别,提供决策树、神经网络、支撑向量机、贝叶斯网络、两阶段聚类、购物篮分析、序列模式、协同过滤等30种经典数据挖掘算法。通过对各种数据挖掘算法进行深度优化和巧妙设计,算法性能优于传统算法。

高性能计算

DInst采用MPP+SMP混合并行架构,全节点采用MPP架构,实现多任务的并行和部分算法单任务粗粒度并行;单节点采用SMP架构,实现所有算法的细粒度并行,并确保内存的节约。使得DInst成为唯一一款所有算法实现并行化数据挖掘软件。

灵活的扩展接口

提供标准接口方式输出分析成果,支持在其他业务系统中快速调用、封装和整合数据挖掘模型,与企业现有业务系统无缝整合,使数据挖掘模型真正面向决策。

闭环分析流程

一套科学的软件,应该融入一套科学的方法论。由于没有形成闭环的分析流程,从而导致分析和业务脱节,这使得目前很多数据挖掘项目最终以失败而告终。通过借鉴6西格玛理论及CRISP-DM思想,DInst研发团队提炼出了一套更适合数据挖掘项目建设的方法论,并将这一套方法论融入到DInst产品中,强化流程中各环节的积极互动,确保整个分析流程的闭环结构,使整个分析流程(包括数据探测、数据预处理、建模、评估、打分、模型发布和预警)均在系统中统一进行,从而保证了整个分析流程管理的统一化、各环节间互动的时效性、以及分析结果部署的便捷性,使得数据挖掘项目实施流程更为清晰,管理更为科学。

完善的模型评估

为降低分析人员筛选最优模型的难度,DInst提供了比国外主流厂商更为完善、专业的模型评估指标和决策指标体系,作为评定模型优劣的标准。分类模型提供分类准确率、Kappa统计量、平均代价、混淆矩阵、覆盖率、F测度等评估指标,以及LIFT图、ROC图、Gain图等。回归模型提供相关度、平均绝对误差、标准均方误差、平均相对误差率、 最大误差值、相对平方根误差 、相对误差等评估指标。

模型可视化

DInst采用丰富的、独特的模型结果展示方式帮助分析人员和决策人员理解和使用模型,从而使数据挖掘技术不仅仅是高级数据分析师的工具,而且使业务专家和其他所有想从数据挖掘的洞察力中获益的人像使用报表工具一样简单地使用数据挖掘技术,并从中获益。

模型预警

为了实时监控模型的时效性,并方便模型更新,DInst提供较为完善的模型监控预警机制。

任务调度

DInst提供完善的任务调度机制,包括周期策略、定时调度、优先级设定、关联任务、触发级别、超时取消等,便于分析人员制定建模任务调度策略和任务执行计划,确保任务执行流程的自动化、计算资源的合理分配和模型的周期性更新。