DInst提供决策树、神经网络、支撑向量机、贝叶斯网络、两阶段聚类、购物篮分析、序列模式、协同过滤、方差分析、函数拟合、因子分析等11大类40多种数据挖掘和统计分析算法。对各种算法进行了深度优化和巧妙设计,算法性能优于同类其它产品。
DInst采用MPP+SMP并行计算架构,支持多机并行计算和单机多核并行计算,是一款所有算法支持并行计算的数据分析软件。支持亿行级数据建立数据挖掘模型。
DInst采用丰富的、独特的模型结果展示方式帮助分析人员和决策人员理解和使用模型,从而使数据挖掘技术不仅仅是高级数据分析师的工具,而且使业务专家和其他所有想从数据挖掘的洞察力中获益的人像使用报表工具一样简单地使用数据挖掘技术,并从中获益。
提供通用词库、姓氏词库、行政区划词库、政府机构词库、世界城市词库、褒贬义词库、名人词库、领导人词库、停用词库、同义词库、敏感词库、数量词库、行业词库等10多种词库,上百万精选词汇。
提供文本分类、规则分类、文本聚类、新词识别、关键词抽取、信息抽取、相似分析、文本比较、词性标注、句法解析、命名实体识别、时间推理、情感分析等30多种自然语言处理和文本挖掘算子,满足各类文本分析需求。
采用MPP+SMP分布式并行计算架构,支持多机并行计算和单主机多核并行计算,支持亿行级文本数据的高效分析、建模。
支持微博、微信、论坛、新闻媒体等网站定向采集以及基于搜索引擎关键字的非定向全网采集,支持增量采集
提供热点趋势分析、热门话题聚类、媒体来源分析、传播路径分析、热点区域、舆情热词、情感分析等舆情分析功能
采用分布式采集架构,支持大规模并发采集,支持采集任务灵活调度
支持全文检索、拼音检索、短语检索、通配符检索、范围检索、分组统计等多种检索功能,融合了动态缓存、并行计算以及增量索引技术进一步提升文本索引和检索效能,提供TB级文本检索能力。
采用分布式检索引擎架构,支持多副本、集群部署和弹性扩展节点。充分利用现有硬件资源,降低成本,实现按需扩展。
支持检索接口访问权限、数据权限等细粒度权限控制,提供企业级安全特性。
众多行业大数据成功落地经验,帮助政府、企业、军工单位等加强数据利用,释放数据潜能
有超过30家关键客户,覆盖10余个细分行业,包括国家审计署、国家电网、南方电网、中国航天科技集团等知名企业组织