德尔塔TxM文本挖掘系统

德尔塔TxM文本挖掘系统(简称TxM),是天津德尔塔科技有限公司推出的一款国产文本挖掘产品,以自然语言处理(NLP)技术为核心,融合了特征工程、文本挖掘、机器学习、知识图谱等多种分析技术,用于对文本数据进行分析和挖掘,发现其中隐藏的价值和规律。系统采用分布式并行计算架构,提供对海量文本数据的分析能力。

丰富的词库

提供强大的中文分词词库,包括但不限于通用词库、姓氏词库、行政区划词库、政府机构词库、世界城市词库、褒贬义词库、名人词库、领导人词库、停用词库、同义词库、敏感词库、数量词库等各种词库,提供不少于50万的精选词库。为词频分析、文本挖掘等各类文本数据分析奠定基础。

自然语言处理

提供中文分词、歧义消除、词性标注、句法分析、命名体识别、时间推理、指代消解等多种自然语言处理技术,同时提供政治常识校对、信息抽取、文本相似度分析、文本比对等中文信息处理技术。

关键词提取

提供关键词提取引擎,算法考虑词语在文本中的频率,和词语在千万级背景数据中的频率,选择出最具有代表性的关键词并给出相应权重。

文本分类

提供文本分类引擎,支持以下两种文本分类技术:
(1)基于语料和数据挖掘技术的自动分类,简称自动分类。支持朴素贝叶斯、贝叶斯网络、支撑向量机3种文本分类算法,以及规则分类、多层分类算法。为了提高文本分类速度,改善文本分类模型稳定性,提供6种特征抽取算法。每个分类算法能够给出每个类别的分类概率。
(2)基于规则的自动分类,简称规则分类。通过预先定制的规则分类模板进行分类,提供规则模板定制功能。

文本聚类

按照“物以类聚”的思想,将文本进行自动聚类,使得具有相同或相似主题的文本自动聚类同一个类别,并给出每个聚类的特征词列表,从而为话题识别、新闻热点分析、新闻选题等提供技术支撑。

情感分析

基于词性标注、句法解析等技术分析新闻、期刊文章的用户评论信息等,从而自动识别用户对相关新闻、话题等的舆论情感,计算情感系数,支持根据行业定制情感词和特征词。

人物关系分析

基于人名识别算法,提炼新闻、期刊文章中的人名,并对人名在相同文献中共同出现的频率进行分析,最终挖掘出哪些人存在紧密的共现关系。
提供人物关系图谱分析,支持通过输入人名,在指定的文档集合中获取与该人物相关的信息,包括:人物简介、相关的活动、与其他部门或人物的相关的事件等。

关键字趋势分析

当给定关键字时,能够分析出该关键字随时间变化的热度趋势,并且给出不同时期和此关键字共同出现的关键字,从而为新闻选题、知识脉络分析等提供技术支撑。

话题自动识别与检测

通过话题识别算法,将内容较为相似的新闻进行自动聚合,从而识别出话题组,进而识别出热点话题,为新闻选题、舆情分析等提供技术支撑。