德尔塔TxS文本检索系统
分布式全文检索,用于通过对非结构化数据中的文字建立分词和索引,从而实现文本数据快速查找。德尔塔TxS是公司研发的分布式全文检索系统,实现对Word、PDF、HTML、WPS、TXT等各类文本文档的管理,并按照指定关键字进行全文检索和统计分析。系统提供了智能提示、全文检索、关键词及逻辑表达式检索、组合排序、分组统计、自动摘要、主题词典创建、相似推荐、自动关联等核心检索功能。
分布式全文检索,用于通过对非结构化数据中的文字建立分词和索引,从而实现文本数据快速查找。德尔塔TxS是公司研发的分布式全文检索系统,实现对Word、PDF、HTML、WPS、TXT等各类文本文档的管理,并按照指定关键字进行全文检索和统计分析。系统提供了智能提示、全文检索、关键词及逻辑表达式检索、组合排序、分组统计、自动摘要、主题词典创建、相似推荐、自动关联等核心检索功能。
1.多字段类型支持:系统支持数值型、文本型、日期型、布尔型等多种字段类型,支持设置字段分词器类型、是否索引、是否存储标识,支持多值字段。
2.智能提示:支持同音、全拼、词缀等检索提示功能,辅助用户快速准确输入想要检索的关键字。
3.元数据标引:提供数据标注功能,支持对文档的标题、作者、时间、关键字、摘要等相关元数据字段进行人工标注的功能。
4.自动摘要:在系统检索完成后,根据检索条件或内容自动生成知识信息摘要。
5.分组统计:检索结果支持根据指定字段自动分组聚合。
6.组合条件:支持关键字、布尔操作、时间过滤的搜索,同时包括概念搜索、精炼检索、多语种混合检索、联合检索等功能。
7.高亮提示:检索结果命中关键词进行高亮提示。
采用分布式检索引擎,支持集群部署和弹性扩展节点,支持TB级文本检索。
支持分布式存储架构,通过扩展存储节点,提升系统总存储容量。支持多副本存储策略,可以指定副本数,以提高全文检索库的可靠性。
支持常用SQL语法,方便数据分析人员、开发人员灵活查询和统计分析提供标准JDBC接口。
系统提供基于角色访问控制(RBAC)的权限管理系统,包括权限、角色、用户组、用户的管理。
管理员可灵活和精准地控制用户可访问的数据、菜单、接口等,实现企业级数据安全保障。
TxS文本检索系统采用分布式架构,检索引擎支持部署和运行在多台服务器上,组成集群,每一个运行实例称为一个节点。系统也支持单节点部署。
集群监控功能支持对集群中各节点的运行状态参数(如CPU占用、内存占用、磁盘占用等)、各检索库的运行参数(文档个数、磁盘占用等)进行实时监控和历史运行状态监控,系统维护人员和检索库管理人员能够通过该功能进行系统运行分析、故障排查和性能优化。