7.27全国政法展 | 文本挖掘技术在政法领域的应用

信息化造就了高效率时代,社会的飞速运转意味着海量碎片化信息的产出。政法部门担任着维护社会治安的重要角色,在不能对海量信息进行有效识别和管理的情况下,会出现管理粗放、工作被动、业务质量低下以及工作效率低下的现象。因此,如何采用高效的手段进行数据处理和信息识别,是提高政法部门运行质量的关键问题。

数据采集、存储和管理

公司旗下平台拥有海量政法全媒体数据,数据内容包括全媒体动态、文本信息以及其它涉及政法多媒体数据信息。数据的采集、存储和管理均采用了互联网大数据监测及智能分析技术和大数据存储、分析与建模技术。

  • 互联网大数据监测及智能分析技术

为了提高采集整体性能,平台使用基于分布式架构的采集系统完成政法全媒体海量信息采集。同时,采用文本处理相应算法进行数据清洗和预处理,并提取发布内容中的关键字段信息。将海量数据存储于HBase分布式数据库中,并通过我们自主研发云搜索服务检索技术为用户提供毫秒级响应的实时搜索功能。

  • 大数据存储、分析与建模技术

公司使用自主研发的大数据处理技术对海量媒体数据进行加工、处理、分析和展示,拥有高效的物理硬件以及云平台、大数据基础平台以及完善的信息安全和运维保障体系。除此之外,平台采用自主研发的大数据引擎、大数据建模与算法实现资源的管理和调度。

文本处理

平台通过文本挖掘和自然语义分析对采集到的政法全媒体数据进行文本处理,实现高效的专业内容信息产出,为政法全媒体提供价值性服务。

  • 文本挖掘技术

1、内容识别

平台对采集文章内容进行文本倾向性分析、关联分析、去重和相似文本聚类,实现监测内容的关键词提取、专家观点抽取、文本分类和摘要生成,进而完成全网新、热词的发现和热点事件追踪。

2、传播轨迹分析

全网实时监测文本传播情况,根据来源和时间计算和绘制出文本在互联网的传播路径并进行多元化展示。从而掌握文本的真实传播情况,有效保护版权信息。

  • 分布式并行计算技术

在对文本数据进行抽取、分词、情感值计算时,平台采用spark、storm等技术来实现海量数据的分布式并行计算任务。

  • 自然语言处理技术

平台采用自然语言处理技术完成文本数据的信息挖掘,其中包括:

1、文本信息智能提取技术,完成文本信息的实体(人名、地名、机构、时间等)识别;

2、事件抽取技术,完成主题事件自动提取和内容的描述;

3、情感分析技术,判定文本数据包含的主观情感种类并进行情感归类;

4、文本聚类技术,对比文本数据间的相似性,完成智能化类别划分;

5、观点抽取技术,对主题(评价对象)、持有者、持有者的声明以及持有者的情感倾向性进行单独提取,输出文本数据的观点信息。

大屏可视化

公司采用先进的可视化展示技术为政法单位提供全媒体数据定制及可视化服务,实现政法单位对全媒体账号的实时监控和动态管理。

可视化平台整体采用MV*架构,其中大数据分析平台可视化界面子系统基于B/S架构实现,采用HTML5与JavaScript技术构建,与平台后端通过RESTful风格的HTTP Service接口进行对接。

人机交互界面系统与可视化呈现模块均采用RESTful风格的HTTP Service接口API与后端交互,通过RESTful以资源化形式定义接口,以实体形式归纳各接口功能,最终使得API操作语义面向对象并集中于已归类的功能。