img_bigdata_2-4_network-harmful_xq

网络不良信息监控系统

对互联网网站、微博、IDC机房的数据进行深度扫描,发现不良的文字,图像,视频信息即进行。公安机关可使用该系统掌握发布不良信息网站的信息及发布人员信息,并能提取其违法证据,协助公安机关查处违法的个人及团伙。

功能先容:

一、网络爬虫功能

支撑多网站并行爬取,按照爬取四层计算,每台服务器每天可以爬取5000个域名。

爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取互联网信息的程序或者脚本。

种子,实际就是爬虫程序的入口地址,爬虫程序通过这个入口,开始进行一系列的爬取工作,比如:提取子链接、爬取页面内容等等;而澳门新葡萄京官网注册所需要的信息大部分都来自于爬虫提取的页面信息,通过对页面信息进行二次分析,澳门新葡萄京官网注册可以得到想要的属性,从而为其他模块提供充足的数据来源。

img_bigdata_2-4_network-harmful_ct02

爬虫采集示意图

【说明】:从逻辑结构上看,爬虫系统设计分为三个大的部分:

  • 1.采集分发管理:获取采集种子进行任务分发。
  • 2.采集线程调度:组装采集线程,进行实际采集。
  • 3.爬取内容提取:针对采集结果进行按需处理。
二、文字内容检测

采用高性能的AC关键字匹配算法,支撑关键字的模糊匹配,算法复杂度不随文本内容的大小线性增加,处理效率高。澳门新葡萄京官网注册司智能语义分析技术主要包括:分词与全文检索、文章情感分析、话题自动聚合。除此之外,澳门新葡萄京官网注册司还支撑长微博识别功能。

分词与全文检索:类似于百度、GOOGLE等搜索引擎的技术,对采集的网页数据进行处理。
1)去掉网页中的标签等内容。
2)格式化文章内容,提取标题、正文、时间等信息。
3)基于词库,去掉文章中的停用词,提取文章内的关键词并创建索引。

文章情感分析:分析每篇文章的情感倾向性(正、负面分析)。
1)提取文章中包含情感词的语句。
2)分析每个语句的倾向性,然后综合加权分析整篇文章的倾向性。

话题自动聚合:把所有讨论相同主题的文章进行自动分类,并提取文章中的热词。
1)文章的词频、中心词分析;
2)通过一定的算法,比对两篇文章的相似性。从而进行自动归类;
3)自动提取文章的热词,形成话题摘要。

长微博识别:当前在互联网上传播的内容,很多采用了把文字转换为图片后进行传播的方式,典型的应用如微博中的长微博,论坛发帖为了规避关键字过滤而把内容转换为图片。 本系统采用的图片OCR技术,具备以下特点:
1)快速验证图片中是否包含文字内容。
2)识别宋体、楷体、仿宋等主流的字体。
3)识别准确率90%以上。
4)单幅图片的处理时延<20ms。
5)自动去噪技术,系统自动扫描正在图片,提取包含文字的区域。可以有效处理长微博中经常出现的文字和图片混排的情况。

三、图像检测

本系统采用多级检查排除误报,只有同时通过所有分类器的检查的才当做黄色图像;不良图像识别系统以大数据分析为基础,通过对大量的图像数据进行模式分类 ,学习抽象出高决策能力的黄图模型。在此基础上结合有效的识别策略对图像进行不良分析,最终输出一个分析概率分数。 系统将图像的特征,模式的学习和有效的识别有机结合起来,达到高效,快速识别不良图像。

img_bigdata_2-4_network-harmful_ct03

不良图象的识别流程示意图

四、视频检测

采用模式识别和视频指纹技术相结合的方式,支撑对视频的不良信息检测。系统整合了指纹库比对、模式识别、人脸识别三种识别技术,数据处理流程如下图所示:

  1. 通过指纹识别提高识别的性能。
  2. 通过指纹库的自学习功能,提高识别的准确性。
  3. 通过人脸识别功能,对用户关注的人群进行重点关注。
  4. 通过配置反动音视频特征,对暴恐音视频的传播进行监控。
img_bigdata_2-4_network-harmful_ct04

不良视频检测流程示意图

视频模式识详细流程如下:

  • 1.视频解码:对于不同编码格式的视频,系统需要安装特定的解码器进行分析和加载。
  • 2.关键帧提取:在视频的帧结构组成较为复杂(I帧、P帧、B帧),并且视频帧的数量非常巨大。在进行模式识别时不需要对每帧进行逐一的识别。利用澳门新葡萄京官网注册司的关键帧提取技术,把每个场景的关键帧提取后进行识别可以大大提高识别的效率。
  • 3.图像识别:利用黄色图像的模式识别算法对每个关键帧进行识别,并输出每帧的识别结果。
    权重计算:系统可以配置预值(整个视频的黄色图像数量)大于多少的视频判定为违规视频,根据上一步的识别结果与预值的比对输出相应的识别结果。
img_bigdata_2-4_network-harmful_ct05

视频模式识别流程示意图

XML 地图 | Sitemap 地图