信息内容安全概念
信息内容 信息内容产业:制造、开发、包装、和销售信息产品及其服务的产业。--欧盟INFO 2000计划 信息内容泛指互联网中的结构化和非结构化数据,包括文本数据和多媒体数据。 信息内容安全
信息内容安全是指信息内容产生、发布、传播过程中对信息内容本身及其相应执行者行为进行安全防护、管理和控制。 目标:保证信息利用的安全,即在获取信息内容的基础上,分析信息内容是否合法、阻止非法内容的传播和利用。 解决问题:包括发现隐藏信息的真实内容、阻断所指定的信息、挖掘所关心的信息。
信息内容安全威胁
互联网上各种不良信息内容泛滥 色情、暴力、反动、赌博、诽谤等信息 互联网上各种垃圾信息严重过载 垃圾邮件、垃圾短信等 不良信息内容的传播与利用 网络谣言、网络诈骗、网络暴力信息传播与利用对人身心和社会稳定的威胁 互联网上信息内容侵权行为猖獗 2011年多家媒体公司状告百度影音涉嫌视频盗版侵权……
信息内容安全体系架构
基于政治、法律、道德层面的要求,在分析与识别信息内容的基础上,解决信息内容利用方面的安全防护,保障对信息内容传播和利用的控制能力。
信息内容获取技术
主动获取技术: 向网络中注入数据包后的反馈来获取信息 如搜索引擎技术 可广泛获取信息,但会产生额外负载。
被动获取技术 将设备接入网络特定部位通过镜像或旁路侦听方式获得信息 内容仅限进出本地网络的流量,不会产生额外流量
主动获取技术
以搜索引擎技术为例: 分类
- 全文搜索引擎(Full Text Search Engine) 将互联网抓取的网站信息存入数据库并建立索引,然后查找满足用户需求的记录信息,按一定顺序返回给用户。如Google\Baidu等
- 目录式搜索引擎(Directory Search Engine ) 通过人工或半自动化方式发现信息,依靠编目员的知识将信息划分到事先已确定的分类框架中,用户仅依靠分类目录即可找到所需信息。如yahoo\搜狐等。
- 元搜索引擎(Meta Search Engine) 通过一统一用户界面,调用多个搜索引擎进行搜索,然后将这些搜索引擎的查询结果进行归并、去重等处理后返回给用户。如InfoSpace、Dogpile等。
搜索引擎体系结构 当用户提交查询请求时,搜索引擎搜索事先已整理好的网页索引数据库。
网页搜集:网页信息的抓取一般将网页信息抽象为一个有向图模型,然后按一定的策略进行,再将网页内容存入数据库,对数据库维护的基本策略包括批量搜集和增量搜集两种形式。 预处理:关键词提取、网页消重、链接分析和索引构建四个部分。 检索服务:根据用户需求得到检索结果,并按一定的排列顺序返回给用户。该阶段主要包括查询方式与匹配、结果排序与文档摘要生成。
网页爬虫是网络信息内容主动获取的一种易于实现的方式,且采集到的数据具有相关性,易于分析。 缺点:易消耗WEB服务器的服务资源,且是采集的网页数据,对即时通信信息、邮件等数据具有一定的局限性。
信息内容被动获取技术
网络数据包捕获技术原理 共享式以太网络数据包捕获 交换式以太网网络数据包捕获 端口镜像 ARP欺骗 MAC泛洪:指当交换机设备的内存耗尽的时候,便向连接的所有链路发送数据包。
基于Windows网络数据捕获方法
- 基于原始套接字 流式套接字(处理TCP应用); 数据报套接字(处理UDP应用); 原始套接字(直接对IP数据包进行处理)
- 基于NDIS驱动程序 网络驱动接口规范(Network Driver Interface Specification)由微软和3COM联合开发,现主要用于Windows平台。 定义了网卡或网卡驱动程序与上层协议驱动程序之间通信接口规范,使上层协议驱动程序可以以一种与设备无关的方式与网卡驱动程序进行通信。
- 基于WinPcap等
信息内容识别与分析
以文本和图像两个方面为例介绍信息内容的识别与分析技术。
- 文本数据:面向人的、可以被人部分理解,但不能为人所利用,具有自然语言固有的模糊性和歧义性。
- 文本信息:面向机器的、将隐含的文本数据中的关系以显式的方式展现给用户,具有无歧义性、显性关系等特点。
- 文本知识:对文本信息进行处理得到有意义的模式,对人来说是可理解的和有用的。
通过信息获取技术得到的原始文本要用于信息处理,必须通过文本预处理技术实现文本数据至文本信息的转换,将文本由面向人的转换为面向机器可识别的信息。