您好,欢迎来到华佗养生网。
搜索
您的当前位置:首页TRS互联网舆情管理系统V3.0 SPD

TRS互联网舆情管理系统V3.0 SPD

来源:华佗养生网
TRS互联网舆情管理系统 软件产品说明书 (SPD)

软件产品说明

(Software Product Description)

产品名称 产品简称 版本

发布日期 SPD修订日期

TRS互联网舆情管理系统 TRS OM 3.0

2011年1月30日 2011年1月30日

一、产品描述

随着互联网的飞速发展,网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”。由于网络媒体与传统媒体在传播载体和传播方式上的不同,所以媒体信息的正确性及传播范围都无法得到有效的控制,将导致网络、热点、焦点层出不穷,迅速形成网络舆情,对社会产生巨大影响。在网络媒体中,任何人都可以在 BBS 论坛、留言版或者自建站点等各种各样的信息载体上发布言论和观点,而且发布者往往不考虑发布言论的真实性以及带来的社会影响。尤其是我国互联网发展迅速,网民不成熟,网络监管的缺失和相关法律的不健全,因此在网络上就更容易出现庸俗、灰色、暴力、虚假的言论。可见网络已经成为社会的一种重要表现形式。

为了进一步加强互联网新闻宣传和信息内容的安全管理,各级部门迫切希望及时了解动向,引导发展,制定出正确的策略方针,并能及时采取措施进行有效的干预。因此,基于互联网的舆情管理对于了解社情,缓解压力,建设和谐社会具有重要作用和意义。

TRS互联网舆情管理系统能够实现对新闻网页、论坛、博客、新闻评论等网络资源的精确采集和解析,提供舆情信息检索、热点信息的发现、热点跟踪定位、信息转载追踪、敏感信息监控、辅助决策支持、舆情实时预警、舆情监管等多层次、度的舆情信息的服务,适用于各级职能部门以及企业对竞争环境了解与管理。

二、产品主要功能介绍

 舆情采集功能:TRS舆情采集工具在支持传统网页采集功能的基础上,实现了对论坛、

博客、新闻评论等舆情信息的精准和全面采集,为舆情分析提供了丰富的数据资源。  舆情检索功能: TRS全文数据库检索系统提供了强大的检索功能,可以对海量舆情数

1

TRS互联网舆情管理系统 软件产品说明书 (SPD)

据进行高效、准确、实时的搜索。可以对检索结果信息进行实时自动排重展示;同时对检索结果信息实时进行智能的挖掘,给出检索结果的热点  舆情信息分析功能:

 舆情分类和预警:提供舆情自动分类功能,对用户关注的敏感信息进行监控,通过

褒贬倾向性分析技术发现负面信息,实现对敏感信息的有效监控。通过对舆情分类的结果评估,分析当前的宏观舆情态势,自动给出预警信号,辅助相关人员对舆情进行干预和引导。

 网络新闻聚合:自动聚合网络新闻并自动进行褒贬倾向性的分析。

 网络热点挖掘:自动识别网络上的热点新闻事件,及时掌控论坛中的交互信息,发

现网民的关注焦点和热点;自动提取用户所关注的热点领域,提高热点发现的准确性;自动挖掘热点新闻、热点博客、热点论坛帖子以及网络热词等;对于热点进行持续追踪,通过趋势分析图和传播链分析图等技术帮助用户了解热点事件的报道趋势以及来龙去脉,做出最佳研判。

 智能关联:自动把一条新闻和该新闻相关的新闻、论坛评论、博客评论等信息关联

到一起,帮助用户多方位、多角度了解新闻事件的进展情况,全面地掌握各种渠道相关信息。

 简报功能:简报信息的选择灵活多样,可选取收藏的信息、也可选择不同栏目的信

息;简报模板可以灵活选取和定制;可以将重要内容自动生成报告摘要;简报内容可编辑;按要求可以生成不同级别的简报;简报可以按权限来预览。

 对舆情分析结果生成各种量化的统计图表,给各级的决策提供强有力的数据支

持。

 信息转载追踪功能:实时、准确的追踪定位某一新闻在各个网站的传播转载情况。  对热点新闻和事件发展趋势进行图形化显示。

 舆情展示功能

 灵活多样的页面展示,方便简捷的个性化定制功能,用户根据自己喜好配置首页的

显示内容、样式、摆放的位置、信息条数、滚动信息、栏目高度、以及设置发布权限等,方便用户对系统的使用和管理。根据权限分配栏目,设置浏览权限,不同权限级别看到的栏目信息、简报信息有所不同。  统一配置与管理功能

系统提供统一的配置入口,便于用户对系统使用和管理。包括数据来源配置;智能分析结果存储配置;智能分析工具条件配置;检索条件配置;首页栏目配置;权限管理配置、环境变量配置等。

2

TRS互联网舆情管理系统 软件产品说明书 (SPD)

三、系统组成

TRS互联网舆情管理系统由舆情分析工具、舆情展示平台、舆情采集工具(TRS信息雷达)和舆情检索引擎(TRS Server)四部分组成。系统架构如下图所示:

采集器TRS InfoRadar全文TRS Server索引舆情监控Web应用舆情监控服务器TRS CKM Tools

整个系统的工作流程是:  采集存储

TRS信息雷达从互联网上采集新闻、论坛、博客等舆情信息,并存储到TRS Server全文数据库中。  智能分析

舆情分析工具对TRS Server中的舆情信息进行智能分析和加工。  舆情展示和加工

舆情展示和加工平台把TRS Server中经过加工处理的舆情数据发布到Web界面上并展示给用户。用户通过舆情展示平台浏览舆情信息,通过简报生成等功能完成对舆情的深度加工。

四、主要技术特点  舆情采集功能

在网络舆情采集方面,TRS舆情采集系统通过自动识别技术可以识别网页的标题、正文、中间的表格、图片、附件等,滤除广告(图片或flash)等无用信息;TRS综合采用多种先进技术打造的舆情采集工具,实现了对各种舆情信息的精准和全面采集,TRS舆情采集工具的部分特色功能介绍如下。

 支持网页结构自动分析

论坛和新闻评论的特点是一个物理网页中一般包含多个贴子(或评论),而且随着时间的推移,同一个网页中的贴子会动态变化,有新的子贴增加,也可能有旧贴删除。搜索引擎的处理方法是一个网页解析出一份内容,这样的处理方式不能满足舆情监控的需求,对于舆情系统来说,每一个贴子都代表着一份有价值的信息,因此一个论坛或评论网页往往需要分解为N个贴子,每个贴子都作为一条的信息参与舆情分析。

3

TRS互联网舆情管理系统 软件产品说明书 (SPD)

TRS舆情采集工具实现了基于网页结构的统计分析算法,能够自动识别、分隔出论坛和新闻评论中的每一个贴子及其评论信息,满足舆情分析的需要。  支持基于模板的元数据解析

在贴子自动分隔的基础上,TRS舆情采集工具支持基于模版的元数据解析功能,对于每个贴子可以解析出发贴人、发贴时间、贴子主题、贴子内容、点击数等元数据属性,这些属性是舆情分析的重要数据。  内嵌Javascript脚本执行引擎

随着Web 2.0相关技术的发展,脚本语言越来越多地应用于论坛、新闻评论、博客等类型网站的建设,目的是提高用户的交互性和易用性。由于搜索引擎的采集工具一般不支持脚本语言,因此Google、百度等搜索引擎只能收录少量来自论坛、博客和新闻评论的内容。

TRS舆情采集工具内嵌了脚本引擎,能够实现网页中脚本语言的自动解析和执行,从而能够实现对于采用脚本语言的论坛、博客以及新闻评论网站的采集,为舆情分析提供全面的数据保障。  支持RSS解析

许多博客/新闻评论采用RSS(Really Simple Syndication或RDF Site Summary,信息聚合技术)实现内容共享,除了网页的基本信息,RSS一般都会包含更丰富的元数据信息,比如标题、作者、发表日期、分类、关键词等,有些RSS甚至包含更多的有价值的信息。这些元数据对于舆情分析往往具有重要的价值,TRS舆情采集工具实现了对RSS聚合内容的自动解析和采集。  支持境站监控

系统集成代理技术,通过代理服务器,绕过我国出、入口防火墙的屏蔽,浏览被屏蔽境站,监控有关涉及本地的信息。

TRS舆情采集工具在支持通用网页采集功能的基础上,实现了上述特色功能,从而能够实现对论坛、博客、新闻评论等内容的及时精确采集,为舆情分析提供了丰富的数据资源。

 支持元搜索采集功能

用户自定义采集关键词,TRS采集工具根据关键词自动到谷歌、百度、搜狗、搜搜、雅虎、爱问等搜索引擎上搜索。元搜索的搜采集结果是对定点采集的有益的补充。

 舆情检索功能

在舆情检索方面,TRS 全文数据库系统6.5 版继承了得到业界广泛使用的TRS全文检索系统的全部功能和性能,针对信息内容管理和资源建设的新需求,发展了包括Native XML, 集群,Unicode,自然语言及智能扩展检索等众多新功能,结合TRS领先的结构化和非结构化数据联合查询技术,从而满足了用户对企业搜索的广泛需求。企业级搜索需要精确(查全和查准两者需要兼顾)和快速(数据一旦变化需要及时体现),而互联网搜索引擎无法满足精确和快速的目标检索需求。

TRS 全文数据库系统主要特点包括:  结构化与非结构化数据的统一管理:实现结构化和非结构化数据的统一检索,回答

基于元数据(meta-data)和基于全文(full-text)的联合查询。

 实时动态索引:数据增删改时快速同步更新索引,无需重建整个索引,也无需局部

重建索引。即数据维护(增删改)后马上能够检索出来。

 支持GB18030和UTF字符集:便于对中文偏僻字和世界各国文字的支持。  Native XML支持:能够为更精确的检索提供存储和检索手段。

4

TRS互联网舆情管理系统 软件产品说明书 (SPD)

 中文(字词混合索引):由于中文的特殊性,存在字词索引的问题,按字索引保证

百分之百的查全率;按词检索保证一定的查准率,并且可以维护分词词典,通过对词典的训练,逐步提高检索查准精度。所以中文检索系统需要提供一种索引方式,保证一定查准率的同时提供100%查全的手段。  英文(精确索引):因为词根处理的正确率不高,还有各国英文用词不是很规范,

导致词根处理后错误更多,查全查准成问题。精确索引是解决之道,检索时通过截断符表达式加以解决,例如:eason% or (flavo?ring? Or flavoring? Or flavoring)。TRS除了词根索引,还提供精确索引。

 多种检索入口:属性字段检索(例如分类检索)、关键词检索、位置检索(例如同

段检索)、多字段“与或非”组合检索、二次检索(渐进检索) 、大小写敏感检索、中文简繁体扩展检索、支持超长检索表达式(例如长度为2K)等。

 同义词典,主题词典:检索时能够应用同义词典和主题词典进行扩展检索。  支持检索结果的分类统计和浏览:显示检索结果的分布情况,报告各类别的命中记

录数。

 支持对检索结果的各种排序:基于文章内容与检索表达式的相关度计算的相关性排

序;基于一个或多个特征属性的字段排序。

 支持有多个文本字段和非文本字段参与的相关排序,并且可以指定各参与字段的权

重系数。

 提供分布式检索和负载均衡集群服务器,实现分布式检索和负载均衡功能,满足大

数据量和高并发的检索要求。

 支持输入提示、相关短语、同音校对等智能检索功能,帮助用户更好地组织自己的

查询。

 舆情分析与加工功能

在网络舆情分析和加工方面,综合运用TRS大规模文本智能挖掘技术,实现对海量舆情信息的准确、高效分析和管理,TRS舆情分析与加工平台的特色功能介绍如下。

 信息自动分类与敏感信息监控

采用命名实体识别、褒贬识别及其自动分类技术,TRS舆情系统可以对以下几种信息进行监控:

1)特定的人物:主要是国家领导人,以及特定地区或机构的政治人物; 2)特定的地区:主要是关注的地区,例如北京地区。

3)特定的机构:主要是各级国家机构,以及特定地区的机构。

4) 特定的类别或事件:主要是用户关注的领域,如领域,医疗卫生领域等。 5) 其他有害信息:如功、色情、等反动信息。

TRS舆情分析系统内建了一套较为科学和完整的舆情分类体系,通过自动分类技术,可以对用户关注的敏感信息和国计民生的各个重点领域进行监控,并通过褒贬分析技术发现负面信息,实现对敏感信息的有效监控。与传统的基于关键字的敏感信息监控系统相比,本系统的准确度大大提升。

此外,用户还可以根据自己的需求,自己定义各种有害信息,通过定时监控,自动发现有害信息,实现有害信息的主动监控。

 舆情趋势分析与预警

在舆情分类和褒贬分析基础上,建立多个舆情指标,可以根据舆情指标和舆情分类的结果评估和分析当前的宏观舆情态势。另外,还可提供全国与各地舆情对比功能,帮助用户及时准确地把握宏观舆情走势。

5

TRS互联网舆情管理系统 软件产品说明书 (SPD)

提供实时信息预警机制,可以将短时间内发生的突发热点事件以及敏感新闻通过短信或邮件的方式通知用户,同时可以帮助用户快速制作出关于此热点事件的统计简报。

 热点自动发现

TRS舆情系统采用基于内容相似的智能聚类技术,能够自动识别网络上的热点新闻事件,及时掌控论坛中的交互信息,发现网民的关注焦点和热点。同时利用舆情分类信息,把用户不关注的热点信息过滤掉,提高热点发现的准确性。

根据新闻热点、关键词、专题等信息进行热度分析,考虑了信息来源、所处网页位置、转载、点击、评论、回复和报道率等关键因素,并能够对这些因素进行综合排名,并支持以半小时为间隔的任意时间段进行统计分析,同时提供1天、3天、7天等时间序列的符合用户精确度要求的分类热点排序

 热点自动追踪

对于热点,TRS舆情系统可以做到持续追踪,并通过趋势分析图和传播链分析图等技术帮助用户了解热点事件的报道趋势以及来龙去脉,帮助用户更好地对舆情进行研判。

 网络热词自动挖掘

热词挖掘是从互联网不断更新的信息中寻找一定时期热度高的那些短语,比如人名、地名、机构名和其他常见短语,很多网络热词中是词典中未收录的新词语。按领域可分为政治、经济、军事、娱乐、体育、卫生、科技、社会生活等各个领域的热词。TRS 舆情系统对热度的定义主要考虑两个方面,一是出现的频率信息,出现越多,热度越高,二是历史波动信息,近期出现频率上升曲线越陡,热度越高。

 智能关联功能:

TRS舆情分析系统采用智能关联技术,可以把一条新闻和相关的新闻、论坛评论、博客评论等信息关联到一起,帮助用户多方位地了解新闻事件的进展情况,以及相关的网民评论等信息,全面地掌握各种相关信息;

自动对信息内容提取关键词并进行关联分析,查找与本话题类似的新闻信息、博客信息、论坛信息,对信息进行关联显示。从而进行度的信息展示。

 网民观点归纳

TRS采用文本聚类技术和褒贬分析技术,可以对论坛帖子中的网民评论进行聚类分析和褒贬分析,分析和归纳网民的主要观点,并统计网民的褒贬倾向分布情况,帮助用户更准确地了解社情。

 专题信息的自动发现与统计分析 系统根据用户设定的专题条件,自动搜寻定位该专题的相关信息。提供多角度的统计分析功能,统计专题的新闻报道篇数、主贴报道数、回帖报道数、博客报道数;设定时间内的专题报道趋势;各个网站对专题报道情况的统计;分析专题设计的热点人名、地名机构名等信息。便于用户全方位、多视角的了解专题情况。

 热点词语发现与关联

TRS舆情分析系统可以自动发现网络的热点词汇,包括热点人名,地名,机构名以及其他热点词汇,并通过关联技术组织到一起,帮助用户直观地了解网络热点。

 有害信息统计分析功能

TRS舆情分析系统对各类有害信息提供详尽的显示和统计数据,要能按有害信息分类、按网站所在地区、按网站类别、按网站名称、按发贴者姓名等显示和统计某一时段内的有害信息情况。对以上的舆情分析结果生成各种量化的统计图表,给各级的决策提供强有力的数据支持。

 舆情简报功能

TRS舆情分析系统提供有效的舆情简报加工工具,可以辅助用户生成各种类型的互联网舆情简报,这些报告不仅提供给上级领导,供决策参考。部分也提供给平行单位,做互联

6

TRS互联网舆情管理系统 软件产品说明书 (SPD)

息监控分析使用。报告的内容可编辑修改,报告模版可灵活定制。

支持日报、周报、及时报等多种简报样式。可以通过元搜索方式从百度新闻获取统计信息,使得简报的统计图表具有更高的代表性和准确性。

提供基于永中Office的web简报编辑工具,可以在线生成和编辑WORD格式的简报,支持复杂格式的简报,提高了简报的表现能力。

 图形化展示功能

对热点新闻和事件发展趋势进行图形化显示, 帮助用户更加直观地了解舆情发展态势。 提供多种基于Flash的图表,包括全国地形图、趋势图、金字塔图、转载传播链等,具有更好的交互能力。

 IP归属地分析和地图定位功能:

实现IP归属地分析功能,可以根据论坛发帖人的IP地址信息进行归属地定位。 集成Google地图功能,结合基于地名或IP地址的地区定位功能,提供直观的地图方式方便用户定位舆情发生地。

 元搜索功能

提供元搜索入口,自动调用Google、百度等搜索引擎,可以根据用户输入的关键词,获取到网页分布的站点情况、发布时间等信息,帮助用户制作简报信息。

 违规信息处理及网络探针功能 提供违规信息处理功能:对各类确认的有害信息(系统自动监测、即时搜索、人工输入),由人工设置其处理方式,系统自动抓取并保留网页快照(截屏),并通知对应单位进行处理。

提供网络探针功能:确认后的有害信息进入待处理状态,系统自动定期探测目标网站上的有害信息是否已经删除,并及时修改状态信息 。

 其他功能

 个性化功能

各个用户可以定义不同的首页栏目和导航条,并根据自己喜好配置首页的显示内容、样式、摆放的位置、信息条数、栏目高度等,方便用户对系统的使用。提供首页复制功能,可以把某个用户定制的首页栏目复制给其他用户使用。栏目配置更加简单方便,可以方便地调整栏目的显示风格等配置。提供基于分栏显示的风格,便于用户显示地展示各种分类。对于栏目检索表达式的配置,提供检索表达式的生成器,提示各个检索字段的取值范围,简化配置过程。

 用户及权限管理

系统提供完善的用户和权限管理机制,充分保证信息内容的安全性。用户分组,权限分级。可以实现对信息资源库的访问权限的分配,对用户权力定制。通过多层次的权限控制可以达到对用户的身份甄别,对内部资源的安全保护与利用。权限控制的颗粒度可以具体栏目、专题、某一份舆情简报等。 支持统一权限认证(IDS)。  系统可维护性

提供统一的web界面维护和管理系统。

可以在web端维护分类模板,并指定分类结果的存储字段;

采集工具和舆情分析工具提供自启动服务模式,方便用户维护。

提供舆情系统诊断和监控功能,监控系统是否正常运行,如果发现问题,则通过邮件形式通知维护人员。

 日志管理

完善的日志管理功能。本系统记录了用户的登录信息、系统管理操作、检索日志、栏目

7

TRS互联网舆情管理系统 软件产品说明书 (SPD)

访问记录等各种操作历史记录,方便用户对系统使用情况进行审计和分析。

五、性能指标

检索性能指标:

 自动分类达到85%以上准确率

 在G级数据集合上达到亚秒级检索速度

 数据索引更新时间平均小于0.02s/记录(每条记录4Kb)  全文检索数据库的索引空间膨胀率<0.5

 多用户并发检索,每秒可响应60个以上查询

采集性能指标

 在10M网络带宽环境下,每小时可以采集5万个网页  单个采集工具能够支持千万数量级的网页采集。

舆情分析性能指标:

 自动分类达到85%以上准确率

 智能分析处理速度达到每小时处理5万个网页。  自动聚类速度为每分钟处理5000个网页以上。  信息抽取的速度为每秒500K以上

 网页排重的速度为每小时10万篇以上。

六、运行环境

TRS网络信息雷达系统(TRS InfoRadar) TRS全文数据库服务器(TRS Server)

Microsoft Windows2000/Windows 2003/Windows2008 Radhat Linux as 5

Unix(Solaris2.6,AIX4.3,HP-UX10.0,Tru/Digital Unix3.2,Irix6.3及以上)

Microsoft Windows2000/Windows 2003/Windows2008 Linux2.2及以上

Microsoft Windows 2003/Windows2008

TRS舆情分析与Web发布平台

8

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuo7.cn 版权所有 湘ICP备2022005869号-9

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务