网络舆情分析技术的研究

时间:2024.4.1

网络舆情分析研究

舆情是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,民众对社会管理者产生和持有的社会政治态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。网络舆情形成迅速,对社会影响巨大,不仅需要各级党政干部密切关注,也需要社会各界高度重视。随着因特网在全球范围内的飞速发展,网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”,网络成为反映社会舆情的主要载体之一。网络环境下的舆情信息的主要来源有:新闻评论、BBS、聊天室、博客、聚合新闻(RSS)。    

网络舆情表达快捷、信息多元,方式互动,具备传统媒体无法比拟的优势。网络的开放性和虚拟性,决定了网络舆情具有以下特点:1、直接性,通过BBS,新闻点评和博客网站,网民可以立即发表意见,下情直接上达,民意表达更加畅通;2、突发性,网络舆论的形成往往非常迅速,一个热点事件的存在加上一种情绪化的意见,就可以成为点燃 一片舆论的导火索;3、偏差性,由于发言者身份隐蔽,并且缺少规则限制和有效监督,网络 自然成为一些网民发泄情绪的空间。在现实生活中遇到挫折,对社会问题片面认识等等,都会利用网络得以宣泄。因此在网络上更容易出现庸俗、灰色的言论。

与国外相比,我国网络舆情还存在以下特殊情况:一是由于历史的原因,我国曾长期处于封闭状态,容易受到外来思想文化的冲击。二是目前我国正处于社会转型期,不可避免地存在诸多矛盾,容易使一些人出现情绪化冲动,以致不能明辨是非。三是少数社会管理者对于舆论习惯于回避或堵塞。 因此,网络这把锋利的“双刃剑”在提供了下情上达的便捷方式的同时,也对我国政治 安全和文化安全构成了严重威胁,具体表现在以下三个方面:一是西方国家利用网络对我国 进行“西化”“分化”,网上思想舆论阵地的争夺战日趋激烈。二是传统的政治斗争手段, 在网上将以更高效的方式实现,利用网络串联、造谣、煽动将比在现实中容易得多,也隐蔽 得多。三是通过网络,西方的观念、生活方式可以便捷地渗透进来。对于网络舆情的这些特点,社会管理者应当了然于心。对现实中出现的各种网络舆论,社会管理者应能做出及时反馈,防微杜渐,防患于未然。因此必须利用现代信息技术对网络舆情予以分析,从而进行控制和引导。由于网上的信息量十分巨大,仅依靠人工的方法难以应对网上海量信息的收集和处理,需要加强相关信息技术的研究,形成一套自动化的网络舆情分析系统,及时应对网络舆情,由被动防堵,化为主动梳理、引导。

这样的系统应该具备以下功能:首先是舆情分析引擎。这是舆情分析系统的核心功能,包括:1、热点话题、敏感话题识别,可以根据新闻出处权威度、评论数量、发言时间密集程度等参数,识别出给定时间段 内的热门话题。利用关键字布控和语义分析,识别敏感话题。2、倾向性分析,对于每个话题,对每个发信人发表的文章的观点、倾向性进行分析与统计。3、主题跟踪,分析新发表文章、贴子的话题是否与已有主题相同。4、自动摘要,对各类主题,各类倾向能够形成自动摘要。5、趋势分析,分析某个主题在不同的时间段内,人们所关注的程度。6、突发事件分析,对突发事件进行跨时间、跨空间综合分析,获知事件发生的全貌并预测事件发展的趋势。7、报警系统,对突发事件、涉及内容安全的敏感话题及时发现并报警。8、统计报告, 根据舆情分析引擎处理后的结果库生成报告,用户可通过浏览器浏览,提供信息检索功能, 根据指定条件对热点话题、倾向性进行查询,并浏览信息的具体内容,提供决策支持。其次是自动信息采集功能。现有的信息采集技术主要是通过网络页面之间的链接关系,从网上自动获取页面信息,并且随着链接不断向整个网络扩展。目前,一些搜索引擎使用这项技术对全球范围内的网页进行检索。舆情监控系统应能根据用户信息需求,设定主题目标,使用人工参预和自动信息采集结合的方法完成信息收集任务。第三是数据清理功能。对收集到的信息进行预处理,如格式转换、数据清理,数据统计。对于新闻评论,需要滤除无关信息,保存新闻的标题、出处、发布时间、内容、点击次数、评论人、评论内容、评论数量等。对于论坛 BBS,需要记录帖子的标题、发言人、发布时间、内容、回帖内容、回帖数量等,最后形成格式化信息。条件允许时,可直接针对服务器 的数据库进行操作。舆情分析系统的核心技术在于舆情分析引擎,涉及的最主要的技术包括文本分类、聚类、观点倾向性识别、主题检测与跟踪、自动摘要等计算机文本信息内容识别技术。这些技术一向是国内外信息工作者关注的领域。文本检索会议(TREC)、情报检索专业组会议(SIGIR)、文本检测与跟踪会议(TDT)等都是展示此类技术最新研究成果的最主要的国际会议和论坛。其中基于关键词统计分析方法的技术相对比较成熟,但在其有效性方面还有很大的提高空 间。近年来,专家学者一直在研究更加有效的方法,其中基于语义的内容识别方法是当前研究的重中之重,虽然也取得了较大进展,但仍存在很多问题和困难需要克服。为了增加我国网络信息控制能力,我们必须迎难而上加强相关技术的研究。

一、方正互联网舆情分析平台

(1)方案特点

  北京方正电子政务技术有限公司推出的方正智思舆情预警辅助决策支持系统,以整合互联网搜索技术及信息智能处理技术,通过知识管理的方法,对互联网海量信息进行自动抓取、自动分类、自动聚类、主题检测、专题聚焦,实现用户的网络舆情监测和新闻专题追踪等信息需求,形成简报、报告、图表等分析结果,为客户全面掌握群众思想动态,做出正确舆论引导,提供分析依据。

1信息采集:互联网信息(新闻、论坛等)的实时监测、采集、内容提取及排重。

2信息处理:对抓取的内容进行自动分类聚类、主题检测、专题聚焦等。

3信息服务:将采集并分析整理后的信息直接为用户或为用户辅助编辑提供信息服务,如自动生成舆情信息简报、追踪已发现的舆论焦点并形成趋势分析,用于辅助各级领导的决策支持。

(2)应用特点

  方正智思知识管理平台软件是一款中文智能信息挖掘与处理的平台软件,它是以北京方正电子政务技术有限公司多年积累的中文信息处理技术、图形图像处理技术和中文自然语言处理技术为基础,融合了最新的人工智能、信息检索、文本数据挖掘和互联网技术的研究成果,实现了对海量文本、图片、视音频等数字化内容进行智能采集、智能处理、智能检索和智能分析的功能。方正智思舆情预警辅助决策支持系统是以北京方正电子政务技术有限公司自主研发的方正智思为基础,依据市场需求进行针对性的客户需求定制和开发而形成的应用系统,用以辅助用户解决在海量数据环境下所面临的难题,推动各级政府的宣传机构、大众传媒的信息化进程,助力信息传播。

  特点一:提高工作效率,扩大监控范围

  方正智思舆情预警辅助决策支持系统针对互联网的信息进行收集和分析,以计算机智能处理技术辅助舆情信息汇集整理和分析,不仅有效的提高工作效率,改善人工舆情监测的弊端,而且通过本系统,能增加设置媒体舆情监测的数量,扩大舆情监测对像范围,做到了高品质,大范围的深入分析监测,搞高了监测结论的可信性和准确性,降低了人力成本。

  特点二:生成智能舆情报告(包括舆情简板和舆情专报)

  方正智思舆情预警辅助决策支持系统凭借北京方正电子政务技术有限公司多年的科研成果,结合内容管理技术、知识管理技术及互联网相关技术,能够对一段时间范围内新出现的社会舆论热点,生成智能舆情报告。舆情简报图文并貌,直观的体现互联网焦点和热点新闻主题。舆情专报对重要的热点新闻信息进行分析和追踪,对于突发事件引起的网络舆情,可以及时掌握舆情爆发点和事态发展趋势。

  另外,运用该系统,能够有效的降低人工分析检测误差,通过对网络信息源的采集、整理、监测和分析,不仅有效降低人工分析监测误差,而且利于形成高标准高质量的监测报告,便于相关部门快速掌握社会思想动态,为制定相对应的执行方案提供了可信的分析依据。

  特点三:辅助判断网络新闻和评论的正面和负面信息

  方正智思舆情预警辅助决策支持系统支持人工判断标注信息属性,例如,紧急度、密级度、观点倾向等等。可按照信息属性排列信息,例如按照时间排列、观点倾向排列等等。通过系统的统计分析功能,对某社会突发事件的网络新闻和评论的正面负面信息做数据分析,用直观的图表反映网络新闻热点的发展趋势分析。

(3)技术特点

  自然语言处理技术

  据统计,当前数字化的信息中80%的信息以非结构化的形式存在,其中大部分信息以自然语言描述形式的文本。方正智思舆情预警辅助决策支持系统作为一个信息资讯分析应用系统,能够对自然语言描述文本形式进行深入的分析挖掘。

  自动分词技术

  自动分词技术是中文信息处理与分析的基础。错误的分词将导致完全错误的信息语义。方正智思舆情预警辅助决策支持系统中以词典和规则为基础,综合利用了基于概率分析的语言模型方法,使分词的准确性达到99%,并可根据不同的应用进行适合特定要求的分词。

  自动关键词与自动摘要技术

  方正智思舆情预警辅助决策支持系统在篇章语义分析的基础上,综合考虑词频、词性、位置信息,实现准确的自动关键词与自动摘要。同时利用指代消解等技术使得摘要更具可读性。

  全文检索技术

  方正智思舆情预警辅助决策支持系统的全文引擎将传统的全文检索技术与最新的WEB搜索技术相结合,大大提高检索引擎的性能指标。同时融合了多种相关技术,提供丰富的检索手段以及同义词等智能检索方式。

  自动分类与自动聚类

  分类是通过对训练集的学习,得出每一分类的属性特征的模型,然后使用这一模型对未知分类情况的数据进行分类。典型的应用是系统通过对部分已知分类文档的学习训练后,对文档集进行自动分类。它区别于聚类的关键是它有个学习的过程。

  聚类是将数据集合中的数据划分为具有一定意义的子集,使得不同子集中的数据差别(距离)尽可能大,而同一子集中的数据差别(距离)尽可能小。典型的应用例子是,在空间数据库中,根据数据点的空间分布情况,将数据点分成不同的簇。

  相似搜索与消重

  相似搜索是在对象集合中,找到与指定的查询对象相似的对象实例或对象子集。例如:从WEB中找出与指定内容相似的页面、图片或其他信息。在实际应用中,找出舆情信息内容几乎相同的文章,实现对舆情信息的消重;根据文章主题相似性,形成专题报道,背景分析等等。

(4)市场意义

运用方正智思舆情预警辅助决策支持系统,宣传业务部门可以有效的规范互联网信息,引导健康有益的舆论导向。该系统对于促进加强互联网信息监管,组织力量展开信息整理和深入分析,应对网络突发的公共事件,全面掌握社情民意都有着积极的推动作用

二、中国舆情网PALAS(帕拉斯)网络舆情监控系统

       中国舆情网(PubTopic.org)是由复旦大学舆情研究实验室共同主办的国内最大的专业化舆情研究与舆情监测数据平台,它涵盖日常舆情监测、舆情专题、地方舆情、舆情研究频道、舆情报告免费下载、舆情搜索等多个栏目,其首推的中国地方舆情排行榜,是国内唯一按照地方来进行的专业舆情排行榜,在业内形成了广泛的影响力。同时,它提供覆盖全网的舆情监测分析服务,包括:

        1、实时舆情监控系统:PALAS(帕拉斯)。 它主要面向政府机构和企业,包括政府宣传部门、政府信息中心、网络舆情监督部门、公安机关、网络安全部门,以及上市公司、集团企业、信息咨询公司等,并为它们提供量身定制的网络舆情监控、重点事件追踪以及舆情数据分析。

        2、舆情分析报告。它涵盖日报、周报、预警简报(随日报发送)、事件专报(随周报送)及专题研究报告五种。中国舆情网运用帕拉斯(PALAS)舆情监控系统,对平面媒体、广播电视和网络媒体(包括新闻网站、博客、论坛)进行全面监测,按照新闻价值高低和政治敏感度两大标准进行人工筛选,特别是关注突发热点事件、影响社会稳定的风险议题、网民热议的民生话题等,最后选出“关注舆情”,包括“重点舆情”等篇目,再按照媒体分类和新闻议题类别进行人工聚焦检索,分类分析,概括分析,最终形成其旗下的品牌栏目之一《舆情报告》。

三、Web Spider蓝蜘蛛网页抓取工具

本工具可以抓取互联网上的任何网页,包括需要登录后才能访问的页面。对抓取到页面内容进行解析,得到结构化的信息,比如:新闻标题、作者、来源、正文等。支持列表页的自动翻页抓取,支持正文页多页合并,支持图片、文件的抓取,可以抓取静态网页,也可以抓取带参数的动态网页,功能极其强大。用户指定要抓取的网站、抓取的网页类型(固定页面、分页显示的页面等等),并配置如何解析数据项(如新闻标题、作者、来源、正文等),系统可以根据配置信息自动实时抓取数据,启动抓取的时间也可以通过配置设定,真正做到“按需抓取,一次配置,永久抓取”。抓来的数据可以保存到数据库中。支持当前主流数据库,包括:Oracle、SQL Server、MySQL等。本工具完全可以替代传统的编辑手工处理信息的模式,能够实时、准确、一天不间断为企业提供最新资讯和情报,真正能为企业降低成本,提高竞争力。系统功能结构图如下图所示:

抓取工具主要包括5个模块:

1 网页抓取配置模块

页面配置用于对要抓取网站的页面进行分析配置,这是进行抓取配置的第一步,主要功能包括增加页面基本信息配置、修改页面基本信息配置、删除页面基本信息配置、页面定位信息配置、URL配置、URL参数配置、页面解析、页面入库、下级页面配置、设置抓取时间、启动抓取、复制页面配置等功能。

2 页面解析配置模块

页面解析主要功能包括:增加页面解析配置信息,修改页面解析配置信息,删除页面解析配置信息,增加值替换信息,修改值替换信息,删除值替换信息等。

3 页面入库配置模块

页面入库主要功能包括:增加页面入库数据表,修改页面入库数据表,删除页面入库数据表,增加字段对照值,修改字段对照值,删除字段对照值等。

4 页面信息抓取模块

5 其他辅助功能模块

辅助功能主要包括登录、修改管理员信息、系统参数配置、入库数据表配置、抓取统计、查看网页源码、软件注册等。

抓取系统使用流程:

1登录:进入系统

2入库数据表配置:设置本系统将要使用的数据库和数据表信息

3页面配置

页面基本信息配置:要抓取一个网站,首先要配置该网站的基本信息,作为入口

URL配置:配置要抓取页面的URL

定位信息配置:配置要抓取页面内容的具体定位信息

下级页面配置:对于任何页面,都可以根据该页面解析出来的URL,增加子页面,可以深度挖掘想要的信息。

4页面解析

页面解析配置:配置要抓取页面内容的具体解析信息

值替换:对需要替换的页面数据项信息进行替换设置

5页面入库

设定入库数据表:设定该页面要入库的数据表

入库字段对照值:设定该页面数据项和数据表字段的对照关系

6执行页面信息抓取

查看抓取日志



更多相关推荐:
网络舆情分析报告

青岛就植树增绿工作有关情况进行答复承认论证不细致网络舆情分析报告朝阳区教师进修学校主题事件4月18日山东青岛海尔路工人们种植水杉近日一则青岛为打造国家森林城市而毁草种树的消息将该市推向风口浪尖随即这一指责升级为...

20xx网络舆情分析报告

20xx网络舆情报告新媒体是在新的技术支撑体系下出现的媒体形态,也被称为“第五媒体”。近年来,随着科学技术的突飞猛进,新媒体作为一种新的传播渠道和工具,越来越受到人们的关注和利用,舆论影响力和市场影响力与日俱增…

亲稳网络舆情监控系统可行性研究报告

舆情监控系统可行性分析报告20xx年8月1键入文字第一章项目总述11系统背景随着互联网的快速发展网络媒体作为一种新的信息传播形式已深入人们的日常生活网友言论活跃已达到前所未有的程度不论是国内还是国际重大事件都能...

网络舆情监控系统可行性报告

舆情监控系统可行性分析报告20xx4月年1目录第一章项目总述211系统背景212数安舆情监控系统的必要性213我国网络舆情现状314系统设计方针和原则3第二章项目可行性分析421价值分析422数安舆情监控系统三...

中国好声音第二季前五期舆情分析报告

内部资料注意保存中国好声音善察舆情赢得市场第二季前五期舆情分析随着全国各大卫视综艺节目竞争的不断加剧卫视节目舆情分析越来越被重视各大卫视作为主流的具有权威的媒体由于单向传输的制约没有开展舆情分析方面的研究缺乏对...

浅析网络舆情分析在企业品牌危机管理中的应用[1]

浅析网络舆情分析在企业品牌危机管理中的应用摘要随着数字技术的发展互联网的应用与普及网络已成为反映社会舆情的主要载体之一但目前网络舆情分析主要应用于宏观的社会政治管理方面从企业角度出发利用网络舆情分析进行自身品牌...

企业网络舆情信息工作现状及对策分析

企业网络舆情信息工作现状及对策分析杨斌中国石油辽宁阜新销售分公司摘要当前我国网络舆情发展呈现如下态势舆情热点事件不断攀升各种社会思潮网上争鸣网络信息管理渐入法制性轨道社交媒体的链式传播趋于独立在quot三位一体...

上饶县一周舆情分析报告

一周舆情分析报告一本周舆情概况经监测人员日常监测和新华社江西分社舆情系统统计我县本周共监测到网络舆情7条负面舆情总体舆情呈中性其中有两条目前需要尽快处理给出答复以免舆论有所扩大二具体数据分析1从行业上看小区物业...

网络舆情及其技术分析

多瑞科舆情数据分析站网络舆情及其分析技术舆情是指在一定的社会空间内围绕中介性社会事件的发生发展和变化民众对社会管理者产生和持有的社会政治态度它是较多群众关于社会中各种现象问题所表达的信念态度意见和情绪等等表现的...

《腾讯-360事件网络舆情分析报告》-南大谷尼

20xx年春节前后腾讯利用假期在二三线城市推出quotQQ医生quot软件界面及功能酷似360但是这次尝试并未成功5月31日腾讯将QQ医生升级至40版并更名为quotQQ电脑管家quot新版软件涵盖了360所有...

20xx年上半年突发事件政府舆情应对能力分析报告-发布版

20xx年上半年突发事件政府舆情应对能力分析报告中科院计算所天玑舆情分析研究中心20xx年7月目录一二前言320xx年上半年突发事件舆情传播分析52120xx年上半年热点突发事件天玑舆情影响力排行52220xx...

一次应对网络舆情的正面案例

一次应对网络舆情的正面案例网络舆情是以网络为载体以事件为核心广大网民情感态度意见观点的表达传播与互动以及后续影响力的集合网络舆情表达快捷信息多元方式互动具备传统媒体无法比拟的优势网络的开放性和虚拟性决定了网络舆...

网络舆情分析报告(11篇)