商业智能之挖掘挖掘报告

时间:2024.5.2

数据挖掘技术在交通事故黑点整治中的运用

根据公安部的统计分析,20xx年,全国共发生道路交通事故327209起,比20xx年下

降13.6%;死亡人数减少7806人,同比下降8.7%;受伤人数减少50 697人,同比下降13.6%;

直接财产损失减少3亿元,同比下降 19.5%。20xx年的道路交通安全状况虽然有所好转,

但是死亡交通事故仍然比较突出,在一些国道、省道和高速公路上形成交通事故多发点,也

称事故黑点。全面系统地分析形成事故黑点的成因,对于预防重大交通事故发生,减少交通

事故死亡人数具有重要的意义。

目前在交通事故黑点整治工作中,主要是借助交通事故数据库,对大量交通事故数据进

行检索和查询,或进行简单的统计,难以深入地分析,难以发掘隐含在其中的模式和规律。

数据挖掘技术恰好符合科学整治事故黑点的需要,利用数据预处理技术整合并转换数据,得

到待分析的事故黑点信息集,通过关联规则分析确定因素间内在的关系,然后根据关联准则

做出判断和总结,可以为城市交通管理部门的决策人员提供辅助决策支持。

经过鉴别技术得到的事故黑点包含大量的事故信息,其中涉及事故本身的信息集,包括

事故时间、事故对象、事故形态、死亡人数、受伤人数以及直接经济损失等;事故车辆的信

息集,包括机动车型号、机动车号、车辆审验情况、车辆所属管辖大队以及车辆损坏情况等;

驾驶人的信息集,包括驾驶人性别、年龄、驾龄、住址以及联系方式等;环境信息集,包括

道路设施、交通设施与管理、天气气候条件、照明条件以及路侧环境等交通环境。原始数据

数量和种类庞大、繁杂,对其直接进行挖掘不利于建立有效的挖掘模式,因此,可以将原始

数据中用户感兴趣的信息整合到少量的关系表中,然后对整合过的数据进行清洗处理并展开

挖掘,挖掘过后由用户对得到的规则模式进行评价决策根据数据仓库理论可知,进行挖掘的

数据必须是面向主题的,而鉴别事故黑点的目的就是“通过对事故多发点、段的道路交通环

境、人文环境等与事故(类型、特征、原因)关系的研究,发现影响道路安全的因素和规律,

用于指导事故黑点的治理及以后的道路与交通设计。

面对待挖掘的数据,需要考虑的首要问题是如何选择适当的挖掘技术来进行数据挖掘。

与对黑点数据整合方法一致,要分析挖掘任务,找到了待分析的黑点上的一些事故诱因,发

现它们之间联系的内在规律,进行人为控制和干预,使事故发生条件缺失,以消除黑点。而 数据挖掘技术中关联规则旨在发现大量数据中项集之间的关联,并用规则表示出来。关联规

则技术相对于数理统计方法更适合于事故诱因分析,它不但可以有效地简化并处理事故记录

数据,还可以推导出一些有用的规则表达式,以展示事故黑点的各客观因素对事故发生的影 响程度。因此,这种模型完全符合要求。关联规则的发现是数据挖掘技术中最重要的一项任务,它的目的是发现数据集中所有的频繁模式。一个大型的数据库,其各个字段之间存在着各种各样的关系,这些关系就隐含在数据库所包含的数据中,关联规则挖掘的目的就是要找出这些隐含的关系。

由挖掘方法产生的结果是1组规则的集合,用户可以从该集合中看到哪些因素更容易导致事故黑点的产生。比如某一个频繁项目集经过计算确定是1个黑点事故的关联规则,可以从中学习到,在高速公路上,车辆行驶速度较快,在夜晚光线不好的时段,如果路侧出现加油站等建筑物,那么容易导致加完油出站的车辆与正常行驶的同向车辆发生侧面碰撞,如果不及时改造,形成事故黑点的可能性就较大。交通安全管理人员可以运用经过关联规则产生的规则表达式,发现产生事故黑点的潜在原因,并采取相应措施,以防止那些可以避免的事故黑点的产生。 公安机关业务部门可以针对各自的黑点整治要求加以运用。相信本方法的推广展开,一定能够为预防交通事故,建立和谐交通环境做出很大的贡献。


第二篇:挖掘企业大数据,成就更加商业智能


IT@Intel 白皮书

英特尔 IT 部门IT 最佳实践商业智能2012 年 7 月

挖掘企业大数据,成就更佳商业智能

要点综述

通过挖掘和分析大数据,企业将能够更深入、更广泛地洞察业务模式和发展趋势,帮助企业在制造、安全、营销和 IT 领域提高运营效率和

竞争优势。

英特尔 IT 部门正在部署系统和开发技能,用于深入分析大数据,以提高公司的商业智能(BI)。这一数据中的一大部分为非结构化的大数据集,在企业数据中所占的比例最高可达 90%。通过挖掘和分析来自各种来源形式的大数据,我们将能够更深入、更广泛地洞察业务模式和发展趋势,帮助企业在制造、安全、营销和 IT 领域提高运营效率并获得竞争优势。

要提升未来业绩,我们需要开发企业技能,以挖掘和处理大数据,并在此基础上预测和分析最佳行动方案,来支持英特尔:

? 做出更明智的决策? 提高业务发展速度? 加快创新步伐? 发现和开拓新市场

企业通常在意识到信息的全部价值之前,就已经开始获取并存储信息。如今,并行计算的发展使处理大数据成为可能,并且能够解决许多以前由于数据过大而无法处理的业务难题。

英特尔 IT 部门在 2012 年与英特尔业务各部门密切合作部署了一个大数据平台,用概念验证展示其在为企业提供商业智能方面的出色成效。

我们 2012 年的大数据项目包括:? 恶意软件检测? 芯片设计验证? 市场情报? 推荐系统

英特尔正处于利用大数据实现更佳商业智能的初期阶段,但我们预期这些能力在研发、网络安全、设计、制造、运营、市场开发和人力资源管理等领域将会快速增长。

Moty Fania

高级商业智能解决方案,英特尔 IT 部门

John David Miller

英特尔 IT 实验室首席工程师

IT@Intel 白皮书 挖掘企业大数据,成就更佳商业智能

目录

要点综述 ....................................................................1业务挑战 ....................................................................2

浩瀚数据,知识难求 ................................2需要带头人 ........................................................3

解决方案 ....................................................................3

MPP 数据库管理系统平台 ....................3Hadoop ....................................................................3混合平台优势 ..................................................4开发大数据技能和专业知识 ..............4

概念验证 ....................................................................5

恶意软件检测 ..................................................5芯片设计验证 ..................................................5市场情报 ..............................................................6推荐系统 ..............................................................6

总结 .................................................................................7更多信息 ....................................................................7撰稿人 ..........................................................................7缩写词 ..........................................................................7

IT@INTEL

IT@Intel 计划将全球各地的 IT 专业人员及其在我们机构中的同仁紧密联系在一起,共同分享经验教训、方法和战略。我们的目标十分简单:分享英特尔 IT 部门最佳实践,获得业务价值并实现 IT 竞争优势。如欲了解更多信

息,请访问 /cn/IT 或联系您当地的英特尔代表。

/cn/IT

业务挑战

互联设备、互联网服务、社交媒体、照相机、传感器和用户在全球各地产生的内容正呈爆炸式的增长,使原始数据量亦呈指数级升高。此外,多至 90% 的企业数据(包括文档、网页和电子邮件)都是非结构化数据。数量庞大和复杂的数据使传统的数据库软件难以应对,并急需一种新的方法来处理。

浩瀚数据,知识难求

麦肯锡全球研究院的报告《大数据:创新、竞争和生产力的下一个前沿领域》显示,在美国的 17 个业务领域中,有 15 个领域的公司的数据存储量比美国国会图书馆还多。1 沃尔玛就是一个典型实例。这一零售业巨擎每小时要处理超过 100 万笔客户交易,其数据库估计包含超过 2.5 PB 的数据,相当于美国国会图书馆全部书籍中所含信息的 167 倍。

这些大数据主要来自于全球数十亿笔的交易,以及诸如英特尔等企业每天记录的有关其客户、供应商和业务运营的信息。大数据正从原来的存储难题,转变为新近的战略性资产,成为可以为业务各方面提供重要洞察的金矿。

1

麦肯锡全球研究院,2011 年 5 月。/insights/mgi/research/technology_and_innovation/big_data_the_next_frontier_for_innovation

我们认识到,大数据使用案例包含两个基本类别,分别是:

? 大数据库。包含结构化数据。此类数据对于传统关系型数据库管理系统(RDBMS)而言过于庞大,无法处理。? 深度分析。用于搜索复杂、开放式问题的答案。通常,此类答案无法直接在源数据中编写。大数据可视化和分析工具能够帮助连续调优和抽象从而获得宝贵的洞察信息。

过去,大部分公司只能努力集合数据进行分析,或者进行抽样并尝试从中推断含义。现状依然如此。Gartner 预测,“到 2015 年,超过 85% 的《财富》500 强企业将无法有效利用大数据获得竞争优势。”2 然而,各领先企业已开始实施大数据分析能力,并取得了显著的成果。据 Gartner 调查,这些公司正采用大数据所带来的新工具和技能,快速改进商业智能、数据挖掘和业务分析等实践。

MIT 数字商业研究中心总监 Eric Brynjolfsson 教授对 179 家大型上市公司展开了调研,发现使用“数据驱动型决策模式”的公司的生产力和赢利能力比竞争对手高出约 5%。他总结道:“对于能够充分利用大数据的公司,将可以更容易实现目标。”3

2

“Gartner 发布针对 IT 企业和用户的 2012 年及以后的热门预测”,Gartner 新闻稿,2011 年 12 月 1 日。/it/page.jsp?id=18627143 MIT Sloan 专家:当今业务问题评论,2012 年 2 月 14 日。/2012/02/15/erik-brynjolfsson-on-big-data-a-revolution-in-decision-making-improves-productivity

挖掘企业大数据,成就更佳商业智能 IT@Intel 白皮书

需要带头人

当今的 IT 经理需要开发系统来分析大数据,并帮助公司根据分析结果做出明智决策。由于大数据是一个新领域,目前缺乏优秀的从业者和最佳实践。提供大数据培训、咨询及其他相关服务的公司将能够帮助填补这一空白。

约两年前,我们开始考虑如何利用我们的大数据。大数据工作在我们的总体路线图中占据着重要一环,以更有效的分析能力推动我们的业务变革。

解决方案

英特尔 IT 部门正在开发多个大数据概念验证,以证明大数据在解决高价值业务难题方面的成效。

根据我们的研究和行业最佳实践,我们于 2012 年在内部实施了一款经济高效的混合大数据平台。该平台由以下组件构成:? 基于 SQL 的大规模并行处理(MPP)数据仓库设备

? Hadoop*(用于在整个计算机集群间分布式处理大型数据集)

MPP 数据库管理系统平台

传统业务分析解决方案一般采用数据仓库系统。但这些系统设计用于进行在线交易处理,而不是做分析的工作。它们通常采用通用数据库、服务器和存储平台构建而成,缺少处理不断增加且瞬息万变的 TB 级数据所需的能力。

相比之下,当今的 MPP 平台不再局限于 SQL 编程,可用于支持使用 Java*、C/C++ 和 R 等编程语言进行开发工作。当配备了丰富

的高级分析和数据库内数据挖掘能力后,这些平台更为灵活,充分利用现有的商业智能和 SQL 技能,并可采用相关编程语言获得新的技能,以实现特定目的。我们所使用的解决方案为第三方数据仓库解决方案,带有非对称大型并行架构,分析大型数据的速度最高可达到传统系统的 100 倍。目前已经有众多厂商推出了此类系统。

在选择解决方案时,我们综合考量了多种因素,其中包括:

? 最高性价比和经济高效的容量

? 简单和快速回报

? 存储和性能从 TB 可扩展到 PB 级? 开源 R 统计计算语言的内建高级分析的完整支持

? 是否能够快速融入我们现有的商业智能环境

? 与企业环境可互操作

该系统专门用于分析,将专有数据过滤技术与基于英特尔? 至强? 处理器 E7 家族的刀片服务器和商用磁盘结合在一起,以较低成本提供了大数据处理性能,并且只需要很少的维护。此外,由于它能够添加刀片来扩展性能和容量。每块刀片与邻近的多块硬盘相连,并行传送数据,相比使用单独数据存储系统的解决方案,能够极大减少访问延迟。

在选择过程中,我们首先对 11 家数据仓库设备厂商进行了书面调查,然后向五家厂商发出了需求建议书(RFP)邀请。最终我们根据 RFP 分析和技术评估选出一家厂商。

Hadoop

Hadoop 是一种开源框架,用于处理庞大数据量。它摒弃了大型超级计算机的模式,而是采用了由多台服务器组成的集群模式,充分利用本地存储和计算资源,其中每台服务器处理一个数据子集。Hadoop 是 Apache 软件基金会的一个顶级开源项目。目前市场上提供有多个商业发行版本。

Hadoop 本身是一款分布式计算操作系统,提供有两项基本服务:

? Hadoop 分布式文件系统。该分布式文件系统提供了类似 UNIX* 的文件系统存储功能,分布于 Hadoop 集群中的所有节点上。Hadoop 还能够使用其它文件系统。? MapReduce。此分布式计算特性是 Hadoop 的基石。MapReduce 可协调集群中的每台服务器,以并行处理总体任务的不同部分。

在此核心之上是众多商用和开源应用程序、工具包和数据层,包括:

? Hive:一种 SQL 语言,用于查询 Hadoop 数据

? Hbase:一种为提供高速读/写的列数据库,能够处理由上亿行和上百万列数据的数据表

? Pig:一种用于处理数据的交互式脚本环境

? Mahout:一种机器学习库,为集群、协作过滤和识别相似提供算法

? Sqoop:一种与 RDBMS 数据库进行导入/导出交换的工具

/cn/IT3

IT@Intel 白皮书 挖掘企业大数据,成就更佳商业智能

? Oozie:一种工作流环境,用于协调复杂数据处理操作

? Cassandra:一种为文档所用的数据库Hadoop 能够线性扩展。例如,集群中的机器数量增加一倍可以减少约一半的处理时间,或在相同时间内处理两倍的数据量。Hadoop 使用 Java 进行编写并在 Linux* 上运行。Hadoop 应用程序通常也使用 Java 编写,但也可使用其他语言。诸如 Hive 和 Pig 等 Hadoop 工具可在客户端电脑上运行并快速生成 MapReduce 程序。

由于 Hadoop 能够整合其集群中所有服务器的存储,并且这些服务器能够使用商用硬盘,因此每 TB 存储的成本非常低,同时集群的存储量可以扩展到 PB 级别。鉴于此,Hadoop 为获取和存储以前需要丢弃的数据提供了一个非常经济高效的选择。此外,它也为获取和存储当前尚没有得到充分认知,但可能存在价值的数据提供了一种可行的机制。诸如文本分析等领域已证明,更多数据(相比更少数据)能够产生更佳的结果,即使是在使用较简单的算

法时也不例外。在诸如网络安全等域中,Hadoop 的庞大容量可支持在更长的时限内进行分析。

Hadoop 及其相关技术通常不用于替代在线交易处理系统或其他传统 RDBMS。Hadoop 的优势在于批量处理 TB 和 PB 级的数据。

能的人员,以及 150 万名知道如何运用大数据分析结果做出有效决策的管理人员和分析师。

诸如统计学、数学、机器学习和可视化分析等大数据的科学技能至关重要,但同样重要的还有协调数据与业务,以及将分析结果转变为业务成果所需的技能。这意味着诸如英特尔业务部门等 IT 客户需要开发内部大数据使用技能,以从大数据中获益。

诸如 Hadoop 等许多大数据技术均采用开源模式,由互联网公司开发而成,用于经济高效地处理大量结构化和非结构化的数据。这些技术发展迅速,但当前仍然需要在 Linux、Java 开发和分布式计算等领域拥有更深入的技术技能。为了部署大数据技术,各公司还必须进一步发展这些技能。

混合平台优势

我们将第三方数据仓库设备与其非对称大规模并行架构组件和 Hadoop 相结合(参见图 1),建立了一个经济高效、高度可扩展的大数据平台,能够充分发挥每个组件的优势。所有这些组件放置在一起,并采用快速网络连接和高速数据加载器相连,使该大数据平台能够根据需要在平台间将数据更高效地移动。

开发大数据技能和专业知识

大数据的最大挑战之一在于,缺少技能娴熟的专家。根据之前提及的麦肯锡全球研究院的报告,到 2018 年仅美国就面临缺少 140,000 至 190,000 名具备深入分析技

缩小知识和技能领域的差距

掌握新技能比实施技术更困难。英特尔 IT 部门和英特尔业务部门正在努力采用多项措施缩小大数据专业知识和经验的差距,

挖掘企业大数据成就更加商业智能

图 1. 英特尔 IT 部门的商业智能大数据平台基于大规模并行处理(MPP)数据仓库设备和运行 Apache Hadoop* 的工业标准服务器集群的组合。

/cn/IT

挖掘企业大数据,成就更佳商业智能 IT@Intel 白皮书

包括研究和培训,聘用具备处理大数据的基本技能集的人员,启动测试和执行概念验证(PoC)工作(如本文所报告的工作),以及实施特定的使用案例等。我们需要从处理数据和进行大数据分析中汲取相关经验。我们相信使用大数据所提供的预测功能和最佳方案的商业智能能够带来的最终成效,将会证明当前在硬件、软件、培训和时间方面的投资物有所值。

基于签名的文件扫描是过去处理恶意软件威胁的最常用方法,而现在由于生成的恶意软件数量越来越多,这一方法的效果逐渐减弱。更好的方法是超越恶意软件一步,深入洞察恶意软件正在做什么、它来自哪里,甚至预测它未来可能出现在哪里等。此类更深入的监控和预测要求不断观察服务器活动,以发现每个层面上的异常,包括系统、网络和应用等。能够揭示这些威胁的模式通常隐藏在各种网络和服务器记录中,例如代理服务器、

为了在所需时限发现这些异常,英特尔正使用大数据技术来收集原始的非结构化数据并对其进行组织,然后使用预测性分析等统计模型来检测活动的异常模式。通过这一概念验证,我们致力于实时发现这些行为,使恶意软件能够被快速发现并得到遏制。我们收集和分析长达数月甚至数年的数据,将能够更准确预测漏洞的来源和性质,以实施更有效的预防措施和系统。

概念验证

英特尔有多项大数据的概念验证正在进行中。在本部分,我们将讨论其中四个。

域名服务器、DHCP 和 VPN 等,其中包含有庞大的数据量。异常可表现为从典型恶意软件签名到更广泛的全球各地的可疑活动和行为方式,例如与已知有害的 URL 进行通信或不寻常搜索等。分析要求一系列复杂的步骤,包括关联许多来源的数据,制定正常网络活动和模式的基准,以检测异常活动。

芯片设计验证

芯片设计涉及广泛的测试,以便能够在芯片中实现这些设计。此类测试涵盖芯片实施的各个阶段,其中数百个传感器按每秒数千次的采样率收集数据。这种广泛测试可产生庞大的数据量。

在此概念验证中,英特尔 IT 部门正在研究大数据平台如何能够用于优化验证流程,

恶意软件检测

随着攻击者和工具变得越来越成熟,网络威胁不断增加。安全检测的目的是及时发现威胁,使用户和安全响应者能够采取必要的防御措施。

大数据的挑战和收益

术语“大数据”指在数据量、来源种类和类型方面对传统关系型数据库方法形成重大挑战的信息难题。数据多种类是大数据的一个最重要特征,包括文本、音频、视频、点击流、日志文件等。基于该特征,即使是几 TB 的非结构化数据,也能够被视作大数据。

谷歌和雅虎等互联网搜索公司是率先开发大数据工具的公司,以便为万维网建立索引。其他互联网公司紧跟其后,开发其它组件来处理订单和建议、Facebook 类消息、以及互联网中的其他问题。现在,企业 IT 部门正在运用这些相同的工具,解决一直以来难以分析和解决的高价值业务难题。

这些新技术的使用从来都不会轻而易举。企业在整合、部署和维护这些新工具方面均面临着严峻的挑战,雪上加霜的是其中大部分工具还处于发展阶段。此外,企业还在 Linux* 和 Java* 等领域需要新的 IT 技能。开发和优化大数据解决方案需要重新思考并行计算结构方面的问题,例如 MapReduce,而且并非所有问题都象 Web 索引一样采取并行处理方式就可以解决。此外,解决大型问题可能需要降低数据库编程人员所一直要求的 ACID 语义中细微、一致、独立和持久性的特点,并牺牲一些低延迟性能来获取高吞吐量。

如果当前数据系统有足够的容量,则无需做出以上牺牲。但是如果问题已经严重超出能力范围,则大数据解决方案可能是唯一的选择。甚至在还没有明确使用案例的情况下,各公司也可利用低成本的大数据存储来捕获和存储几乎可能的一切,并在之后提取其潜在的价值。

/cn/IT5

IT@Intel 白皮书 挖掘企业大数据,成就更佳商业智能

分析几十亿行的结构化和非结构化数据,以帮助加速设计流程,缩短生产时间,并最终缩短上市时间。

“有效区域(Coverage)”是这种使用模式的一个典型示例。在芯片验证的后期阶段,对于芯片何时可以推出,没有明确的规则。一方面,推出带有错误的芯片会对公司的声誉造成巨大损害。另一方面,过多测试会延迟芯片的推出,导致公司遭受数百万美元的销售损失。有效区域的概念旨在避免这些极端的情况。我们收集有关进行处理器测试的逻辑和物理状态的数据,能够更了解这些测试和测试工具的表现情况,并确定芯片是否已准备好推向市场。

大数据分析还能够对发现的缺陷进行自动汇总和分类,以及对大量历史测试进行根由分析,从而可对测试流程提供重要的帮助。我们广泛分析收集到的大量数据,而不只是抽样,能够更全面了解各阶段的进展,并发现改进和精简设计流程的各种方法,最终改进产品。

市场情报

对于诸如英特尔这样在全球各地都有销售和供应链的公司,必须能够预见不断变化的市场条件并准确预测未来一个月、六个月、甚至五到十年可能会发生的情况。跨国公司必须对大量数据进行分类,包括天气预报、全球经济数据、论坛、新闻站点、社交网络、wiki、微博和博客等。分

/cn/IT

析此类数据可帮助公司做出准确的预测,规划销售战略,评估竞争对手的威胁,预测消费者行为的变化,增强供应链,以及改进业务发展的计划。

对于这一概念验证,我们正与英特尔业务部门合作,分析来自各种不同来源的数据,以期实现以下目标:

? 改进我们对于全球不同市场的销售预测,调整生产水平,以及向我们的股东提供更准确的预测。

? 根据在全球活动制定和测试方案,以确定它们对我们的市场、供应链、以及我们应对市场需求和竞争对手挑战的能力的影响。

? 为产品发现新用户和新用途。

推荐系统

随着内容量持续呈指数增长,用户亟需帮助来找出最匹配其查询和兴趣的信息。为此,整个英特尔对于推荐服务的需求正不断增长,以支持内部和外部应用。推荐系统与亚马逊和 Netflix 向其客户提供的系统类似,旨在减少搜索和导航时间,以及实现更具个性化的目标结果,为用户提供支持。此举可提高生产效率、可信度和整体用户体验。

实施可扩展的推荐系统要求预测分析能力和大数据专业知识,以便对大量历史数据执行复杂的资源密集型算法。

这一概念验证侧重于构建一个通用的、可重复使用的推荐引擎,包括在我们的大数据平台之上建立一个两层离线和在线架构。离线组件是一种提供给批处理的流程,可执行推荐算法的核心。它可保证我们的模型在可扩展的环境中执行大数据处理,并能够随时扩充。在线组件可作为任何服务请求的服务层。它可加载在离线阶段计算得出的相关中间计算值,并执行此算法中的最后一步,提供推荐的信息。它还可应用上下文配置逻辑,根据请求上下文来过滤和调整最后的推荐。

该解决方案的使用 Mahout 实施核心算法作扩展。Mahout 是一种在 Hadoop 上采用 Java 编写的开源数据挖掘库。它在无共享环境中的商用硬件集群中执行并行作业,可充分利用 Hadoop 架构的优势。所有中间结果均被写入 MPP RDBMS,供在线组件进行快速检索。

部署此推荐服务是提供及时个性化内容的一个关键因素。这将让我们能够在使用英特尔内部应用时提高员工工作效率,还有助于实现竞争优势,改进外部客户对我们产品的选择,从而进一步增加收入。我们将充分利用从上述基于大型数据以提供复杂的预测分析能力的工作中汲取的经验和知识,在未来提供类似的解决方案。

总结

从 2012 年的多个概念验证开始,英特尔 IT 部门采用系统化的方法将大数据分析能力增加到其整体商业智能的努力中。通过增加挖掘和分析大数据的能力,英特尔希望其商业智能能力从描述的分析演进到预测和最佳方案的分析,实现对业务模式和发展趋势的更深入和更丰富的洞察。我们已经完成了第一步,成功设计和构建了一个将第三方数据仓库设备与 Hadoop 结合在一起的大数据平台(Hadoop 是一种开源框架,可跨多台服务器处理海量数据)。该解决方案使我们能够在结构化数据上执行 MPP,以及在工业标准服务器上分布式处理大型数据集。同时,我们的 IT 商业智能人员和业务部门还在内部发展了必要的大数据技能和专业知识,并实现了一定的成熟度。

在成功完成这些概念验证的基础上,英特尔期望在生产中运用其大数据平台解决高价值业务问题,以实现更高运营效率,提高营收和添加新的收入来源。在未来几年里,我们预计我们的大数据分析计划将会进一步发展,为英特尔提供出色商业智能,使我们能够在制造、安全、营销、市场开发和 IT 等领域实现新的竞争优势。

撰稿人

Jessica Brindle,英特尔 IT 部门商业智能战略规划师

缩写词

BI MPP

商业智能大规模并行处理PB 字节概念验证

更多信息

如欲参阅相关主题的白皮书,请访问:/cn/it

? “采用高级分析能力实现英特尔业务转型的路线图”

PB PoC

RDBMS 关系型数据库管理系统RFP TB

需求建议书 TB 字节

如欲了解有关英特尔 IT 部门最佳实践的更多信息, 请访问:/cn/it

本白皮书仅用于参考目的。本文件以“概不保证”方式提供,英特尔不做任何形式的保证,包括对适销性、不侵权性,

以及适用于特定用途的担保,或任何由建议、规范或范例所产生的其它担保。英特尔不承担因使用本规范相关信息所产生

的任何责任,包括对侵犯任何专利、版权或其它知识产权的责任。本文不代表英特尔公司或其它机构向任何人明确或隐含地授予任何知识产权。

英特尔、Intel 标识、Xeon 和至强是英特尔在美国和/或其他国家的商标。* 其他的名称和品牌可能是其他所有者的资产。英特尔公司 年版权所有。所有权保留。

C请注意环保

0712/WWES/KC/PDF

327474-001

更多相关推荐:
20xx年中国商业智能(BI)行业深度研究报告

智研数据研究中心专业的调研报告网站20xx20xx年中国商业智能BI市场研究及投资潜力研究报告客服QQ992930161报告价格印刷版RMB7000电子版RMB7200印刷版电子版RMB7500订购电话4007...

中国商业智能(BI) 市场调研报告

20xx20xx年中国商业智能BI市场调研及发展前景预测报告随着企业CRMERPSCM等应用系统的引入企业不停留在事务处理过程而注重有效利用企业的数据为准确和更快的决策提供支持的需求越来越强烈由此带动的对商业智...

地理商业智能调研报告

地理商业智能调研报告商业智能BusinessIntelligence是将企业用户和社会环境的相关数据转化为有用信息的一种技术是对数据库数据分析和挖掘技术的综合应用能够帮助企业做出合理的业务经营决策然而经济活动必...

商业智能报告制作入门手册

1登入登出及设置用户注册用户登录个性化设置2数据源连接及整合数据源命名及存放规则数据源数据源连接基于数据源的数据查询Excel或csv数据接入不同数据来源的数据整合3报表制作报表命名规则报表制作需要遵守的规则4...

20xx-20xx年中国商业智能市场分析预测及战略咨询报告

20xx20xx年中国商业智能市场分析预测及战略咨询报告艾凯咨询网艾凯咨询网什么是行业研究报告行业研究是通过深入研究某一行业发展动态规模结构竞争格局以及综合经济信息等为企业自身发展或行业投资者等相关客户提供重要...

20xx商业智能前景分析

1内存中的分析内存分析技术在20xx年以其对日益增长的大量数据的快速思考分析能力继续占领着舞台中心SAP的内存设备HANA于六月广泛面市Oracle随后在10月的Oracle开放世界大会上发布了它自己的内存设备...

中国商业智能(BI)发展趋势研究报告

中国商业智能BI发展趋势研究报告随着企业CRMERPSCM等应用系统的引入企业不停留在事务处理过程而注重有效利用企业的数据为准确和更快的决策提供支持的需求越来越强烈由此带动的对商业智能的需求将是巨大的中国产业信...

商务智能期末报告

商务智能期末报告关联规则挖掘算法的研究姓名马静学院计算机信息管理专业电子商务1目录引言31关联规则概述311关联规则的基本概念312关联规则的最小支持度和最小可信度313关联规则基本原理314关联规则的种类42...

商务智能实验报告

商务智能实验报告姓名学号班级一实验目的通过使用SPSSClementine数据挖掘平台了解商务智能中决策树和聚类技术的目的过程理解数据挖掘的结果并能够根据所学习的相关知识对挖掘的过程参数和结果数据进行分析二实验...

20xx年中国商务智能报告

20xx20xx中国商务智能市场发展报告行业简介从全球范围来看商业智能BI已经成为最具有前景的信息化领域从国内来看商业智能是企业信息化中最重要的组成部分据ChinaBI统计20xx年中国大陆地区不含港澳台的BI...

20xx-20xx年中国商业智能(BI)化发展前景分析及投资研究报告

中金企信北京国际信息咨询有限公司国统调查报告网20xx20xx年中国商业智能BI化发展前景分析及投资研究报告第一章商业智能BI相关概述第一节商业智能BI特点及意义涵盖第二节数据质量与商业智能一数据质量在商业智能...

微软商业智能解决方案

微软商业智能解决方案微软商业智能解决方案随着企业各种信息系统的建设和完善企业所拥有的数据越来越多决策者面对的问题已经不再是缺少信息而是如何得到正确的信息以帮助制定决策典型的公司拥有数十乃至上百个应用但是却难于从...

商业智能报告(27篇)