上世纪60年代到80年代初期,企业在大型机上布署财务、银行等关键应用系统,存
储介质包括磁盘、磁带、光盘等。尽管当时人们称其为大数据,但以今日的数据量来看,
这些数据无疑是非常有限的。伴随PC的出现和应用增多,企业内部出现了诸多以公文档为
重要形式的数据,包括Word、Excel文档,以及后来出现的图片、图像、影像和音频等。
此时企业内部生产数据的已不仅是企业的财务人员,还包括大量的办公人员,这极大地增
进了数据量的增长。互联网的兴起则促成了数据量的第三次大规模增长,在互联网的时代
几乎全民都在制造数据。而与此同步,数据的形式也极其丰富,既有社交网络、多媒体等
应用所积极产生的数据,也有搜索引擎、网页浏览等被动行为过程中被记录、搜集的数据
时至今日,伴随移动互联网、物联网、云计算应用的深入丰富,数据已呈指数级的增长,
企业所处理的数据已经到达PB级,而全球每年所产生的数据量更是到了惊人的ZB级。在
数据的这种爆炸式增长的背景下,“大数据”的概念逐渐在科技界、学术界、产业界引起热
议。在大数据时代,我们分析的数据由于“大”,挣脱了老式对随机采样的依赖,而是面对
全体数据;由于所有信息都是“数”,可以不再纠结详细数据的精确度,而是坦然面对信息
的混杂;信息之“大”之“杂”,让我们分析的“据”也由老式的因果关系变为有关关系。
大数据热潮的掀起让中国期待“弯道超越”的机会,发明中国IT企业从在红海领域苦苦
挣扎转向在蓝海领域奋起直追的战略机遇。老式IT行业对于底层设备、基础技术的规定非
常高,企业在起点落后的状况下一直疲于追赶。每当企业在花费大量人力、物力、财力获
得技术突破时,IT革命早已将关键设备或元件推进至下一阶段。这种一步落后、到处受制
于人的状态在大数据时代有望得到变化。大数据对于硬件基础设施的规定相对较低,不会
受困于基础设备关键元件的相对落后。与在老式数据库操作层面的技术差距相比,大数据
分析应用的中外技术差距要小得多。并且,美国等老式IT强国的大数据战略也都处在摸着
石头过河的试错阶段。中国市场的规模之大也为这一产业发展提供了大空间、大平台。大
数据对于中国企业不仅仅是信息技术的更新,更是企业发展战略的变革。伴随对大数据的
获取、处理、管理等各个角度研究的开展,企业逐渐认识数据已经逐渐演变成“数据资产”。
任何硬件、软件及服务都会伴随技术发展和需求变化逐渐被淘汰,只有数据才具有长期可
用性,值得积累。数据是企业的关键资产,可以是也应当是独立于软硬件系统及应用需求
而存在的。大数据是信息技术演化的最新产物,确立了数据这一信息技术元素的独立地位
正由于数据不再是软硬件及应用的附属产物,才有了今天爆炸式的数据增长,从而奠定了
大数据的基础。为了充足运用数据资产,大数据产业也呼之欲出。大数据时代来临,使商
业智能、信息安全和云计算具有更大潜力。大数据产业链按产品形态分为硬件、基础软件
和应用软件三大领域,商业智能、信息安全和云计算主横跨三大领域,将构成产业链中迅
速发展的三驾马车。就国内而言,商业智能市场已步入成长期,估计未来3年复合年均增
长率(CAGR)为35%,“十二五”期间潜在产值将超300亿元;信息安全估计未来3年CAGR
有望保持35%~40%的迅速增长,“十二五”期间潜在产值将超4000亿元;云计算刚进入成
长期,估计未来5年CAGR将超50%,年产业规模估计将达1万亿元。大数据处理的基础
设施数据仓库、以物联网为代表的数据搜集环节、实时性强的在线数据分析工具,以及数
据可视化的产品展现,数据挖掘的应用在营销、销售、人力资源、电子商务等各个商业领
域广泛开展,大数据为个性化营销和精确化推荐提供了充足的养分和可持续发展的沃土。
同步大数据研究会给企业管理变革带来巨大冲击。对现代企业的管理运作理念、组织业务
流程、市场营销决策以及消费者行为模式等产生巨大影响,使得企业商务管理决策越来越
依赖于数据分析而非经验甚至直觉。大数据将催生由信息驱动的的商业模式,在企业的价
值链中发挥中间作用,通过商业交易创立极具价值的“排出数据”;数据驱动的决策制定
运用可控试验,企业可以验证假设、分析成果以指导投资决策及运作变化;运用大数据深
入提高算法和机器分析的作用,防止成本高昂的人工干预,节省成本,提高效益。
“大数据”这个概念早在上个世纪的1980年,著名未来学家阿尔文·托夫勒便在《第三次
浪潮》一书中,就将“大数据”热情地赞颂为“第三次浪潮的华彩乐章”。9月《科学》
个词开始被广泛传播。目前国内外的专家学者对大数据只是在数据规模上到达共识:“超大
规模”表达的是GB级别的数据,“海量”表达的是TB级的数据,而“大数据”则是PB级别及其
以上的数据。但对其的精确定义给出的结论不一。美国国家科学基金会(NSF)则将大数据
定义为“由科学仪器、传感设备、互联网交易、电子邮件、音视频软件、网络点击流等多种
数据源生成的大规模、多元化、复杂、长期的分布式数据集”。Wiki对大数据的定义为:所
波及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内到达撷取、管理、处
理、并整顿成为协助企业经营决策更积极目的的资讯。麦肯锡全球数据分析研究所在年5
月刊登的一篇论文中所说:“大数据是指大小超过了经典数据库工具搜集、存储、管理和分
析能力的数据集。”但它同步指出“大数据”并非总是说有数百个TB才算得上。根据实际使
用状况,有时候数百个GB的数据也可称为大数据,这重要要看它的第三个维度,也就是
速度或者时间维度。权威IT研究与顾问征询企业Gartner将大数据定义为“在一种或多种
维度上超过老式信息技术的处理能力的极端信息管理和处理问题”。IBM企业把大数据概括
价值。详细来讲,Volume指数据量极大并仍在持续增大;Velocity指所需的处理速度快,
响应时间短;Variety指数据类型繁多,包括构造化数据、半构造化数据甚至是非构造化
数据(以此辨别大数据与海量数据两个概念);Value指价值密度低,以视频为例,不间断
的监控录像中,有用的数据长度也许仅有一两秒。由以上概念的差异可以看出目前重要从
数据来源和数据的处理工具与处理难度两个方面对大数据进行定义。不过这种定义方式会
和另一种词发生混淆——海量数据。有文献指出大数据=海量数据+复杂类型的数据,这一
公式与否成立还待深入讨论。如今“海量数据”研究方向重要考虑多种非构造化数据的有效
管理、多数据源的集成问题。由此看来能区别两次还需要借助IBM有关大数据4V特性,尤
其是其中的Veloc i t y。强调数据是迅速动态变化的,形成流式数据则是大数据区别于其他
国外除在大数据的概念上的研究外,重点放在技术研究。美国政府六个部门启动的大
数据研究计划中,除了国家科学基金会的研究内容提到要“形成一种包括数学、记录基础和
计算机算法的独特学科”外,绝大多数研究项目都是应对大数据带来的技术挑战,重视的是
数据工程而不是数据科学,重要考虑大数据分析算法和系统的效率。在国内,“大数据”尚
未直接以专有名词被我国政府提出并予以政策支持。因此国内学者有关大数据概念上的研
究并不充足,大多是引用以上定义进行阐释。同步在国内对“海量数据”这一说法认同度较
高,更习惯将“大数据”称为“海量数据,并没有将两个词进行明确的辨别。国内在大数据研
究领域的重点在大数据与云计算、数据挖掘,并行计算和分布式处理,应用式重要集中在
(1) 资源的管理与运用。数据作为一种重要的资源,对它价值的挖掘运用品有非常
重要的意义,因此一直是该领域的研究重点。研究重要波及到数字处理、数据分析以及数
据挖掘,尤其是从海量、复杂、实时的大数据中挖掘知识,可见,对海量数据价值的挖掘
发现和发明价值一直是目前的研究热点。同步为了更好地建设数据资源,对数据的组织和
存储显得尤为重点,于是对应地也成为研究热点,如元数据、数据仓库和数据存储等。
(2) 信息服务。数据组织和建设的重要目的便是开展服务。有关研究重要波及到地
理信息系统、互联网、物联网、遥感、数字都市、商业智能等方面。而物联网一直是重点
关注的新产业,对于数字都市及智慧都市的筹划建设更强调数据的价值。此外,记录还发
现,中国移动、中国电信以及金融领域更重视从数据分析挖掘中获得智慧价值的运用。
(3)行业调整。Hadoop 迈向商业化,开源软件带来更多有关市场机会,将促使一批
新型开放平台的诞生。同步大数据将由网络数据处理走向企业级应用,企业逐渐理解到大
数据并不仅仅指处理网络数据,行业对大数据处理的需求也会增长,包括数据流检测和分
(4)关键技术。数据的管理和运用离不开技术的支撑,服务质量的提高更离不开技术
的保障。近几年的研究重要波及到云计算、Hadoop、MapReduce、并行、分布式、多线程、
网格、可视化等技术。尤其是云计算、MapReduce 以及Hadoop 带来的分布式、并行式算
法与“海量数据”有着亲密的关系,而实际上这三者针对的详细目的本来就是大规模的数据。
大数据研究开创了科研的第四范式,与老式的逻辑推理研究不一样,大数据研究是对
数量巨大的数据做记录性的搜索、比较、聚类和分类等分析归纳,因此继承了记录科学的
某些特点。记录学关注数据的有关性或称关联性,所谓“有关性”是指两个或两个以上变量
的取值之间存在某种规律性,而不再关注因果关系。因果关系的研究曾经引起了科学体系
的建立,近代科学体系获得的成就已经证明,科学是研究因果关系最重要的手段。对于有
关性研究是可以替代因果分析的科学新发展还只是因果分析的补充,这是一种大数据学术
目前大数据研究的局面是各个学科的科学家都以自己为主处理本领域的海量数据,信
息领域的科学家只能起到助手的作用。也就是说,各领域的科学问题还掌握在各学科的科
学家手里,计算机科学家所提炼出的具有共性的大数据科学问题并不多。通过对有关文献
记录,目前大数据方面已刊登论文多有计算机科学方面的研究机构专家学者撰写。大多立
足于信息科学,侧重于大数据的获取、存储、处理、挖掘和信息安全等方面,鲜有从管理
学的角度探讨大数据对于现代企业生产管理和商务运行决策等方面带来的变革与冲击的研
究.缺乏学科之间的交叉与融合,缺乏既拥有清理和组织大型数据的能力又懂得“商业语
1. 若不给自己设限,则人生中就没有限制你发挥的藩篱。2. 若不是心宽似海,哪有人生风平浪静。在纷杂的尘世里,为自己留下一片纯静的心灵空间,不管是潮起潮落,也不管是阴晴圆缺,你都可以免除浮躁,义无反顾,勇往直前,轻松自如地走好人生路上的每一步3. 花某些时间,总会看清某些事。用某些事情,总会看清某些人。有时候觉得自己像个神经病。既纠结了自己,又打扰了他人。努力过后,才懂得许多事情,坚持坚持,就过来了。4. 岁月是无情的,假如你丢给它的是一片空白,它还给你的也是一片空白。岁月是有情的,假如你奉献给她的是某些色彩,它奉献给你的也是某些色彩。你必须努力,当有一天蓦然回首时,你的回忆里才会多某些色彩斑斓,少某些苍白无力。只有你自己才能把岁月描画成一幅难以忘怀的人生画卷。