时间:2023-02-06 13:49:22 | 浏览:1116
大数据(Big data,BD)或称“巨量数据”,是指规模巨大的数据集。该数据集无法使用传统的、常用的软件技术和工具在一定时间内完成数据获取、管理和处理。通常认为,大数据具有5v的特点。
l 数据规模大(Volume):大数据的数据集的容量可达到数百TB,甚至PB、EB级别的规模。传统的关系型数据库管理体系难以应付如此巨大的数据量。
l 数据多样性(Variety):大数据包括结构化、半结构化、非结构化等各种数据格式,其中的数据更是表现为数值、文本、图形、图像、流媒体等多种形态。
l 数据处理时效性(Velocity):很多大数据应用需要进行及时处理,满足一定的响应性能要求。
l 结果准确性(Veracity):对大数据处理的结果要保证一定的准确性,不能因为大规模数据处理的时效性二牺牲处理结果的准确性。
l 深度价值(Value):大数据中蕴含很多深度价值,需要对大数据进行深入的分析,挖掘出其中包含的巨大价值。
我国《促进大数据发展行动纲要》开宗明义地指出,“大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态”。这个定义反映了当前“大数据”的现实形态,即经过多年的发展,“大数据”一词已经超出了基于数据规模的定义,它代表着信息技术发展到了一个新的时代(即大数据时代),代表着巨量数据处理所需要的新的技术和方法(即大数据技术),也代表着所带来的新服务和新价值(即大数据服务)。
大数据技术的根本任务在于对社会生产生活中所产生的各种数据进行科学筛选,并从中快速获取具有研究价值的数据信息,实现为产业发展赋能。在大数据技术中,数据的采集、预处理、管理、储存、分析以及应用等都是其核心技术。而大数据技术应用的目标并不仅仅在于对巨量数据信息的处理,而是在巨量数据资源中发现有价值的信息,并将其应用到特定领域。当前,大数据处理技术已经在各行各业中得到广泛应用。
随着大数据技术体系的不断成熟,技术构成从面向巨量数据的存储、处理、分析等核心任务,延展到了数据管理、流通、安全等配套技术,形成了层次分明、体系完备的大数据技术框架。主要包括数据维护技术体系、数据管理技术体系、数据分析技术体系以及数据安全技术体系。
在数据维护技术方面,针对数据量大、数据源异构多样、数据时效性高等特征,巨量异构数据存储与计算的技术得到了发展,出现了分布式存储及分布式计算框架。其中,面向巨量结构化及非结构化数据批处理,出现了基于Hadoop、Hive和Spark生态体系的分布式批处理计算框架。面向时效性数据的实时计算反馈,出现了Storm、Flink及SparkStreaming等分布式流处理计算框架。
在数据管理技术方面,由于大数据产生链条长、复杂度高,普遍缺乏有效管理,导致数据获取难、准确性低、实时性差、标准混乱等问题,后续的数据使用和分析存在众多障碍。针对这种情况,用于数据整合的数据集成技术以及用于实现数据资产管理功能的数据管理技术得到了发展。
数据分析应用技术方面,针对数据分析、数据价值挖掘,产生了包括以BI工具为代表的统计分析与可视化展现技术;以传统机器学习和基于深度神经网络的深度学习为基础的数据挖掘分析建模技术,支撑数据价值的挖掘与应用。
数据安全技术方面。随着数据价值得到挖掘,数据安全问题也愈发凸显,数据泄露、数据丢失、数据滥用等安全事件层出不穷,如何应对大数据时代下的数据安全威胁,在安全合规的前提下使用及共享数据成为了备受瞩目的问题。访问控制、身份识别、数据加密、数据脱敏、隐私计算等数据保护技术在大数据领域得到广泛的应用。
从数据处理的实时性角度出发,大数据处理技术可以分为批处理和流处理两大类。
数据批处理通常处理T+1数据,用来支撑以“看”为主的数据应用。适用于对历史数据进行分析和计算,数据处理耗时与数据量呈正相关。数据批处理平台通常包括Hadoop、Hive、数据仓库、ETL、维度建模、数据公共层等。
数据流式处理通常处理实时数据,数据的即时处理能力可以达到秒级甚至毫秒级延迟,可以支撑实时化、在线化的数据分析与展现类应用,非常适合有近实时处理需求的任务。数据流式处理平台的支撑技术主要包含4个方面:实时数据采集(如Flume)、消息中间件(如Kafka)、流计算框架(如Storm、Spark、Flinlk和Beam等)以及实时数据存储(如列族存储的HBase)。目前主流的实时数据平台也都基于这4个方面相关的技术搭建的。
来源:中国经济网中国经济网编者按:5月14日,江西晨光新材料股份有限公司(以下简称“晨光新材”)首发申请将上会。晨光新材拟在上交所主板公开发行A股不超过4600万股,拟募集资金8.02亿元,将分别用于“年产6.5万吨有机硅新材料技改扩能项目
保利联合今日上涨4.99%,全天换手率23.91%,成交额17.28亿元,振幅18.33%。龙虎榜数据显示,机构净买入2763.14万元,营业部席位合计净卖出5110.42万元。深交所公开信息显示,当日该股因日振幅值达18.33%上榜,机构
保利联合今日下跌9.45%,全天换手率32.91%,成交额17.11亿元,振幅8.51%。龙虎榜数据显示,营业部席位合计净卖出3526.27万元。深交所公开信息显示,当日该股因日换手率达32.91%、日跌幅偏离值达-9.87%上榜,营业部席
直播吧11月28日讯 世界杯第2轮,克罗地亚2-1领先加拿大。半场数据如下(左-克罗地亚 右-加拿大):(夜神)
周一伦敦金开盘报1475.84美元/盎司,截至发稿,伦敦金暂录得1474.51美元/盎司,跌幅0.12%。第一黄金网12月16日讯 上周五(12月13日)因国际贸易乐观情绪,伦敦金一度下跌10美元,但由于市场有所消化,且美国零售销售数据不及
最近都在传油价要下跌了,原因就是上周末,欧盟各国政府达成了对俄罗斯海运石油设定每桶60美元的价格上限的共识,并建立调整机制,将上限保持在较市场价低5%的水平。然后石油市场价格有了小幅的下跌。实际上,每桶60美元或者每桶50美元的价格本身并不
那个超过30万人叫“张伟”的时代,已经渐行渐远。近日,姓名大数据报告《2019姓名全景报告》发布,该报告首次通过深度挖掘姓名大数据,对中国人的起名品质进行了量化揭示,并从时代、地域、性别进行了多角度审视。名字越来越多样了“报告显示,‘80后
大数据精准营销是基于多平台的大量数据,依托大数据技术的基础上,应用于互联网广告行业的营销方式。大数据营销的核心在于让网络广告在合适的时间,通过合适的载体,以合适的方式,投给合适的人 依托多平台(微信、广告承接页等)的大数据采集,以及大数据技
来源:鲜枣课堂物联网智库 转载导 读获取数据、存储数据、分析数据,这一系列的行为,都不算新奇。我们每天都在用电脑,每天都在干这个事。但是,同样的行为,放在大数据身上,就行不通了。换言之,传统个人电脑,传统常规软件,无力应对的数据级别,才叫“