时间:2022-09-22 15:12:18 | 浏览:1849
作者 | 西西
编辑 | 陈彩娴
众所周知,算法、算力与数据是人工智能(AI)发展的“三驾马车”,吴恩达等学者也常说:以数据为中心的AI,或数据驱动的AI。
由此可见,近年来激增的数据量是 AI 腾飞的源动力之一,数据在 AI 中扮演重要角色。那么,人们口中常说的“大数据”,规模究竟有多大呢?
出于好奇心,一位意大利物理研究者 Luca Clissa 调查了 2021 年几个知名大数据源(谷歌搜索、Facebook、Netflix、亚马逊等等)的规模大小,并将它们与大型强子对撞机(LHC)的电子设备所检测到的数据做了对比。
地址:https://arxiv.org/pdf/2202.07659.pdf
毫无疑问,LHC 的数据量是惊人的,高达 40k EB。但商业公司的数据量也不容小觑,比如,亚马逊S3存储的数据量也达到了大约 500 EB,大致相当于谷歌搜索(62 PB)的 7530 倍。
此外,流数据在大数据市场中也占有一席之地。Netflix 和电子通信等服务产生的流量比单纯的数据生产者要多一到两个数量级。
1 LHC 的数据量
根据 Luca Clissa 的调查,2021年各大知名数据源的体量大约如下:
图注:2021年的大数据规模
右上角(灰色部分)是欧洲核子研究组织(CERN)大型强子对撞机(LHC)实验的电子设备所检测到的数据,规模最大。
在上一次运行(2018 年)中,LHC 在四个主要实验(ATLAS、ALICE、CMS 和 LHCb)中的每一个实验里,每秒产生大约 24 亿次粒子碰撞,每次碰撞可以提供约 100 MB 数据,因此预计年产原始数据量约为 40k EB(=10亿千兆字节)。
但根据目前的技术和预算,存储 40k EB 数据是不可能的。而且,实际上只有一小部分数据有意义,因此没有必要记录所有数据。记录的数据量也降低到了每天大约 1 PB,2018 年的最后一次真实数据只采集了 160 PB,模拟数据 240 PB。
此外,收集的数据通过 WLCG (全球LHC计算网络)不断传输,2018 年产生了 1.9k PB 的年流量。
不过,欧洲核子研究组织(CERN)正在努力加强 LHC 的能力,进行 HL-LHC 升级。这个过程预计生成的数据量将增加 5 倍以上,到 2026 年,每年估计产生 800 PB的新数据。
2 大厂数据量对比
大公司的数据量很难追踪,且数据通常不会公开。对此,Luca Clissa 采用了费米估算法(Fermi estimation),将数据生产过程分解为其原子组成部分,并做出合理的猜测。
比如,针对特定数据源,检索在给定时间窗口内产生的内容量。然后通过对这些内容的单位大小的合理猜测来推断数据总量,例如平均邮件或图片大小,1 小时视频的平均数据流量等等。
他对谷歌搜索、YouTube、Facebook等等数据源进行了估算,结论如下:
谷歌搜索:最近的一项分析估计,Google 搜索引擎包含 30 到 500 亿个网页。根据 Web Almanac 所提供的信息,假设谷歌的年度平均页面大小约为 2.15 MB,截至 2021 年,Google 搜索引擎的数据总规模应约为 62 PB。
YouTube:根据 Backlinko 的数据,2021 年用户每天在 YouTube 上上传的视频时长为 72 万小时。假设平均大小为 1 GB(标准清晰度),2021年 YouTube 的数据大小约为 263 PB。
Facebook 与 Instagram:Domo 的 Data Never Sleeps 9.0 报告估计,2021 年 Facebook 与 Instagram 每分钟上传的图片数量分别为 240k 和 65k。假设平均大小为 2 MB,则总共大约为 252 PB 和 68 PB。
DropBox:虽然 Dropbox 本身不产生数据,但它提供了云存储解决方案来托管用户的内容。2020年,公司宣布新增用户 1 亿,其中付费订阅用户达到 117 万。通过推测免费和付费订阅的占用率分别为 75%(2 GB)和 25%(2 TB),Dropbox 用户在 2020 年所需的存储量约为733 PB。
电子邮件:根据 Statista 的数据,从 2020 年 10 月到 2021 年 9 月,用户大约传送了近 131,000 亿次电子通信(包含 71,000 亿封电子邮件和 60,000 亿封垃圾邮件)。假设标准邮件和垃圾邮件的平均大小分别为 75 KB 和 5 KB ,我们可以估计电子邮件的总流量约为 5.7k PB。
Netflix:Domo 估计,2021 年 Netflix 用户每天消耗 1.4 亿小时的流媒体播放,假设每小时 1 GB(标准定义),总计大约 51.1k PB。
亚马逊:亚马逊网络服务 (AWS) 的首席布道师 Jeff Barr称,截至 2021 年,亚马逊 S3 (Simple Storage Service)中存储了超过 100 万亿个对象。假设平均每桶的对象大小为 5 MB ,那么存储在 S3 中的文件的总大小则约等于 500 EB。
总的来说,科学数据可以在数量上与商业数据源相媲美。
参考链接:
1.https://towardsdatascience.com/how-big-are-big-data-in-2021-6dc09aff5ced
2.https://firstsiteguide.com/google-search-stats/
3.https://backlinko.com/
4.https://mms.businesswire.com/media/20210929005835/en/911394/5/data-never-sleeps-9.0-1200px.jpg?download=1
5.https://backlinko.com/dropbox-users
6.https://www.statista.com/
7.https://aws.amazon.com/cn/blogs/aws/amazon-s3s-15th-birthday-it-is-still-day-1-after-5475-days-100-trillion-objects/
8.https://atlas.cern/
财联社8月9日讯(编辑 刘蕊)据网站故障实时监控平台DownDetector报告,北京时间周二上午,全球多地数万名用户报告谷歌搜索引擎出现故障。据报道称,美东时间周一晚9点20分左右(北京时间周二上午9点20分左右),全球有超过4万人报告谷
财联社(上海 编辑 夏军雄)讯,谷歌周三对欧洲第二最高法院表示,该公司向手机制造商支付预装谷歌搜索的费用,并不是为了排除竞争,而是与苹果争夺市场份额所必需的举措。在屡次被欧盟处以天价罚单之后,谷歌本周发起了反击,该公司试图让法院驳回创纪录的
近日,用谷歌搜索“idiot”一词后显示大量特朗普图片的这一事件引起热烈关注。在使用搜索引擎的时候,你有没有碰到过搜索出来的结果里出现了奇怪的东西的情况?前段时间,这个情况发生在了美国总统特朗普身上。12月11日,谷歌在听证会上遇到了一个非
据澎湃新闻12月12日报道,美国时间12月11日,谷歌CEO桑达尔·皮查伊(Sundar Pichai)在美国国会参加听证会,就谷歌搜索美国保守派内容是否遭到歧视、数据安全、假新闻、仇恨言论等议题展开讨论。 其中,美国国会众议员佐伊·洛夫格
今年,谷歌开发者大会将于12月8日和12月14日分别在北京和上海举办。这是2011年谷歌在中国举办开发者大会之后的再次回归。12月8日(今天)上午9点,谷歌开发者大会(Google Developer Day - GDD)正式在北京国家会议
想要了解更多热门资讯、玩机技巧、数码评测、科普深扒,可以点击右上角关注我们的头条号:雷科技-----------------------------------自谷歌因为某些原因退出中国市场后,这数年里有关“谷歌重回中国”的话题从未断绝。虽
北京时间8月9日消息,据外媒报道,DownDetector.com的数据显示,美国东部时间8月8日晚9:20,谷歌搜索引擎出现全球性宕机的情况,美国有超过4万人反映这一问题,英国、澳大利亚、新加坡的用户也都报告了谷歌宕机问题,随后相关话题冲
IT之家8 月 9 日消息,美国东部时间 8 月 8 日,谷歌一处位于爱荷华州康瑟尔布拉夫斯(Council Bluffs)的数据中心发生“电力事故”,事故已造成 3 人受伤,事发之后已送往医院治疗。据外媒 Sfgate 报道,该事故发生于
8月9日(周二),谷歌为8月8日搜索引擎中断问题道歉。该公司的一位发言人表示,该团队已“迅速开展工作”以解决故障,服务已恢复正常运行。此外,对于数据中心爆炸,Google发言人Devon Smiley向SFGATE发送了以下声明: “我们知
作者 | 西西编辑 | 陈彩娴众所周知,算法、算力与数据是人工智能(AI)发展的“三驾马车”,吴恩达等学者也常说:以数据为中心的AI,或数据驱动的AI。由此可见,近年来激增的数据量是 AI 腾飞的源动力之一,数据在 AI 中扮演重要角色。那
机器之心报道机器之心编辑部BERT 是谷歌开源的一款自然语言处理预训练模型,一经推出就刷新了 11 项 NLP 任务的 SOTA 记录,登顶 GLUE 基准排行榜。具体到搜索引擎来说,BERT 可以帮助搜索引擎更好地理解 web 页面上的内
IT之家10月29日消息 在此前,谷歌搜索的结果可以通过域名来改变,比如你使用google.com.hk搜索的结果优先显示香港当地的搜索结果,不过谷歌已经决定取消这种搜索方式。谷歌近日在官方博客中宣布,其将取消通过域名决定搜索结果的搜索设定
在提供更精准的搜索结果之外,Google希望通过功能丰富的卡片和可扩展标签也进一步拓展搜索结果。在 今天更新的官方博文 中, 用户在搜索结果中可以扩展自动生成的标签额内容,从而提供更多关于用户搜索内容相关的子主题。谷歌产品经理皮尔斯·沃卢奇
6月8日,据外媒engadget报道,谷歌推出了一项搜索更新,旨在为用户提供更多的结果选项。该技术巨头表示,更新的内容将提供更好的搜索结果多样性。搜索结果的多样性丰富意味着我们不会在搜索结果中看到来自同一网站来源的两个以上的信息。但是如果特
根据外媒seroundtable报道称,谷歌现在显示一些时间、转化次数和计算相关的查询搜索结果的时候,有时候其搜索结果页面不显示全部搜索结果,相反,谷歌仅会提供一个搜索结果或答案。然后,如果你想要在搜索结果页面上查到搜索结果,就需要点击“显