每天产生这么多的视频,头条的存储服务器得多大空间?会不会有存储极限?
很多朋友可能对于像阿里巴巴,腾讯,百度以及字节跳动这样的公司,这些公司每天存储的数据量非常庞大,可以达到TB级别 。但是他们给我们的感觉是,无论我们在这些平台中产生什么样的内容,多大的数据量,他们都能够装得进去,好像他们的服务器容量是无限的 。这是为什么呢?
其实对于技术感兴趣的朋友可能会了解到,像这些公司他们一定使用的是一种叫做分布式存储的技术方案 。
分布式存储
分布式存储的技术思想其实在10多年前就已经有了,这是因为当时的谷歌也面临着存储海量网页的问题,当时他们在内部试行了一套系统,后来被证实是可用的 。于是他们在2010年,公开发表了三篇论文,分别是Google big table、Google file system以及Google mapreduce 。那么这其中的Google file system就是现如今各种分布式存储方案的核心思想 。
文章插图
这张图就展示了HDFS的一个版本,它就是一个分布式的文件存储系统 。我们可以看到,中间的每个namenode都有三个箭头指向最下一层的datanode,这是什么意思呢?NameNode其实并不直接存储数据,直接存储数据的是下面的三个datenote,也就是数据分片 。而且我们要查询数据的时候,也是从这些数据分片上把数据提取出来,然后进行整合反馈给我们这些用户,就这样形成了一个闭环 。
简单来说就是在存储数据的时候,不管是视频、图片还是文本内容等等这些数据,我们都可以把这些海量的数据,将其进行切分,然后放在不同的服务器中去存储 。因为每一个datenode就代表一台服务器,而且因为整个分布式的架构又是高可用的,它可以横向的无限拓展,那么也就意味着datanote可以拓展无限个 。就这样,通过分布式的一个思想,我们从技术层面解决了海量数据的存储问题 。
文章插图
字节跳动海量数据的存储
字节跳动这家公司,其实在18年,它的服务器数量已经达到了17万台,这些服务器可能分布在全国各个地方 。那么发展到现在,我估计至少也有20多万台,正是由于这20对万台服务器的不断拓展,才支撑起今日头条、抖音、西瓜视频、火山小视频、悟空问答等流行社交媒体产品线上的海量数据存储 。而对于我们用户来说,我们每天发视频,每天写文章上传到字节跳动的服务器,我们并没有什么感觉,原因就在这儿 。
所以,只要服务器能够不断的横向拓展,理论上来说,存储是可以没有上限的 。
赠人点赞,手留余香 。我是小强Talk,欢迎大家关注我,和我一起共同成长进步!
其他网友观点这个问题问的太笨了,连阿里、腾讯都还没有叫喊存储服务器的存储极限,头条比他们俩互联网大佬晚成立很多年,这么点视频文件,距离“极限”还早着呢 。
【每天产生这么多的视频,头条的存储服务器得多大空间?会不会有存储极限?】你是不是以为头条有视频原创频道,因为都是网友自制视频上传,所以皇帝不急太监急,开始替头条担心服务器存储不够用?那么视频网站怎么玩的?谷歌旗下的 YouTube也基本上都是网友上传的视频,它成立于2005年,迄今已经十四年了,YouTube也没有担心存储服务器会不够用啊 。中国也有好几个成立很早的视频网站,优酷、六间房、腾讯视频、爱奇艺等,优酷算是其中最早的大佬,成立于2006年,今天的它是和土豆网合并的规模,虽然它有购买影视剧,但网友自制上传的视频应该是占比最大的,这么多年它也没有叫喊存储服务器有极限——
回到问题上来,头条创建于2012年,迄今才七年,它的用户规模实力真正开始进入到可以叫板腾讯,可能只有三、四年,所以我想你暂时是不需要为头条拥有的存储空间担心的,至于未来,网站存储和我们电脑存储一样,可以扩展啊,我以前只是电脑一个硬盘,最大1T、2T,可现在我购买了一个外置硬盘柜,插了四个硬盘,我现在总共有将近十个T的存储空间 。网站也可以如此,可以扩展,所谓网站的数据中心,像谷歌那样的世界级互联网公司,是在全世界各地建造数据中心,尤其在北欧那里,那里寒冷,数据中心可以依靠自然界的气温进行降温,成本节省不少 。中国的贵州有一阵子报道很多公司都在那里建立数据中心,据说也是那里的自然条件适合建造数据中心 。所以,大体上可以这样下结论,无论个人玩电脑还是互联网公司玩网站,钞票可能有极限,存储空间不存在极限,前者靠赚,不容易,所以有极限,后者靠钞票去投入,只要有钱,你可以无限制的扩展你的数据中心 。
其他网友观点我用实验来回答这个问题 。
一个视频有多大?以头条系的西瓜视频为例,这里,我就用我自己发的一个小视频为例,时长58s 。
我们先来看看这个视频有多大?用Chrome浏览器打开视频链接(防止平台判定为广告,我就不放链接了),按F12出现调试模式,可以看到整个页面里图片、js、css等各种元素文件的加载情况,包括这个元素所在的服务器IP地址、域名、类型、以及我们所关注的文件大小 。如下图,瞅见没?(有问题私聊我)
文章插图
如上图所示,文件类型为media,大小为1.5MB 。
至此,我们得到答案,50s的视频,大小为1.5MB 。(实际上,受码率和时长影响可能会有波动,这里暂且算是个平均值)
接下来看第2个问题 。
视频有多少个?在正式回答这个问题之前,先来了解一下视频的热度 。
视频有冷热之分,遵循“28”定律,即20%的热门视频吸引80%的用户流量 。
很显然,热门视频是视频网站方关注的重点(像我举的这个例子,点击量就很惨,妥妥的冷门资源) 。
为了照顾用户的访问感知,网站方一般会把热门视频复制多个副本,存放在多个服务器上 。想象一下,最近有个热门电视剧《庆余年》,如果没有副本全国只有一个服务器,上亿的用户都来访问这个资源,大声地告诉我,这个视频卡不卡顿?答案是,不仅是卡,网站肯定瘫痪,拒绝访问 。
这里就有个关键点,即:热门视频会复制多份,冷门视频可能只有1份 。
那视频所占的空间应该是:单个视频大小*副本份数 。
那这个视频有几个副本呢?同样实验走起:
文章插图
点击对应视频资源,查看header信息,如上图所示,这个资源的域名是v1-default.ixigua.com,所在的服务器IP是223.111.19.3 。
看不懂?别急 。简单普及下,域名和IP存在对应关系,这种对应关系由DNS来完成(我的其他文章里有普及过) 。网站方的调度都是通过域名来调度的,而不是通过IP地址 。为啥呢,一是IP多难记啊,一串数字;二是IP经常变,而域名稳定 。
总之,记住一句话,域名是网站方调度的最小单位 。
那我们来看看这个域名对应几个服务器?记住一个命令nslookup:
文章插图
这里我测试的网络环境是江苏移动的网络,所以dns服务器是移动的dns地址,数一下有多少个IP?一共13个 。
至此,得出一个结论:我这个视频在江苏移动网络内有13个副本 。同样电信可能也会有13个,大家可以自行测试 。
这里,我只想阐述一个副本数量的概念 。具体容量大家可以自行估算一下 。
很自然,会有第3个问题:
这些视频存放在哪儿?同样实验走起,我们看看这个Chrome抓包上能发现点啥?
文章插图
看见没,有个jiangsuyidong Cdn字样(我理解是,江苏移动CDN) 。
没错,视频是放在CDN网络上承载的 。
这里涉及一个CDN的概念,简单来讲就是,网站方会把视频内容复制多个副本,放在多个CDN网络节点中,在南京放一份,在苏州也放一份 。这样一来,南京的用户就访问南京的节点,苏州的用户就访问苏州的节点,互不干扰,确保用户访问离自己最近的网络服务器,这样就保证了视频不卡 。
除了上面提到的江苏移动CDN,国内还有网宿、华为、七牛云、金山云等CDN厂家 。
通过我的抓包分析,今日头条视频(含抖音、西瓜视频),分布在中国移动、网宿、金山云、白山云、阿里云等CDN网络承载 。
写在最后其实在我看来,储存技术的发展,容量大小已不是关键问题(看看各个网盘厂家动不动就送几个T);带宽问题是影响网站方成本投入的重要因素 。另外,最关键技术是网站方的视频内容如何与CDN厂家的承载网络协同和调度 。
诚邀您关注,随手一关注,一起聊聊互联网那些事 。
推荐阅读
- 美是理念的感性显现这么理解 美是理念的感性显现是什么意思
- 每天给自己正能量改变自己的励志早安心语
- 十二星座女约会这么穿让你成功撩到对方
- 现在想选个手机怎么这么难?有啥推荐?
- 如何看待拼多多4月17号发售iphone SE只要2899,会对国产手机产生什么影响?
- 华为nova系列更新为什么这么快?短短5个月就要出nova7?
- 关节囊肿应该这么治 关节囊肿怎么治疗
- 哎,又有这么多人掉坑
- 叫醒孩子的方法 这么做孩子不会闹脾气
- 如何注意膳食营养 每天的膳食营养如何安排最合理