区块链与分布式存储:承载人类文明的数据基建

 互联网   2022-03-05 15:49   692 人阅读  0 条评论

区块链与分布式存储:承载人类文明的数据基建  第1张

分布式系统


分布式系统发展至今已有数十年,那么分布式系统到底是什么?实际上分布式系统并没有标准的定义。


分布式系统一般的呈现方式是将硬件或软件分布在不同的网络计算机,彼此间通过消息传递进行通信及协调,正如疫情期间的分布式办公,员工虽然不在公司,但是依然能够在不同的物理地域通过社交软件或办公软件与其他同事协作,共同完成任务。


分布式系统同样如此,其将业务模块分布在多个处理单元上,各个单元进行协作,共同完成任务。


当某个单元计算或存储资源有限,无法完成相关业务时,也可以灵活对其进行扩展,比如增加显卡或硬盘,通过横向扩展提高业务能力。


分布式系统在企业应用中尤为广泛,并且数据层面的分布式系统是主要的应用方式。


分布式系统可以执行多样化业务,其中分布式存储为最具代表性的大型分布式业务,也是本书讨论的重点。


在阐述分布式存储之前,我们先对用户更为熟悉的集中式存储进行阐述。


集中式存储的一大特点是其集中性,完整的存储单元集中在中心化系统中。


话虽如此,但并不意味着集中式存储只需要一个单独的设备,而是集中于一整套系统当中的多个设备,如图1所示。


目前,大部分互联网企业级存储设备使用集中式存储的结构,所以一般情况下企业的存储系统拥有多个机柜,放置在办公场地的专有房间(机房),同时对其环境的要求颇高。


区块链与分布式存储:承载人类文明的数据基建  第2张

图1 集中式存储示意图


此架构下的系统同样包含组件集,如控制器、磁盘阵列、交换机等,但不同的存储架构同样都需要作为机器管理的辅助设备。


此存储模式硬件层通常包含机头,其中包含互备的多个控制器,主要是避免硬件故障带来的宕机风险。


作为核心部件,存储系统的主要功能都在该部件下实现,其前端端口为用户提供存储服务,后端端口为存储系统扩容,所以数据需要通过统一的入口即机头处理。


从分布式存储系统结构来看,分布式存储种类较多,如分布式文件系统、分布式块存储、分布式对象存储、分布式数据库、分布式缓存等。按数据类型,又可以分为“非结构化数据”(如常规文档)、“半结构化数据”(如HTML文档)、“结构化数据”(如依赖关系数据库),所以不同类型的数据需要不同的分布式存储系统。


关于数据存储后的数据定位,后文将展开详细的描述。以Filecoin为代表的区块链分布式存储网络,通过一致性哈希的方式定位数据。


一致性哈希将设备处理成哈希表(可以理解为一个数组),根据数据名称计算出唯一哈希值,将其映射到哈希表的某个位置,从而实现数据定位。


数据分配的均匀性及数据可迁移性很重要,一致性哈希将磁盘划分为多个虚拟分区,每个虚拟分区是哈希表上的一个节点,如图2所示。


在计算出数据的哈希值后,其着落于哈希表的某个分区,通过Merkle Tree(默克尔树)的数据结构,我们必然能够以最短路径找到一个节点,这个节点就是存储数据的位置。


区块链与分布式存储:承载人类文明的数据基建  第3张

图2 一致性哈希虚拟分区


分布式系统与集中式系统的不同之处。


数据跟踪:


在集中式存储网络中,只要信息通过单点服务器即单个中心点,便可以轻易跟踪数据流动路径,同时可以跟踪到数据本身。


但在分布式存储网络中,由于多个设备同时充当数据的存储服务器节点,跟踪数据流的难度呈指数级增长,在这种情况下,用户可以从多个位置访问给定的信息集。


隐私保护:


相较集中式存储网络,分布式存储网络可以提供更强的隐私性,在个人数据资产比重越来越大的现状之上,这是切身痛点。


在此网络环境下,个人在线数据行为不便跟踪,当然这也带来了一个潜在问题,即关于数据的网络伦理问题。


故障容错:


当数据在传播路径上处于单线通路时,集中式存储网络的单点故障带来的数据风险极大。


基于正在实施的备份系统,服务器托管的失败可能导致大量数据丢失,使人们难以在给定的时间访问数据。


相反,在分布式网络连接的情况下,单个接入点的故障永远不会使人们无法访问网络中存在的数据。


分布式存储网络中存在多个节点,使人们可以访问信息,并降低因各种问题带来的无法访问数据的风险。


可扩展性:


当所有核心程序位于单个服务器中时,集中式存储网络的扩展性普遍存在瓶颈。


随着对网络连接的需求的增加,需要考虑增加更多的存储和带宽及提高处理能力。


分布式存储网络的体系结构允许在多台计算机上分配工作负载,而不是将其限制在一个地方。


网络中立性:


集中式存储网络给用户带来了较多不便。如互联网服务提供商允许自身主观规范数据的种类和询问信息的速度,愿意支付更多费用的用户才能享受更好的互联网连接。


总之,分布式存储具备扩展性、弹性、敏捷性、易用性、成本可控等特点,从理论层面来看,分布式存储仿佛是完美的,但理论到实际需要一个漫长的过程。


目前市场上的分布式存储系统仍有中心化风险,因为从本质上来说,分布式存储市场由中心化机构或企业搭建。


只有将区块链与分布式存储相结合,才能充分发挥分布式系统在各个方面的优势。


区块链与分布式存储:承载人类文明的数据基建  第4张


IPFS星际文件系统


通常人们谈起创业,对其评价都是九死一生。


据统计,创业1年的成功率是1%,创业3年的成功率是0.2%,换句话说,有一万家创业企业同时创立,1年后只剩下了100家企业存活,3年后只剩下20家企业存活。


成功率如此之低,让很多有梦想的创业者心惊胆战、望而却步。


但与之形成鲜明对比的是,拥有斯坦福大学背景的创业者其成功率在全球大学里名列前茅。


这其中就包括惠普、谷歌、雅虎、耐克、NVIDIA、思科及LinkedIn等公司的创始人,这也为硅谷的形成和崛起奠定了坚实的基础。


斯坦福大学的建校与美国产业革命和高等教育改革同期,其天然肩负了这样的历史使命,在成立之初就具有敢于承担风险的创新创业精神,以人类文明进步为最终利益,积极发挥大学的作用,促进社会福祉。


“使所学的东西都对学生的生活直接有用,帮助他们取得成功”,斯坦福大学鲜明的办学宗旨自上而下得到贯彻。


还记得“让5美元在两个小时之内变成5000美元”的经典故事吗?这只是斯坦福大学无数种激发学生创新精神的课程内容之一。


基于校风,斯坦福大学的学生积极踊跃地参与校内创新创业。


学生在学业之余积极组织和参与相关的课外活动,斯坦福大学允许教授在硅谷拥有自己创立的公司或在各个公司兼职,学生也可以在各个公司实习和就业。


2012年,墨西哥人胡安·贝纳特(Juan Benet)毕业于斯坦福大学,并获得计算机硕士学位。


此时的胡安只有24岁,但是由于受到斯坦福大学创业精神的影响,在校期间他就开始了自己的创业之旅,包括与伙伴共同创办Loki Studios和Athena。


我们如今处在互联网时代,人们每天花费大量的时间在互联网上,工作、娱乐、社交等数据的上传和下载都要基于HTTP(HyperText Transfer Protocol),即超文本传输协议。


其是一种详细规定了浏览器和万维网服务器之间互相通信的规则,是万维网交换信息的基础,它允许将HTML(超文本标记语言)文档从Web服务器传送到Web浏览器。


HTTP是个伟大的发明,它让互联网得以快速发展。


但HTTP以明文方式发送内容,不提供任何数据加密的方式,如果黑客截取了Web浏览器和网站服务器之间的传输报文,就可以直接读取其中的信息。


因此,HTTP不适合传输敏感信息,如信用卡卡号、密码等支付信息。


网景公司在HTTP的基础上加入了SSL协议实现了HTTPS。


SSL是用于对HTTP传输的数据进行加密的协议,依靠证书来验证服务器的身份,并为浏览器和服务器之间的通信加密。


虽然HTTPS有很大的优势,但依旧存在不足之处。


  • TCP报文段的交换过程比较费时,页面加载缓慢,导致耗电量增加。


  • 连接缓存不够高效,会增加数据开销和功耗。


  • 加密范围比较有限,在黑客攻击、拒绝服务攻击、服务器劫持等方面几乎起不到作用。


除此之外,随着互联网的发展,HTTPS逐渐显示出其他不足之处:服务器中心化且成本很高;


Web文件经常被删除,也就是说,你收藏的页面在下次打开时可能已经找不到了;高度依赖易受外界因素影响的互联网主干网,导致宕机等。


基于HTTP/HTTPS的不足,贝纳特萌生了大胆的想法——为何不创建一种新的协议,补充HTTP/HTTPS?


2014年5月,贝纳特主导的IPFS项目立项,并拿到了美国著名创业孵化器Y Combinator的巨额投资。


贝纳特同步成立了协议实验室(Protocol Labs),该团队的大部分成员都是其斯坦福大学的校友。


协议实验室发展到今天,旗下已经有IPFS、Filecoin、libp2p、IPLD、Multiformats等独立的项目,如图3所示。


IPFS的全称为Inter Planetary File System,即“星际文件系统”。


通常可以把IPFS解读为点到点的分布式文件系统,它是基于内容寻址的新型超媒体传输协议。


IPFS的功能与HTTP/HTTPS类似,但将点对点网络的架构特点加入其中。


区块链与分布式存储:承载人类文明的数据基建  第5张

图3 协议实验室项目集


IPFS的出现让HTTP/HTTPS存在的问题得到了解决,因为在不再依赖主干网和中心化服务器的同时,IPFS通过一个文件系统将网络中所有的设备连接了起来,让存储在系统上的文件,在全世界任何一个地方都可以快速被获取,且不受防火墙的影响。


IPFS能改变Web内容的分发机制,使其去中心化。IPFS从本质上改变了数据查找的方式,这是它最重要的特征。


使用HTTP/HTTPS查找的是IP位置,而使用IPFS查找的是内容本身。


在IPFS系统中,文件及数据具有唯一性。该系统对内容定义加密的是唯一的哈希值,哈希运算过后生成的地址是唯一且不可篡改、不可删除的。


所有的文件和数据分散在许多节点并加密,黑客无法进行大面积攻击,从而保障文件和数据完整、安全。


总之,IPFS具有成本低、高效性、安全性、永久性、隐私性等特征,拥有改变互联网数据使用方式的基因,最有可能补充甚至替代当前的HTTP/HTTPS。


区块链与分布式存储:承载人类文明的数据基建  第6张


Filecoin的分布式存储


Filecoin是基于IPFS与区块链构建的去中心化存储网络,通过算法规范存储市场。


与比特币等区块链相比,Filecoin让区块链具备了存储大规模数据的能力,通过证明机制和奖惩措施来保障数据存储的安全性和有效性。


Filecoin与IPFS都是存储系统,但Filecoin在IPFS基础之上结合区块链的特性实现激励,通过区块奖励激励存储服务商提供存储与计算资源。


Filecoin项目于2017年完成了2.57亿美元的融资。


参与Filecoin的投资方包括红衫资本、斯坦福大学母基金、数字货币集团等,这些投资方在Filecoin的发展道路上也提供了不少帮助。


Filecoin通过了美国SAFT监管审查,Filecoin的通证被视为证券,具有合法性。


分布式系统是复杂的,其没有中心机构的管理,依靠算法、共识机制、经济奖惩来维持运行的分布式系统难度更大。


好在历经三年多的开发及多次大规模测试,Filecoin主网在2020年10月15日正式上线,其运行至今虽然出现了一些问题,但都得到了较为妥善的解决。


Filecoin生态系统中的参与者主要有存储服务提供者、开发者、用户及通证持有者等。


纵观计算机行业的发展史,存储网络从来没有一经推出就是完美的,都要经历不断迭代和优化。


Filecoin也不例外,即使主网已经启动,也仍需要开发者的维护。目前对Filecoin负责的主要开发者,正是协议实验室。


但随着Filecoin生态的持续扩张,未来的Filecoin将彻底交付给社区,由社区决定Filecoin系统的迭代方向。


那些对数据具有存储和检索需求的互联网用户,可以通过支付Filecoin通证,存储自己的数据或者将需要的数据从Filecoin网络中检索出来。


未来Filecoin要想取得更好的发展,很大程度上在于其用户体量。


为此,开发者需要持续对Filecoin的存储与检索程序进行优化,让用户享受更加舒适的操作体验。


而基于Filecoin网络向用户提供服务的,就是Filecoin的存储服务提供者。


正如比特币的服务提供者贡献自己的计算硬件资源那样,Filecoin网络的存储服务提供者贡献的是存储资源及相对少量的计算资源设备。


Filecoin存储服务提供者贡献存储资源来存储数据,而Filecoin网络会根据存储服务提供者贡献的存储资源占全网总存储资源的比例,给予其区块奖励。


Filecoin的存储服务提供者可以说是Filecoin网络最重要的参与者之一,因为未来能否吸引更多的用户使用Filecoin网络来存取数据,就在于Filecoin存储服务提供者能否提供高质量的服务。


比如,如果一个用户将自己珍爱的照片存储在Filecoin网络当中,而刚好存储这些照片的存储服务提供者因为某些原因从Filecoin网络撤出了存储资源,那么这名用户存储的照片就无法找回了。


正如前文提到的丢失的时间胶囊那样,也不会有人再信任Filecoin的存储网络。


为此,Filecoin经过周密的设计,将各种证明机制与经济模型中的奖惩机制相关联,以保证用户存储的数据按照用户的需求进行存储。图4为Filecoin扇区数据存储过程。


区块链与分布式存储:承载人类文明的数据基建  第7张

图4 Filecoin扇区数据存储过程


复制证明


复制证明(Proof-of-Replication,PoRep)是一个新型的存储证明,验证存储服务提供者是否按用户的“合同”要求存储了相应文件。


在传统存储行业,Sector(扇区)是指硬盘的最小存储单元。在Filecoin网络,Sector也指存储单元。


比如,Filecoin网络的32GB Sector和64GB Sector都是Filecoin的存储单元。存储服务提供者节点通过完成Sector的封装,实现算力的增长。


Filecoin存储服务提供者完成Sector数据封装的过程,也是完成复制证明的过程。


整个过程包含四个阶段:第一阶段preCommit1(预密封1),消耗CPU,根据算法将数据分成若干256KB进行存储,耗时若干小时;


第二阶段preCommit2(预密封2),消耗GPU,生成Merkle Tree,实现数据目录(DHT)的生成,以便提供检索,耗时几十分钟;


第三阶段Commit1(密封1),消耗CPU,是重要的过渡阶段,只需数秒;


第四阶段Commit2(密封2),消耗GPU,要做zk-SNARK实现时空证明的前置动作,耗时数分钟。


完成了复制证明后,Filecoin存储服务提供者会获得有效算力的增长,通过有效算力占全网的比例获取“贡献存储”奖励。


复制证明还能有效防止存储服务提供者的作弊行为,如女巫攻击、外包攻击、生成攻击等。


时空证明


复制证明能够证明存储服务提供者存储了相应的数据,但是如何保证存储服务提供者按要求存储了足够长时间的数据呢?


时空证明(Proof-of-Spacetime,PoSt)的作用就是检查存储服务提供者是否在某一段时间存储着数据。


在Filecoin网络当中,系统会在一天24小时中每半小时(共48次)向存储服务提供者发起挑战。


如果存储服务提供者的确还存储着相应的数据,那么存储服务提供者可以通过提交时空证明来证明。


如果存储服务提供者没有顺利完成时空证明,如断网、断电、设备故障等情况发生,那么存储服务提供者会因此遭受惩罚。


这部分惩罚一是来自存储服务提供者之前质押的Filecoin通证,二是来自未来的存储提供的奖励,包括算力的丢失。


虽然看起来有些不近人情,但是存储服务提供者会因为惩罚的存在,不断优化自己的设备和系统,以避免惩罚的发生。


对于存储数据的用户而言,也将享受到更加优质的存储服务。当然,在进行惩罚的过程中也会根据存储服务提供者的情况进行分类,比如,延迟提交时空证明或完全未提交时空证明的惩罚力度是不一样的。


经济模型


Filecoin相比于其他公有链项目复杂得多,虽然其通证总量恒定,但释放的方式会根据网络的情况而定。


比如,Filecoin在其经济模型中引入了网络基准这一概念。


当Filecoin全网存储容量未达到网络基准线时,区块奖励会随着算力的逐步增长而非全额地逐步释放,整体奖励相对较少;反之,区块奖励将获得足额释放。


为了保证存储服务提供者长期参与Filecoin的数据存储,中间不会因为各种原因突然离开而给用户和网络带来伤害,在Filecoin存储服务提供者开始提供服务之前,需要进行一定Filecoin通证的质押。


Filecoin的初始质押由两个部分组成:存储质押和共识质押。


存储质押为用户保障网络的服务质量并在出现惩罚时为扇区提供担保。


存储质押遵循的原则是:小到可以让存储服务提供者加入网络,同时大到质押可以应对早期故障、罚款。


当前Filecoin存储质押的FIL量为20天的预期收益,但随着Filecoin存储规模的不断扩大,单位存储空间所获得的收益将不断降低,也就是存储质押会越来越少。


为了维持较高的作恶成本,Filecoin网络增加初始质押的后半部分,即共识质押。


共识质押取决于该扇区加权字节算力(QAP)和网络流通供应量。


初始质押将于扇区生命周期终结后退还给存储服务提供者。扇区生命周期最短为180天,最长不超过540天。


初始质押过长也会成为存储服务提供者加入Filecoin网络的阻力。为了达到平衡,Filecoin通过对区块奖励锁仓来减少初始质押的FIL量。


当前,Filecoin区块链奖励质押已采纳FIP-0004改进提案并将其应用于网络:区块奖励的25%将立即释放,剩余75%按180天线性释放给存储服务提供者。


Filecoin主网刚上线1年,全网活跃存储服务提供者就达到了3400名,全网有效算力达到了14EiB。


这样的存储规模已经超过了部分知名中心化存储服务商,其增长速度即使放到已经成熟的传统云存储服务厂商当中也算名列前茅。


区块链与分布式存储:承载人类文明的数据基建  第8张


Filecoin分布式存储的行业标准


Filecoin的冰山模型


“天下熙熙,皆为利来;天下攘攘,皆为利往。


”区块链数字资产市场的火爆总会吸引投资者将目光瞄向比特币产业,尤其是传统投资者,他们对可预期的收益、具备剩余价值的硬件设备等尤为感兴趣。


比特币产业由于发展时间长,产业链相对成熟,留给新进参与者的机会已经非常微小。新的机会,如Filecoin提供存储服务逐渐成为资本追捧的标的。


与比特币相比,Filecoin存储有哪些不同之处呢?首先就是它们的共识机制不同,比特币所采用的共识机制是工作量证明(PoW),通过区块奖励鼓励存储服务提供者提供大量算力,保证网络的安全性。


这种证明机制通常需要消耗大量的能源,仅仅验证了网络的哈希函数。Filecoin的期望共识(EC)鼓励存储服务提供者投入更多的存储空间,通过各存储服务提供者存储空间占全网总存储空间的比值决定区块奖励的归属。


Filecoin分布式存储网络可以满足互联网用户的数据存储需求,资源的利用更充分。


比特币存储服务提供者降低成本的最重要方式就是减少电费,但电费便宜的地方往往是深山老林或偏远地区,其网络宽带情况不容乐观。


要知道为了保证存储节点为用户提供优质的服务,Filecoin拥有严厉的惩罚机制,一旦断网就要被罚没质押金。


比特币产业配备的维护人员只会对服务器进行简单的维护,技术水平无法应对整个Filecoin产业存储设备集群架构的搭建和优化。


通过filscan.io区块浏览器,我们可以查看Filecoin网络存储服务提供者节点的各项数据指标。


对于刚进入这个行业的人来说,这些让人眼花缭乱的数据指标让人很难抓住重点。接下来,我们就通过冰山模型,带大家真正看懂这些节点的数据。


其包括“水面上”的数据,如单T收益、出块效率及总FIL收益等,但这些数据是基于冰山模型“水面下”的能力来呈现的,如稳定性、产量和安全性,这些属性是用户所无法看到的。


“外行看热闹,内行看门道”,冰山模型就是通过揭秘原力运维稳定性和高产量背后的秘密来透视节点背后的门道的。


Filecoin算力增长的前提是需要存储服务提供者完成Sector的封装,Sector封装不稳定,将导致算力损失。


就比如在Filecoin进行“太空竞赛”期间,大量存储服务提供者出现封装失败的情况,存储服务提供者最多达到了8204个,相当于256.375TB的算力,每天损失高达128TB的算力。


很多节点在Sector封装的各个阶段,完成时间呈现出非常不稳定的状态,这也是节点系统不稳定的表现。


Filecoin提供存储的第一步是要保证设备能够发挥最大性能,从而保持算力稳定增长。


那么,保证算力的稳定增长就意味着能够持续获得收益吗?答案依然是:未必。


按照正常的参与逻辑,我们假设全网算力为100PiB,某A存储服务提供者拥有10PiB,排除运气的影响,A存储服务提供者理论上能够获得的奖励应该是全网奖励的1/10。


但是实际情况是,只有少部分存储服务提供者能够拿到应有的理论奖励。


“幸运偏差”代表的是实际奖励与理论奖励之间的差异,如果实际奖励高于理论奖励,比如,上面例子中A存储服务提供者获得的区块奖励高于1/10,则幸运偏差值为正数,反之为负数。


根据统计学理论,只要时间足够长,A存储服务提供者的实际奖励会无限接近理论奖励。


但是在Filecoin提供服务的过程中,WinningPoSt是影响“幸运偏差”的重要因素。


存储服务提供者在获得出块权后,如果没有在30秒内完成WinningPoSt,那么将失去该区块高度的出块权及区块奖励。


长此以往,其实际获得的收益自然要低于理论收益。


提高设备资源的利用率是获得稳定收益的必要条件。设备资源利用率提高,算力将得到稳定增长,收益也将最大化。


但是,Filecoin的使命是为人类打造分散、高效且强大的基础设施,拥有庞大的商业应用和落地预期。


为了保证存储服务提供者能够提供高质量的数据存储服务,Filecoin通过惩罚机制来制约存储服务提供者的怠工行为。


虽然Filecoin官方对《缔造Filecoin经济》中的相关参数进行了调整,但在惩罚机制的设置上依然非常严厉:


  • 存储服务提供者发现扇区故障并主动报告,将被扣除该扇区预期2.14天的收益。


  • 存储服务提供者没有发现故障,而在WindowPoSt期间被网络发现扇区故障,则将被处罚该故障扇区3.5天的收益作为扇区错误检测费。


  • 如果在扇区到期之前终止扇区,则前期该扇区获得的部分区块奖励将被一并扣除(小于等于140天,没收一半服务时间的收益;大于140天,将没收70天的收益)。


Filecoin复制证明中的WindowPoSt,是悬在存储服务提供者头顶的“达摩克利斯之剑”,其作用就是检验存储服务提供者节点是否按要求持续地存储着相应的数据。


WindowPoSt的周期为一天,分为48个窗口(Window),每个窗口30分钟。存储服务提供者的扇区越多、体量越大,受挑战的次数越多,难度就越高。


存储服务提供者必须在规定时间内完成数据验证挑战,任何一次不成功,都将被惩罚并损失相应算力。


存储服务提供者未能在规定时间内完成WindowPoSt的原因有很多,如网络传输问题、磁盘损坏和软件Bug等。


尤其是磁盘损坏的问题,即使损坏率很小,因为体量的原因依然会产生一定数量硬件设备的损坏,这是不可避免的。


如何应对上述这些问题,是对存储服务提供者运维能力的极大挑战。


由此可以看出,Filecoin存储服务提供者相对于其他网络的存储服务提供者肩负更大的压力,一方面Filecoin存储服务提供者运维要比传统运维难度更大;


另一方面,一旦出现异常且没有按时完成WindowPoSt,存储服务提供者遭受的将是实实在在的资产损失。


区块链与分布式存储:承载人类文明的数据基建  第9张


Filecoin硬件设备标准化


工作的统一规范分为有序与无序,如果团队成员各自为战,只注重眼前的工作,长此以往容易使团队处于一种无序的疲惫状态,Filecoin系统的复杂性更需要有序的标准化作业流程和规范。


什么是标准化?在Filecoin领域的定义是:技术的革新和标准的流程化实施手册。


  • 流程化实施手册的主要内容有:任务分配、实施操作流程、验收校对、常规检查、故障排查、紧急事件处理,起到指导日常运维工作的作用,即使新人参照流程化实施手册操作也能顺利执行工作。流程化实施手册作为标准化的第一步,至关重要。


  • 技术的革新便于监控各种分布式存储运行环境下软硬件的数据指标,以保证运维工程师能及时且高效地处理各种日常工作。因为Filecoin项目尚处于正式上线初期,持续更新、迭代难免会导致技术不完善的情况出现。


存储服务提供者需要每时每刻监控分布式存储运行环境中的各种状况,及时做出相应的优化和调整。


硬件设备标准:


为了保障分布式存储的运行环境稳定、高效且安全,就需要合格、质优的硬件设备配合,比如,服务器、存储设备、网络设备等。


其中服务器是最为常见且核心的单元。它是为网络中的用户提供计算、共享信息资源和服务的设备,通常分为多种服务器,起到主要作用的是存储设备。


服务器设备根据不同的功能进行配置,以满足存储网络上的时空证明、复制证明、数据存储及上链过程。


服务器的标准如下。


  • 全方位简约:可提供功能来简化系统安装、配置和维护等任务,支持运维更高效地管理资源。


  • 企业级功能:主要是实现适应、精简配置、快照、复制、卷复制、SSD高速缓存、3级自动分层、虚拟化集成等企业级功能。


  • 高要求数据保护:远程复制、快照、虚拟磁盘备份、自加密驱动器。


  • 改进硬件并提升性能:最高可达32万IOPS的性能、高达550MB/s的带宽、高达4PiB的容量、通过12G SAS后端大幅提升性能。


  • 简化数据管理:灵活配置为DAS或SAN、全闪存或混合存储。


  • 加快恢复速度:主要是节省时间和资金、更快地重建驱动器、仅添加所需容量、支持高达1 PiB容量或多达128个驱动器的标准。


网络及安全设备:


网络及安全设备是指路由器、交换机、防火墙等,它们可将网络有效连接和保护起来。


在Filecoin项目中,网络稳定、安全在整个生命周期中起到决定性作用,任何因网络延迟、中断而引起的证明失败都会造成惩罚和影响收益。


为了保障网络的稳定性和安全性,网络设备应遵循以下标准。


  • 扩展性:允许网络设备实现横向扩展以支撑大规模数据中心级分布式存储运行环境。


  • 可靠性:实现网络设备冗余、增强可靠性、提高性能,消除单点故障和避免作业中断。


  • 分布性:实现多条上行链路的负载分担和互为备份,提高整个网络架构的冗余性和链路资源的利用率。


  • 可用性:通过标准的千兆、万兆以太网接口实现智能弹性架构,根据需求智能分配带宽流量。


企业级存储服务器:


对于Filecoin网络来说,数据的永久性和安全性是极为重要的,一旦重要的数据被破坏或丢失,就会造成严重的惩罚,对收益造成重大影响。


一般的存储服务器普遍存在单点故障率高、可利用空间少、数据恢复慢的弊端;需要采用企业级存储实现了数据快速恢复、读写速率高、机位占用少、磁盘可利用率高等。


存储设备主要参考要求如下。


  • 单节点容量多,密度高,能耗低,占用空间少。


  • 高冗余,避免单点故障(如单RAID卡,单控制器)。


  • 高IOPS和高吞吐量,满足封装需求。


  • 支持远程复制、快照等企业级功能。


  • 使用简单配置,不引进第三方软件增加可能存在的故障点。


  • 满足企业级“5个9”的可靠性(电信级别设备)。


硬件设备的标准还有更深一层的考虑,即自动化、智能化、模块高性能化。


自动化:使用脚本自动执行服务器生命周期管理,主动报修,缩短解决部件故障的时间,将IT解决问题时的工作量减少。


智能化:提升工作效率还要依托运维智能化。运维智能化目前还处于发展初期,需要不断优化才能更好地满足行业业务快速发展的需求。


模块高性能化:通过硬件专业精细化作业来完善每个功能模块,让硬件发挥其最优的性能,同时通过运维保障硬件、功能和检测的最好发挥,输出高性能服务。


好的硬件服务商,让企业事半功倍:


IDC《全球服务器季度跟踪报告》显示,2020年第三季度全球服务器单位出货量、市场份额和增长率排名前5位的公司,其中戴尔、HPE/新华三分别以16.7%和15.9%的收入份额并列第一;浪潮/浪潮商用机器排名第三;联想排名第四;华为排名第五。


Filecoin网络存储是分秒必争的抢夺战,一旦硬件出现故障,硬件供应不及时,就会造成很大的损失。


头部厂商的售后服务给全国各地的合作客户带来了很大便利,节省了大量的维修时间和人力成本。


头部厂商的服务器稳定至关重要,包括帮助存储服务提供者更灵活地扩展不同的应用部署,特别是新的互联网原生应用;


帮助客户降低运营成本,服务器通过很多自动化的方式节省很多人力方面的投入,从而使用更少的人力管理更多的服务器。


企业级存储包含的诸多优点:


增强运维能力:转变Filecoin运维角色和提高交付速度,使其有更多时间成为推动者和创新者,同时可提高IT服务的交付速度(高达64%)。


非结构化数据存储:在运维作业时可应对非结构化数据的快速增长,高效整合各种规模的文件和对象存储工作负载,同时提高严苛的工作负载性能。


存储负载解决协助:企业级存储服务器可随着数据增长不断满足新要求,尤其是Filecoin环境中的工作负载。


主存储:企业级存储服务器可从核心到边缘再到云端,加快关键工作负载的运行速度,同时通过高级重复数据消除功能,减少Filecoin提供存储过程的中断次数并降低存储要求。


头部厂商提供的企业级存储可在一定程度上协助存储服务提供者节点降低运维成本、保护数据安全、增强灵活性和拓展性,最大限度地减少运维资源的负担,提高软件运维的工作效率。


在Filecoin项目中,标准化硬件是项目落地的根基。只有让硬件设备的优异性能充分发挥,才能在Filecoin项目中获得最大收益,这也正是运维团队贡献的体现。


区块链与分布式存储:承载人类文明的数据基建  第10张


Filecoin运维标准化


运维工作相对比较繁杂,结合实际运维工作,Filecoin行业需要实现的是工作梳理及标准化作业,主要分为集群方案定制、资源信息调研、硬件部署方案设计、底层和资源交付、基本运维、软件升级及意外维护。运维作业环环紧扣,缺一不可。


运维工作可分为四大点:方案提供、硬件设备上架、运维标准化作业、升级及维护。


运维工作主要为了实现算力增速和集群规模的业务需求。


在正式存储前,需要确定算力规模和日产算力需求,根据需求计算出存储硬件的配比,主要围绕以下3点考虑。


  • 算力需求相同,硬件投入尽量少。提升单组硬件的性能和产能,在实现资源利用最大化的同时降低维护难度。


  • 单组设备算力最优化。充分利用单组设备性能,软件调优后的硬件配比使整机的资源在做数据封装运算时能高效发挥,并支持后期可扩展性。


  • 网络配置定制化。该设置主要配合不同计算阶段的带宽需求,匹配整体集群的网络搭建和安全策略,进行调优,满足高可用和负载均衡方案。


在需求确定后,根据硬件配置信息完成硬件部署方案,包含硬件上架规划、网络拓扑图、网络配置脚本和安全策略规划,主要考虑以下几点。


  • 硬件的合理上架。根据托管IDC机房提供的机柜平面图、单柜最大功率、线槽走向、OFD位置和服务器的配置方案,确定单机柜的服务器上架数量和服务器类型组合。


  • 服务器与网络设备的合理衔接。确保服务器和网络设备的功耗限制在机柜电力红线范围内。


  • 传输的完善。确保服务器双网卡、轮流发送、接收数据包、网卡性能最大,同时保证有自动备援,交换机互联端口需要实现静态的链路聚合。


  • 安全规划。对外开放的业务地址和端口,隐藏了业务真实IP,将攻击流量引流到云清洗机房;全业务流量镜像、高级威胁流量检测;通过在沙箱运行各种文件,识别未知威胁;主机端部署入侵监测和安全防护系统,实现主机端集成防御、检测、响应一体化的防御等。


接下来进入硬件设备上架阶段,先进行网络搭建。在网络搭建前需要考虑以下几点。


  • 扩容规模。根据服务器配置方案和后期的扩容规模大小,设定网络的规模、网络设备选型和网络的架构。


  • 网络线路。网络的设计目标,从链路接入到设备层面,实现链路和设备的全冗余。此外,实现低时延、无阻塞、无丢包功能。


  • 网络交换设备。网络核心交换区设备采用数据中心级别的高可靠框式设备(双主控、多冗余电源、多冗余网板、多业务插卡),在不用更改网络结构的前提下,实现初期低成本投入、后期接入和性能的提升。


  • 带宽接入。存储集群的上行聚合带宽要大于计算集群的聚合带宽等。


在网络搭建完之后,需根据标准进行网络检查,检查步骤如下:


第一,运维人员将按照集群设计规划,进行详细的结构、配置策略等全方位检查。若排查后出现不符合要求的情况,一并汇总反馈给客户,同时协助驻场运维解决问题;


第二,在二次排查后,确保实现结构合乎方案、配置严密和策略精准。


接着,进行服务器硬件状况检查。


  • 服务器初始化。服务器配置检查,保证与方案内的配置信息一致,关闭无用服务和端口。


  • 传输通道核实。检查服务器之间数据传输速率、跨内外网之间网络连通性、安全访问性、数据流向性是否达到需求。


在以上步骤之后,将集群交付给运维人员,完成集群正式启动前的首要准备工作。


运维人员接收到集群部署方案,进行校对。


  • 性能校对。将配比方案中的服务器配置与实际线上使用的服务器性能进行对比,判断线上服务器是否能达到方案中的要求。


  • 参数校对。判断部署参数是否合理,主要包含部署方案是否过于复杂,是否还有需要改进的地方,部署方案是否标准化、是否与部署逻辑相符。


  • 优化反馈。如果部署方案存在问题,则与测试部门进行沟通,进一步优化集群部署方案。


  • 如果确认集群部署方案符合标准化运维,则进行下一阶段的部署。


服务器初始化、硬件、网络复查,主要步骤如下。


  • 集群环境初始化。软件包和集群运行环境配置及检查,初始化及调试。


  • 参数核实。检查系统配置参数,调优系统各项参数,优化、提高系统性能。


  • 防火墙检查。检查防火墙配置,检查双机冗余组、双机心跳、主备机倒换、防火墙策略配置是否合规,以及snmp、ssh、https、登录口令等。


  • 交换机检查。检查交换机配置,通过不断进行配置优化,降低网络运维后期发生人为故障的可能性,提升网络的质量。


  • 检查、反馈、优化。对客户的网络给出详细的优化建议,通过网络工具分析网络性能等,通过数据展示网络的质量,实现存储池网络高性能、全冗余、无丢包的功能。


方案校对和服务器初始化工作的主要作用是再次核实硬件配置能否符合运维要求,从而正式展开运维作业。


Filecoin部分头部存储服务提供商已经实现全栈自动化作业功能,运维人员只需提前将集群的信息录入到CMDB中即可,数据录入主要包含服务器信息、软件运行参数、集群存储服务提供者号、钱包地址、挂载目录信息等。


然后在WorkFlow中输入集群的Key,并提交集群部署任务,即可实现自动化集群部署任务。自动化部署高效地缩短了集群的启动时间,从而使集群的算力快速增长。


Filecoin在提供存储服务过程中用到的监控主要分为硬件监控、软件监控和业务监控,目的是实现运维人员对集群和收益的可视化监控,从而快速解决生产运行环境中的各类问题。


硬件监控


硬件监控:主要负责监控交换机、防火墙、服务器的运行状况,如各类配件参数指标、硬盘故障、网络传输性能等。


自动警报:当监控的硬件各项指标数据处于“红色”状态时,系统会自动向工作群发送简讯告警,帮助运维工程师及时发现并解决问题;针对出现问题较多的故障磁盘,系统会定时对磁盘进行生命周期检测。


软件监控


节点监控:高度监控、连接数监控、消息积压数监控。


程序监控:任务未运行状态监控、任务错误状态监控、时空证明和复制证明状态监控。


日志分析:对每日运行程序日志进行自动化分析,收集Error信息,并自动传送给开发工程师,以待后续优化。


业务监控


算力监控:集群每日算力增长监控、集群总算力监控、昨日、今日同一时间算力增长监控。


关键数值监控:主要监控集群的孤块情况、每日孤块数量的趋势、幸运值统计、出块权监控等。


收益监控:监控链上数据,保证数据的实时性和可读性,便于客户能实时同步到当前集群的收益状况。


余额监控:针对已反映的客户集群的钱包余额问题,设置自动化短信通知提醒。


其他监控:BaseFee过高导致消息无法上链等问题。


集群部署完成后,先确认各个组件工作状态是否正常,主要是保障该运维作业稳定。


例如,确认各个组件之间的网络连接是否正常、连接数据库网络是否正常、组件高度是否同步、私钥是否正常导入、数据库上的任务是否报错、集群消息是否正常广播上链、算力是否上涨等关键指标。


针对网络升级,需要确认升级方案


  • 运维部门在评估测试部门通过新版本组件升级的方案合理后,开始展开对此次升级的风险评估,并制定完整的回滚方案。


  • 标准升级前,运维人员先对测试网集群进行升级,主要反馈如下:升级完成后观察组件运行是否正常、新功能或优化效果是否达到预期。


  • 最终确认无误后,把升级方案分配给各个集群,相关运维人员使用自动化的方式进行部署。


在升级线上集群时,各个集群运维人员通过自动化升级替换线上环境的软件包,等待进程的工作线程结束,自动重启组件,实现集群组件的热更新。


鉴于实际网络与测试网存在一定的差异,升级完成后,运维人员要观察集群所有组件的运行是否正常,判断标准如下:复制证明及时空证明阶段是否正常、新版本功能是否达到预期,若没有达到预期,进一步校准、升级。


在日常集群产量方面,运维部门可以通过监控软件上的信息进行排查:各个集群的各个阶段的任务数、预期任务数、积压任务数、错误扇区的统计等,精确定位每一组机柜的运行情况。


了解故障现象,分析故障原因和故障方向;快速恢复业务,减少损失;判断故障造成的大致损失,并上报、告知客户;事后分析故障原因,判断此故障是否为各个集群存在的通病,如是,则及时产出优化方案,并防止故障在其他集群再次发生。


日常运维中遇到的故障,会自动化记录到标准故障手册。如果运维人员遇到类似问题,要严格按照文档进行操作,解决问题。进行高风险的命令操作时,由多名运维人员共同审查执行,避免人为失误。


在故障恢复的过程中,如果遇到非常规的报错或问题,应及时上报、处理。



免责声明:本文内容来源于网络,所载内容仅供参考。转载仅为学习和交流之目的,如无意中侵犯您的合法权益,请及时联系元宇宙中文网!



区块链与分布式存储:承载人类文明的数据基建  第11张



本文地址:https://www.metaversebbs.com/?id=234
温馨提示:文章内容系作者个人观点,不代表元宇宙中文社区对观点赞同或支持。
版权声明:本文为转载文章,来源于 互联网 ,版权归原作者所有,欢迎分享本文,转载请保留出处!

 发表评论


表情

还没有留言,还不快点抢沙发?