DxChain（DX）一个去中心化的大数据存储和机器学习网络

DxChain是-个大数据分析和机器学习网络，这个网络是由一个以计算为中心的区块链及其-一个内在代币协议(也称为“DX代币”)驱动的。最终用户可以将这个网络作为交易数据的数据交换平台，也可以作为一一个商业智能分析平台，用来分析数据以支持业务洞察。与比特币和以太坊(Ethereum)不同的是，比特币和以太坊的矿工激励是提供大量的计算以维护区块链共识，而DxChain根据工作量的有用性(存储和计算)向矿工提供奖励。由于DxChain的存储平台是采用去中心化原则设计的，协议有一种机制来控制文件访问的可靠性。通过吸收P2P网络和hadoop hdfs文件系统的优点，可以保证DxChain的健壮性和可访问性。DxChain将会整合Hadoop这个业界公认的大数据平台。DxChain 设计了多个角色来管理和调度系统中的任务，实现了中心化并行计算系统的计算目标。在DxChain之.上将会构建一一个工具集，以加速计算和分析过程。此外，在DxChain之上也可以建立机器学习算法以促进更多的计算驱动型任务。在检索文件时，DxChain还支持计算以提供更灵活的数据交换。再加上智能合约，这个平台对于数据去中心化、构建和运行分布式应用程序尤其有用。
本文介绍了DxChain，一个去中心化的大数据和机器学习网络，这个网络是由一个以计算为中心的区块链驱动，并包含以下四个主要创新:
·一个新的去中心化计算框架，引入概率数据计算(Probable Data Computing)和验证博弈( verification game) ;
·一种新的三链合一( chains-on-chain) 设计，以编排主链和两个侧链:即数据侧链和计算侧链;
·在DxChain中引入Hadoop，以促进大数据处理和机器学习;
·基于DxChain灵活和强大的系统架构，专为支持大多数的业务数据交换和数据分析需求而设计。
DxChain设计原理与框架
DxChain的架构设计借鉴了IPFS, Hadoop HDFS, GFS, FileCoin, 1OTA,IoTeX, Plasma, TrueBit, morpheo和Golem。我们根据经济激励的原则设计整个系统，使矿工能够最大限度地利用闲置的存储资源，并以低成本和便利性促进去中心化的大数据计算。在本节中，我们将描述DxChain的架构设计。三链合一设计、含有共识协议和激励机制的存储与计算将在后续章节讨论。
1.DxChain架构概览
DxChain在去中心化数据存储之上，提供去中心化的大数据分析和机器学习计算。为了实现这个复杂的项目，我们设计了一个特定的三链合一结构来管理主链、存储链和计算侧链，并在拜占庭(byzantine )环境中提供激励机制达成共识。
P2P存储网络，如星际文件系统(IPFS) 、 swarm和storj,提供了一个灵活的、可扩展的文件系统，可以在其中构建数据帧和模式。存储链建立在存储数据模型之上，在这里，时空证明(Proof of Spacetime,PoSt)可以验证存储提供者是否真正存储客户的文件。
我们以Hadoop为起点，将这个业界公认的大数据平台作为我们的计算引擎。构成Hadoop运行的组件(例如作业跟踪器、任务跟踪器和工作节点)使用计算侧链进行彼此通信，以同步作业运行。计算侧链采用两种共识机制:验证博弈(verification game )和可证明数据计算( Provable DataComputation,PDC)，并为提供算力的节点提供经济激励。
主链负责编排存储链和计算侧链，以维护主区块链。参与节点提供存储和算力，并从主区块链获得奖励。

图3.1显示了DxChain的高层次基础设施。从图中可以看出主链、存储链和计算侧链是如何协同工作的。

2 三链合一
我们设计了一个三链结构，这种结构具有两个独特属性: 1)主链结构和侧链结构，2)不可变主链和弹性侧链。属性1根据功能对链进行拆分。属性2解决区块链的可伸缩性、吞吐量和延迟问题。
主链负责维护交易。根据比特币和以太坊的经验，我们保持了主链的不变性。
DxChain的侧链负责存储和计算。这两个侧链功能是有时间限(time-bounded)的，因此区块不需要无限期地存储过期的数据。我们设计了一种链缩短算法，它可以删除未使用的数据，节省宝贵的区块空间。
3.计算
大多数流行的区块链都用于金融交易活动，因此它们的计算只是检查链上的交易记录，这种计算不需要大量的资源。但是， DxChain将支持更通用的计算，如数据库查询和map-reduce计算。
比特币使用区块链米存储网络中所有交易记录以达成共识，而这–共识需要超过半数的活跃节点同意。为了保证计算共识，在区块链中存储所有计算状态是不可能的;因此，我们使用两种机制来保证计算的正确性:验证博弈(verification game )算法和可证明数据计算( Provable DataComputation,PDC)。
验证博弈算法设计了一个系统，这个系统中有三种主要角色类型:求解者、验证者和法官。这种交互系统可以在不浪费太多算力的前提下，证明计算过程的正确性。可证明数据计算是-一个证明计算结果正确性的统计框架，只有很少的冗余计算。
DxChain采用验证博弈算法和可证明数据计算，解决了外包计算和去中心化挖矿等问题。因此，在DxChain平台上进行map-reduce计算成为可能。
4.Hadoop
Hadoop是一“个业界公认的大数据平台，包括用于文件存储的HDFS、用于作业调度的yarn和map-reduce、以及用于分布式作业运行的工具集。由于Hadoop是一个中心化系统，它需要协调器来调度作业。DxChain的设计目标是将Hadoop生态系统迁移到一个去中心化环境。
为了协调作业跟踪器、任务跟踪器和工作节点，DxChain设计了一个计算侧链来保存计算状态，这些计算状态用来管理计算任务和验证计算的正确性。通过控制计算状态，DxChain 实现了map-reduce的流水化计算。
在map-reduce的基础上，DxChain 将会为数据库操作和机器学习算法执行提供一些工具，如Pig、Hive 和Mahout。使用这些工具可以构建一些商业智能操作。
DxChain区块链架构
自2009年以来，比特币在去中心加密货币账本领域一直受到人们的极大关注。与此同时，PoW共识机制很难适应新需求和创新。为了保持区块链的优点，并使区块链轻量、快速、可扩展，我们提出了一种新的设计，即包含两层区块链(主链和侧链)的三链合一架构(chains-on-chain)。这种新系统可以更容易地为资产、数据和信息提供跨链互操作支持。此外，侧链只承载数据存储和计算任务，因此技术创新不受阻碍。
1.设计概览
主链与比特币和以太坊类似，它存储账本和资产信息，如状态、交易、收据、以及智能合约。主链适合存储少量信息，因为它是不可变的。为了支持复杂的数据结构和计算信息，我们提出了两条侧链:
·数据侧链(Data Side Chain,DSC)，建立在P2P分布式文件存储系统之上，存储非资产信息
·计算侧链( Computing Side Chain,CSC)，与比特币的哈希挖矿(PoW)不同，它是为解决真实业务问题而设计的，并支持DxChain虚拟机(DVM)的特定计算任务。计算单元可以读取数据侧链(DSC)的数据，并将结果写入数据侧链(DSC)。
在一份作业完成后，最终的状态、相关的成本和财务激励都被智能合约存储在主链上。中间状态和任务级交易信息保存在DSC或CSC中。随着智能合约跨越主链和侧链，整个系统可以在主链上保持低成本，同时在侧链上实现高效的计算和数据存储。
2.系统架构
如图4.1所示，在DxChain网络中，主链负责管理整体交易和两个侧链。数据侧链(DSC) 和计算侧链(CSC)通过DxChain智能合约与主链通信。此外，数据侧链和计算侧链可以通过三链合一微服务相互操作，这些服务包括数据和消息。

两个侧链的设计是为了解决数据存储和计算的效率问题。我们扩展了区块结构，将更多的数据存储在区块中，并减少了整链加载的频率。每个侧链都有自己的共识方法，计算侧链(CSC)使用可证明数据计算(Provable Data Computation,PDC)和验证博弈(verification game)，数据侧链(DSC)使用时空证明(Proof of Spacetime,PoSt)。
主链和两个侧链执行不同的功能。尽管这些链是通过智能合约和微服务相互连接的，但从物理上来说，这些链仍然是独立和隔离的。即使侧链断裂，主链也完全不受影响。侧链的损害完全局限于自身。
3.主链
主链使用兼容以太坊的数据结构，这种结构由哈希链接的区块组成。区块是相关元信息的集合，也包括交易、状态和收据相对应的组合信息。这些区块通过哈希指针连接。
与基于比特币的UXTO模型不同，DxChain 使用基于账户的模型来存储交易和资产信息，其中包括帐户状态、跨账户交易和收据。与以太坊类似， DxChain有两种类型的账户:常规账户和合约账户。这些数据是按照梅克尔帕特里夏树(MerklePatriciaTree)的数据模型组织，并存储在网络的所有节点中。
为了支持主链和侧链之间的资产转移，侧链中有效的交易被添加到主链中。侧链使用和主链相同的代币(token) ，侧链也可以根据网络定义的汇率定义自己的代币(token) 。
4.数据侧链
数据侧链(DSC)建立在P2P存储网络之上，例如IPFS、Swarm。数据则链本身作为一个激励层，它本身不用于数据存储。数据侧链(DSC)有它自己的代币(数据侧链)，可以根据定义的汇率传回主链。数据侧链(DSC)使用时空证明( Proof of Spacetime，PoSt) 作为微交易( microtransactions)的共识方法。数据侧链(DSC)为去中心化存储网络提供了基础。在这种情况下，数据侧链(DSC)的优势包括更快的时间设置、更低的交易费用、更快的交易速度、更高的隐私保护和保持透明的能力。
数据和文件被分解成许多小块，存储到P2P存储网络中，例如星际文件系统(IPFS) 。每个小块的元信息和哈希采用类似Merkle Patricia Tree的结构存储在链中，称为文件状态。除了每个块和文件本身的哈希值之外，我们还为文件本身设计了一个跨链URI (统一资源标示符)，因此数据可以很容易地通过网络和链进行访问。

在数据侧链(DSC)和P2P存储网络之间，我们设计了一个虚拟逻辑层，其中包括存储任务给予者、文件导入和导出的矿工和验证者——我们将这一层称为DxChain存储层。
5.计算侧链
计算侧链(CSC) 具有类似DSC的结构，同样通过哈希链接，同样包含区块头、交易集、DxChain网络合约和数据分配。交易仍然使用Merkle树结构。

图4.3说明了计算侧链(CSC)如何协助map-reduce操作的细节。客户端向网络发送一个计算请求，这个请求通过网络传播。每个矿工都使用计算侧链(CSC)来获取任务。当一个任务完成时，工作的矿工会向计算侧链(CSC)发送确认，以更新任务状态并获得奖励。
矿工运行map-reduce作业的原理将在后面的章节中解释。
6.跨链通信
图4.4说明DxChain跨链通信协议，展示了跨全网交易的概况。
通过在主链、数据侧链(DSC)和计算侧链(CSC)之间跨整个系统的交易流，让我们在高层次.上审视通信协议。

1.任务给予者(“U”)在主链中提交任务。主链中的矿工需要检查以下情况:
·区块格式有效，包括状态、交易、接收方和合约;
·订单是有效的;
·证明是有效的;
·跨链合约是有效的;
·主链中的资产被锁定，并被转移到计算侧链。
2.计算侧链(CSC)中的求解者和验i证者将把代码和数据加载到DxChain 虚拟机(DVM)中，并在DxChain虚拟机(DVM)中执行代码，这些代码包括并行计算任务和验证任务。计算侧链(CSC)的矿工需要:
·检查区块的格式;
·检查扣款，押金是有效的;
·检查任务相关的数据和代码是否有效:
·如果需要，验证任务结果;
·如果需要，从DSC读取/写入数据;
·汇总交易，并传回主链。
3.在数据侧链(DSC)中，矿工的主要工作是提供基础的数据存储和跨P2P网络的数据传输。写数据矿”工存储数据到网络中，读数据矿工检索数据。数据侧链(DSC)的矿工需要:
·检查区块的格式;
·维护数据的健康，确保数据的可用性、完整性和安全性;
·检查信用记录，确保押金有效;
·如果主链中的资产被锁定，则转移到计算侧链。
4.在所有计算任务完成后，数据存储和传输任务也将完成，全部交易和资产将被传回主链。
DxChain赋能的生态系统
DxChain区块链支持多种机器学习和数据挖掘算法、数据存储、音乐/视频流和许多其他应用程序。来自不同行业的开发人员可以用不同的方式使用DxChain。本节描述DxChain驱动的生态系统中的几个用例。
1.自动数据样本收集和人工智能模型训练
人工智能极大地改变了我们经济生活的各个领域，包括广告、金融、医疗、交通、消费者、自动化、能源、物流和航空航天。到2025年，人工智能软件和服务收入预计将达到598亿美元[34]。
Trustlook ，作为一个人工智能技术驱动的安全公司，该公司的恶意软件和勒索软件检测引擎的质量严重依赖于从其客户和合作伙伴收集的样本数据。虽然Trustlook已经有了购买或交换样本数据的解决方案，但仍然存在一些缺点:
1.高质量的样本数据很难得到。目前，获取样本数据的方法是从像Mcafee、赛门铁克和谷歌这样的大型安全厂商购头或交换。像Trustlook这样的初创公司需要支付额外的订阅费来获得这些公司的样本数据。许多高质量的样品只用于他们自己的检测引擎，从来没有被市场所接受。
2.维护大型机器学习集群和数据中心存储的成本很高。Trustlook收集的移动样本数据的总大小超过了几个PB(PB级)。当Trustlook把它的业务从移动安全扩展到-一个更通用的网络安全领域时，所用存储可以轻松超过现在的10倍。要维护这样一个庞大的数据中心，预算和管理将是巨大的障碍。
DxChain，- -个去中心化的大数据和机器学习区块链可以让人工智能厂商在很多方面受益。我们的生态系统开发人员可以利用DxChain构建自己的机器学习Dapp。让我们列出DxChain 可以提供的一些优势:
1.定制的数据模型通过它的恶意软件检测Dapp定义数据收集格式，从而实现完全自动化的数据收集。移动用户可以定义智能合约参数，比如将哪些样本数据发送到区块链，以及用户想要交易的价格。每个设备自动收集的可疑样本数据也将被发送到DxChain区块链。
2. DxChain 将数据块保存在每个区块链矿工的磁盘上，每个矿工共享自己的互联网带宽。这样可以极大地减少数据存储和网络流量成本。
3.去中心化的机器学习算法每日进行训练，在链中训练Trust-look的人工智能模型。这就像共享经济一样，可以几乎免费使用共享矿工未使用的CPU时间。
4.在区块链中，不可变的加密数据保护用户的数据存储和服务，无需担心数据泄露或隐私数据泄露。
5.每个设备用户利用DxChain的智能合约以信任的方式进行交易和交易数据。
2.智慧城市
智慧城市是一组为居民在基础设施层面提供便利的智能解决方案。到2020年，这个市场的价值可能会达到1.565万亿美元，包括智慧能源、智慧建筑、智慧移动、智慧技术、智慧基础设施、智慧管理和智慧教育、智慧安全和智慧公民。虽然我们的日常生活许多都依赖于智慧城市，但现有的中心化网络有几个缺点:

1. 智慧城市产生的数据比我们可以存储和分析的数据多得多。根据报告，到2020年，我们将部署1万亿的传感器，这些传感器将帮助我们测量温度、交通模式、人流量、空气质量和基础设施的安全水平。假设-一个传感器产生10K数据，包含1万亿个传感器的数据将是一一个巨大的数据集。另-一个例子是，一款使用MPEG-4、30fps 和1080p分辨率的监控智能摄像设备将在24小时内产生3TB磁盘的数据容量。
2. 没有数据挖掘，收集的数据是无用的，但是运营一个大数据中心来缓存和挖掘数据超出了大多数企业的能力。
DxChain用户可以直接在传感器每天生成的数据集.上运行机器学习和数据分析，并生成可操作的商业智能报告来指导他们业务的日常决策。我们的生态系统开发人员可以利用DxChain来构建自己的机器学习Dapp。让我们列举一些我们可以提供的优势:
1.智慧城市的传感器数据采集是通过启用开发者的Dapp中相关的智能合约自动化实现的。
2.智能合约基于周围环境智能控制各种智慧城市传感器的运行，如空调温度动态控制，以节省电力。
3.区块链数据购买者可以利用设备数据来开发机器学习模型来诊断设备运行状态，并预测设备故障并通知供应商提前安排维修服务。
4.区块链开发人员可以开发机器学习模型，通过生成电力消耗报告和预测用电高峰时间优化电力调度模型来帮助PGE等电力公司。
3.医疗保健
全球医疗保健市场的估值从2016年的317.1亿美元增长到2023年的578.5亿美元[29]。随着医疗保健行业的规模不断扩大，医疗保健和物联网两者的未来交织在一起。基于智能设备的医疗保健为那些不能去医院的人提供了在线诊断( on-the- diagnostics)功能。虽然我们的医疗保健系统在变得更好、更有效率、更有效，但也有以下几个缺点:

1.医疗保险费非常高，许多低收入的人仍然负担不起。
2.由于医疗物联网行业的碎片化，使得设备很难集成。
3. 不安全的数据存储方式使医疗保健供应商能够与其他公司整合和交换数据。
DxChain是一个去中心化的大数据和机器学习网络，可以使我们的生态系统开发人员利用DxChain来构建自己的大数据和机器学习平台。
1. 使用DxChain,和传统方式相比，存储数据和流量的成本将大大降低，这将有助于降低医疗费用。
2.我们的健身追踪器、移动应用程序、智能手表和其他设备收集的数据被加密，并以–种可追踪和安全的方式存储在区块链中。
3.使用DxChain的数据模型对数据进行标准化，每个供应商都可以向其他人开放他们的API,，从而实现数据交换和共享。
4.基于每一个独立设备数据的机器学习可以使医疗保健供应商建立他们自己的人工智能技术来监测病人的健康，并向社区发送关键的重要信号以防止灾难性事件发生。

最后，DxChain生态系统的开发人员可以构建基于设备的人工智能技术，使设备相互通信，基于智能设备.上共享的各种数据点实现个性化的处理建议。

关于更多DxChain信息：https://dxchain.com/

DxChain（DX）一个去中心化的大数据存储和机器学习网络

相关文章