对于计算机来说,区块链就像一个单向链表,一个数据块中保存着三个信息。
这样,通过追溯前一个块的地址,把所有的数据块存成了一条链。所以,我们叫其 BlockChain。如下图所示。
每个数据块的 " 地址 " 的编码使用了计算机上的一个算法,计算机圈内人士把这个算法叫 Secure Hash。有人音译为 " 安全哈希 ",也有人意译为 " 安全散列 "。在计算机应用中,hash 算法主要有几个功能。
于是,很多公司在互联网上发布信息或软件的时候,都会带上一个 Checksum(校验码)。你只要把整个文件的数据传入到那个特定的 hash 算法中,就会得到一串很长的字符串。如果和官方发布的 Checksum 字符串不一样,那么就说明信息或文件内容被人更改或是信息残缺了。因此,也被应用在 " 数字签名 " 中。
在计算机世界里,有两个很著名的 hash 算法,一个叫 MD5(Wikipedia 链接),一个叫 SHA-2(Wikipedia 链接), 区块链用的是 SHA-256 这个算法。
下面是一个示例。
于是,我们就可以利用 hash 算法的这个特性来对数据做 " 数字签名 "。也就是说,我将 " 数据 " 和其 " 签名 "(hash 计算值)一起发布,这样可以让收到方来验证数据有没有被修改。
我们再来看上面那个区块链的图。
对于第一块数据,我们把其 " 数据集 " 和 " 前数据块的 hash 值 00000a6cba" 一起做 hash 值,得到本区块的地址 000007cabfa。然后,下一个区块会把自己的数据和 000007cabfa 一起做 hash,得到 000008acbed 这个哈希值……如此往复下去。
根据 " 被 hash 的数据中有一个 bit 被修改了,整个 hash 就完全不一样了 " 这个特性,我们知道:
在这样的连锁反应下,你想要偷偷修改一个 bit 的难度一下就提高很多。所以,在区块链的世界里,越老的区块越安全也越不容易被人篡改,越新的区块越不安全也越容易被人篡改。
下面我来简单介绍一下,比特币中区块链的一些细节。下图是区块链的协议格式。
其中 Version,Previous Block Hash,Merkle Root,Timestamp,Difficulty Target 和 Nonce 这六个数据字段是区块链的区块数据协议头。后面的数据是交易数据,分别是:本块中的交易笔数 H 和交易列表(最多不能超过 1MB,为什么是 1MB,后面会说)。
下面我来说一下区块头中的那六个字段的含义。
对这六字段进行 hash 计算,就可以得到本区块的 hash 值,也就是其 ID 或是地址。其 hash 方式如下(对区块头做两次 SHA-256 的 hash 求值):
SHA-256(SHA-256 (Block Header))
当然,事情并没有这么简单。比特币对这个 hash 值是有要求的,其要求是那个 Bits 字段控制的,然后你可以调整 Nonce 这个 32 位整型的值来找到符合条件的 hash 值。我们把这个事情叫做 " 挖矿 "(在下一篇中,我们会详细讲一下这个事)。
前面说到过,可以简单地将 Merkle Root 理解为交易的 hash 值。这里,我们具体说一下,比特币的 Merkle Root 是怎么计算出来的。
首先,我们知道,比特币的每一笔交易会有三个字段,一个是转出方,一个是转入方,还有一个是金额。那么,我们会对每个交易的这三个字段求 hash,然后把交易的 hash 做两两合并,再求其 hash,直到算出最后一个 hash 值,这就是我们的 Merkle Root。
我画了一个图展示一下这个过程。
上面的示意图中有四笔交易,A 和 B 的 hash 成了 Hash-AB, C 和 D 的 hash 成了 Hash-CD,然后再做 Hash-AB + Hash-CD 的 hash,得到了 Hash-ABCD,这就是 Merkle Root。整个过程就像一个 " 二叉树 " 一样。
下图是一个区块链的示意图,来自比特币的白皮书。
为什么要这样做呢?为什么不是把所有的交易都放在一起做一次 hash 呢?这不也可以让人无法篡改吗?这样做的好处是——我们把交易数据分成了若干个组。就像上面那个二叉树所表示的一样,我们可以不断地把这个树分成左边的分支和右边的分支,因为它们都被计算过 hash 值,所以可以很快地校验其中的内容有没有被修改过。
这至少带来三个好处。
最后,需要说一下的是,以太坊有三个不同的 Merkle Root 树。因为以太坊要玩智能合约,所以需要更多的 Merkle Root。
以太坊称其为 Merkle Patricia Tree(具体细节可参看其官方的 Wiki)。
比特币区块中的交易数据,其实也是一个链。为了讲清楚这个链,我们需要了解一下比特币交易中的两个术语,一个是 input,一个是 output,也就是交易的支出方(input)和收入方(output)。
在比特币中,一个交易可以有多个 output,也就是说我可以把一笔钱汇给多个人,但一个 output 只能对应一个源的 input,还有一个条件就是,output 跟 input 的总数要吻合。
这里举个例子。假设,Fred 给了 Alice 2 个比特币,Ted 给了 Alice 3 个比特币,这个时候,Alice 有 5 个比特币。然而,大比特币的世界里是没有余额的,所以,对于 Alice 来说,她只有两个没有花出去的交易,一个是 2 个比特币,一个是 3 个比特币。这在比特币中叫 UTXO(Unspent Transaction Output)。
此时,如果 Alice 想要转给 Bob 4 个比特币,她发现自己的两个交易中都不够,也不能拆开之前的那两个比特币交易,那么她只能把交易 2 和交易 3 当成 input,然后把自己和 Bob 当成 output,Bob 分得 4 个,她自己分 1 个。这样的交易才平衡。
于是,一笔交易可能会包含大量的 Input 和 Output。因为比特币没有 " 余额 " 的概念,所以需要通过多个 input 来凑,然后 output 这边还需要给自己 " 找零 ",给矿工 " 小费 "。
这样一来,在比特币交易中,交易会开成一个链,也就是你把钱给了我,我又给了张三,张三给了李四……就这样传递下去,形成了一个交易链。因为还没有花出去,所以就成了 UTXO,而系统计算你有没有钱可以汇出去时,只需要查看一下你的 UTXO 就可以了。
(图片来源:https://bitcoin.org/en/developer-guide
)
UTXO 因为没有账户和余额的概念,所以可以并行进行多笔交易。假如你有多个 UTXO,你可以进行多笔交易而不需要并行锁。然后其还有匿名性的特征,你可以隐藏自己的交易目的地(通过设置的多个 output),而且没有余额意味着是没有状态的。要知道你有多少个比特币,只需要把 UTXO 的交易记录统计一下就可以知道了。但这也让人比较费解,而且也不利于应用上的开发。以太坊则使用了余额的方式。
在这篇文章中,我先讲述了什么是区块链?它是如何得名的,它的核心原理是什么。随后分享了比特币的 hash 算法,以及 Merkle Root 是如何计算出来的。最后,介绍了比特币的交易模型。希望对你有帮助。(这篇文章中图片很多,很难用音频体现出来,所以没有录制音频,还望谅解。)