往事:开创者揭秘比特大陆S9如何成为“一代机皇”

(本文作者为比特大陆前技术总监谢丹,吴说区块链授权发布。文章观点为作者个人意见,不代表吴说区块链立场)


2014年8月,我在成都开了一家后端设计服务公司,我想做有增值价值的后端设计服务。在找客户的时候,我上网搜索了一下,觉得做比特币矿机的公司应该有着这方面的需求,于是给当时比特大陆的网站上的邮箱写了封电邮:

往事:开创者揭秘比特大陆S9如何成为“一代机皇”

当时,我给很多家集成电路设计公司都写过邮件,而比特大陆是最快回复的一家。后来聊天的时候了解到,这个邮箱当时是吴忌寒吴总在使用,比特大陆那时正好也在寻找提高芯片竞争力的方案。于是吴忌寒把这个邮件转给詹克团詹总,詹总九月路过成都和我见面了。詹总和我面谈了两次,大家聊得不错。詹总觉得这个项目时间很长,风险较大,且存在知识产权的顾虑,建议我解散公司,带领团队加入比特大陆。

2014年10月,我带着两个人的小团队正式加入比特大陆,成为比特大陆的全定制部门。最初的方向就是邮件中讲的多米诺逻辑。


多米诺逻辑是一种比较成熟的动态逻辑结构,其主要形态是这样的:

往事:开创者揭秘比特大陆S9如何成为“一代机皇”

多米诺逻辑电路相对于对应的静态电路,有着以下优点和缺点:

  1. 因为信号只需要驱动N管,所以电容较小,速度较快。

  2. 因为A点是动态点,所以最后的反向器M3/M4是必须的。

  3. A点存在charge-sharing的问题。

  4. M1,M2,M3,M4为新增器件,PMOS为减少器件

  5. 因为M1、M2为时钟信号驱动,所以它的功耗至少是其它普通信号的2倍以上。

所以,从功耗上考虑,M1与M2因为是时钟信号,它的功耗至少按照两倍信号的功耗算,则 M1+M2+M3+M4的功耗是增加了 6个MOS管的功耗,对于一般逻辑来说,超过12个MOS管的标准单元库并不多。从面积上讲,M2+M4增加了2个NMOS管的面积,而PMOS虽然少了,但在版图上很难把这节省的面积体现出来。也就是说:多米诺逻辑虽然会加快芯片速度,但是面积与功耗都稍有增加。

当我们2015年1月把结论提交的时候,基本确认了多米诺逻辑是不适应矿机芯片的。比特币矿机芯片因为纯并行运算,速度并不那么重要。矿机最大的成本在于电费,所以,功耗是最重要的。我们在进行面积与功耗的大拇指规则 (rule of thumb) 评估时,功耗的权重是面积和速度的3倍以上。

我们多米诺逻辑尝试的失败,并没有打击我们的探索,因为我们发现了一种适合动态逻辑其积大管子多的标准单元,而这种标准单元有一个很明显的例子,就是触发器Flip-flop。于是我们重回开始,以动态的触发器做为攻坚目标。

在集成电路的开始,上个世纪的七十年代,因为每个晶体管的成本高,所以,那个时候的触发器都是动态的,无论是domino flip-flop,C2MOS edge-triggered flip-flop,还是TSPC positive-edge Flip-flop 等,都是当时的产物。我们从中发现了宝库。

比如一个TSPC positive-edge Flip-flop ,它的逻辑如下:

往事:开创者揭秘比特大陆S9如何成为“一代机皇”

仍然按照我们clock gate算作两个gate的话,这个flip-flop总共就是 4*2+7=15 个gate 等价。

而我们之前最常用的静态触发器的结构是这样的:

往事:开创者揭秘比特大陆S9如何成为“一代机皇”

再加上clk的反向器,这个我们加一起就是  8*2+12 +4 =32个 gate等价。静态逻辑的触发器等价管子数功耗比动态逻辑多1倍以上。

同样的,从面积上看,动态逻辑是11个器件,而静态逻辑是22个器件,正好是一倍的面积。

我们在确认了采用动态逻辑的触发器之后,接下来就是如果融入我们的设计流程。我们最后在静态逻辑的触发器的功能描述上,增加了部分时间的约束,以防止动态逻辑中漏电流导致动态电容点漏电。并且在时序和功耗提库时,用静态触发器的一些参数进行套用。简单说,我们在动态逻辑上加了一个外框,让它在前端设计人员看来,就是一个正常的静态触发器,对于前端设计与综合,没有任何的不同。

完成了对动态触发器的提库,我们相当于有一个面积为原来一半,且功耗为原来一半,时序几乎类似的新的触发器了。因为比特币需要不停地计算,所以静态触发器需要保存较长时间的数据就没有必要。当我们在完成动态触发器之后,比特币这种分布运算以及完全流水线的逻辑就特别适合动态触发器了。对于pipeline流水线来说,它的结构是这样的:

往事:开创者揭秘比特大陆S9如何成为“一代机皇”

我们可以直接改为:

往事:开创者揭秘比特大陆S9如何成为“一代机皇”

考虑到现在新的动态触发器的面积和功耗只有原来的一半,新的流水线在相同面积和相同功耗下,增加了一倍的速度。在我们比特币的矿机芯片,就是自己从32级流水线改为了64级流水线,增加一倍算力。

我们在2015年中完成对28nm的BM1385芯片设计(蚂蚁矿机S7),并且在2015年年底完成对16nm的BM1387芯片设计(蚂蚁矿机S9)。在性能体现上,我们的28nm几乎和对手的16nm相同的性能,而我们的16nm芯片则是对手的一半成本。通过动态触发器,我们实现了对竞争对手的跨代优势。特别是S9的设计,是比特币矿机的奇迹,成为了比特币矿机中生产最多的矿机,生命周期三年多,被称为机皇。


在几乎不需要软件环境的数字货币挖矿行业,一件产品只有竞争对手一半的成本,这是非常大的竞争优势,这意味你可以进行随心所欲的价格战优势。因为你卖到对手不挣钱了,而比特大陆还有50%以上的毛利率。正是凭借着动态逻辑这个秘密武器,依靠S7与S9的销量成功,让比特大陆从不到20%市场份额的群雄纷争局面一举变成一家独大(70%以上份额)。

比特大陆崛起的一个直接现象,就是国外比特币芯片公司的退出市场,2014年和2015年高调的KNC、bitfury、Spondoolies-Tech、21 Inc.都很快宣布破产或者退出矿机芯片市场。

随着比特大陆一些员工的离开,动态触发器这个技术逐渐地传播到国内其它的芯片开发商那里,但是这个技术基本还是约束在国内了。2017年日本GMO还在12nm以及7nm试图进入这个领域,从这家公司的宣传上看,他们还是采用的静态触发器的结构,再加上遇上了2018年的熊市周期,一年后就亏损退出这个市场,是可以预期的。

在16nm之前,新一代工艺mask在数百万美元以内,而重新设计动态逻辑的技术、人力与风险显然是高于数百万美元的,所以动态逻辑的优势无法体现。然而16nm之后,新的10/7nm,以及将来的5nm的成本都数千万美元了。动态逻辑能够超越一个制程节点的性能就会让它显得更加优势,焕发出新的生命力。我期待着更多的应用动态逻辑的公司出现,让这个古老的设计艺术重现在我们时代。

来源:吴说区块链

原创文章,作者:高天,如若转载,请注明出处:http://www.doubi.com/?p=4979

发表评论

电子邮件地址不会被公开。 必填项已用*标注

联系我们

在线咨询:点击这里给我发消息

QR code