chuanus

王川: 最大的问题是解决正确的问题 – 论第一性原理的理论和实践 (六)

本文最初于 2017年7月31日发布于笔者的公众号。


本文是

王川: 论第一性原理的理论和实践 (五) – SpaceX如何开辟新市场

的续篇。

(1)

1959 年英国大亨 Henry Kremer 悬赏五万英镑(相当于现在的一百多万美元),奖给第一个制造出纯人工动力飞机,可以升空飞行半英里以上的团队。如果可以飞跃英吉利海峡者,奖励十万英镑.

十几年过去后,多个团队不断尝试,仍然无法造出达标的飞机.

工程师 Paul MacCready 发现,大部分团队解决的是错误的问题。“问题是,我们不理解这个问题”.

每个团队都花了将近一年的时间根据自己的理论和猜测建造飞机,而没有充分的预先测试。等飞机造好后试飞,几分钟后,一年的辛勤劳动坠落到地面上。然后团队继续回去再研究,制造新的飞机.

MacCready 意识到,真正的问题不是“人工动力飞行”, 真正的问题是流程本身,真正的问题是大部分人在没有对一个复杂问题有深刻理解之前,盲目地追求一个困难的目标.

MacCready 发现他真正要解决的问题是:“飞机测试失败后,要能几个小时内重新调试造出改进的飞机.”

为了解决这个问题,他采用迈拉 (Mylar) 膜片,铝管和铝线做为制造飞机的材料. 第一个版本的飞机很脆弱,飞不起来,但是这没有关系,因为迭代改装的速度很快. 有的时候一天可以改造飞机三四次,进行试飞。重造重新测试重新学习的周期,从几个月到一年,压缩到了几天甚至几个小时.

他的团队终于在 1977年八月获得第一个 Kremer 奖,然后 1979年完成英吉利海峡的飞越.

(2)

上世纪初美国的莱特兄弟, 是世界公认的第一个成功实现 “把比重高于空气的飞机长时间升空飞行”的团队.

他们相对于其他竞争者,不是教育程度最高的,也不是最有钱有关系的。他们胜出的核心原因之一是:

在野外实地飞行测试的成本很高。莱特兄弟自制了一个可以放在家内的小型风洞,然后制造缩小的飞机模型,在风洞内测试。这种做法,使他们尝试各种新想法和小改进非常便捷容易.

风洞现在是飞机设计和实验通行的做法,但在当时是革命性的。莱特兄弟最初测试自己的滑翔机时,发现滑翔机先驱德国人 Otto Lilienthal 的机翼数据表是错误的,于是决定自己造小型风洞收集测试数据.

可以从上面几个例子里看到,解决一个问题的最核心瓶颈,实际上是通过各种工具,设计一个流程:

把试错和改进的成本压得最低,迭代速度提得最高.

换句话说,在缺乏有效工具降低试错成本之前, 不要盲目扩大投入, 否则失败后很难迅速改进, 容易造成巨大浪费.

(3)

建立快速迭代纠错的机制,是向内看,解决本质问题的一个重要手段.

但有的时候局部优化做到极致, 更多的投入不再有较大回报时, 拓宽视野向外看,也是解决问题的一个重要角度和方法.

特斯拉在准备大规模生产第三代电车 Model 3时 (起价三万五千美元)为了降低成本,提高性价比,在电池,马达,车型设计等各个方面绞尽脑汁. 可以参见笔者 2015年的老文章 (可直接点击下面链接)

王川:2017年, 特斯拉将敲响石油工业的丧钟

但是跳开电车设计本身,他们发现在生产电车的工厂的设计上,投入同等的时间其回报要大得多,有时效益可能高出一个数量级以上.

马斯克说,

“我们意识到, 真正的问题, 真正最困难的, 同时也是潜力最大的地方 – 是制造一个制造机器的机器。换句话说, 是建造工厂, 把工厂本身看成一个产品.

当你想象一个特定体积的工厂,输出等于 容积 x 密度 x 速度。如果你看看现在的工厂,有效 (用于生产的) 容积和无效容积的比例,低得要命。光看容积的化,大约比例只有 2-3%.

然后你再看速度。。。世界上最先进的汽车生产工厂,每 25 秒出产一辆车,听上去很快,但是如果你估算车身长度加上一些缓冲空间大约五米长的话,这等于25秒移动五米,也就是一秒钟移动 20厘米,这不比乌龟快多少. ”

特斯拉的 CTO JB Straubel 说道,

“有时我们的工程师在马达,电池,电控系统上花了很多时间,只能获得千分之一的性能提高。。但是我们如果把同样的精力放在设计工厂上的时候,我们很容易得到百分之十,百分之二十,甚至百分之几百的效益的提升。。这种大幅度提升在设计领域内闻所未闻”.

(4)

改进工厂设计, 提升效益,其复杂度比工厂产品本身大很多. 但正是因为其复杂性, 改进的手段也很多. 这里只举一个例子.

提高电车产出速度, 降低生产成本的一个重要因素, 是尽量减少需要人工干预的生产环节。

传统汽车生产, 需要把电子线束,地毯,座位等等大家伙装到车内,但传统车门可以提供进入的空间有限, 塞进去后还要精准安放, 很难完全由机器手快速完成,所以必须要人工手动, 减慢了生产速度.

特斯拉 Model 3 降低生产成本的一个方法是, 车的后半身有个巨大的玻璃车顶,这样就不需要传统的后座乘客头顶上的结构梁 (structural beam) ,这不仅简化设计,增加后座乘客头部的空间,最关键的是,它给 Model 3 的后面制造了一个巨大的开口,可以方便机器手自由地伸进去安放地毯,传感器,座位,电子线束等内部零件.

(未完待续)

王川: 三十二个有用的思维模型

本文最初于 2021年 8月31日发布于笔者的公众号。


(这32个思维模型前两年在微博上发布过,现在已被做成 NFT。)

思维模型有多重要?参见

王川:为什么思维模型是最重要的财富 (一)

1/ 强者益强。参见笔者的老文章,可直接点击下面链接。

王川: 从抄袭的进化优势, 看强者益强 (一)

王川: 从兰切斯特方程, 看强者益强和如何以弱胜强 (二)

王川: 论兰切斯特方程在商业竞争中的应用 (三)

王川: 从波色*爱因斯坦凝聚态,看强者益强的最高境界 (四)

2/ 范式转移.

王川: 范式转移的随想 (一)

王川: 范式转移的随想 (二)

王川: 范式转移的随想 (三)

王川: 论移动屁股和改变脑袋的艺术 — 范式转移的随想 (四)

3/ 跃过鸿沟.

王川:创新扩散的理论模型和误区

4/ 摩尔定律.

王川: 摩尔定律还能走多远? (一)

王川: 摩尔定律还能走多远? (二)

王川: 摩尔定律还能走多远? (三) – CPU 的内存瓶颈

王川: 摩尔定律还能走多远? (四) — 并行计算的威力

王川: 摩尔定律还能走多远? (五) – 这都是为了钱

王川: 摩尔定律还能走多远? (六) – 有钱能使鬼推摩(尔定律)

王川: 用摩尔定律武装自己

王川: 为什么摩尔定律一直没死, 但人们还会继续预测摩尔定律要死

5/ 软件吞噬世界.

王川:为什么软件正在吞噬世界 (一)

王川: 下个十年, 来自软件定义世界的挑战

6/ 零边际成本

可以参见美国学者 Jeremy Rifkin 的著作 “Zero Marginal Cost Society” (零边际成本的社会). 零边际成本,和下面所说的几个概念,“可扩展性”, “回报递增”, 有着非常密切的关系。

7/ 不对称性,凸性和反脆弱

王川: 反脆弱的随想 (一)

王川:无处不在的不对称性 — 反脆弱的随想(三)

王川:论弱关系的重要性 – 反脆弱的随想 (四)

8/ 过程导向和目标导向

王川: 论”目标导向”和”过程导向”

9/ 垄断,稀缺和财富的关系

王川:做一个独特而稀缺的人

10/ 悖论和矛盾

世界上最有趣和最值得研究的东西之一,是悖论 (Paradox), 尤其是每次信心满满 all in, 然后被别人揭穿,满盘皆输那种。而且这种悖论,大部分人不会吸取教训,会非常稳定可靠的重复错误。

这种悖论,往往是短期局部观察到的趋势,和长期全局更宏大的趋势,完全相反矛盾。这时候要避免被短期趋势裹挟上当,一定要有多样化的,全局化的信息来源。

认知的复杂度提高之后,更容易灵活调整和改变自己的观点,甚至容忍两个在低维度里看似矛盾不相容的观点。在高维度的空间里,不同观点之间的迁移或自洽,需要逾越的能量壁垒并不高。

11/ 信息和能量 (世界上最重要的两件事)

人类文明和世界经济的真正大爆发,大概在 1840 年前后,主要动力是商用电报系统的推出,和铁路系统的建设铺开。这两项技术导致信息效率,能量效率,与之前相比都有几十倍以上的增长。这种效率的突飞猛进,和经济的迅速爆发,在之前的几千年人类历史上,从未有过。

用现在的各种生活习惯和理论,去理解 1840 年之前的世界,会有一种格格不入的错位感。能量和信息效率的大幅度提高,会碾压所有神机妙算,阴谋诡计和兵法韬略。

12/ 能力圈

不要因为听别的行业的人讲了一个动听的故事,就奋不顾身的把全部身家投入到自己不熟悉的领域。悲剧往往来源于对自己能力圈之外的世界的天真憧憬.

13/ 生态系统, 群体惯性

你发现自己的行业日薄西山,想要改变。但是自己的供货商,经销商,客户,员工等等都不愿配合,一起同时改变。于是阻力最小的路径,就是大家一起保持现状,混吃等死。这就是生态系统绑定后的群体惯性。

14/ 活下来就好,及时出场就好

王川:活下来就好,及时出场就好

15/ 阈值

王川:不思考临界值的决策机制是愚蠢的

16/ 自催化,正反馈循环

王川:论”正反馈循环” 和 “远离平衡态的耗散结构” (一)

王川: 再论区块链和“正反馈循环”

王川: 从组件的角度看正反馈循环和区块链产业

17/ 成功的网络机制

王川: 成功的关键 = 网络网络再网络

18/ 可选择性

关于投资: 用自己选择的方式战斗

王川: 反脆弱的随想 (二)- 机会成本和选择权

王川:从选择权看“心灵自由”和“经济自由” (一)

王川:你的选择比四年前更多了吗?

王川:再论选择权

19/ 多维度, 无限游戏

王川:从有限游戏和无限游戏看连续性

20/ 涌现

王川:论投资和涌现 (一)

王川:关于涌现的随想 (一)

21/ 幸存者偏差

幸存者偏差这个概念,很多人也许耳熟能详。但一到实践中,很容易被一些个例的成功故事搞得热血澎湃,以为自己简单模仿,同样可以成功。所以每当激动的时候,一定要提醒自己淡定,淡定,再淡定。不要被幸存者偏差忽悠而去孤注一掷。

22/ 指数增长,S 曲线

王川:论指数增长的反直觉性

23/ 数量就是质量

王川:论数量就是质量

24/ 可扩展性

王川:论“扩展性” (一)

王川:从交易的“干柴烈火度” 看扩展性和正反馈循环(二)

王川:比数字目标更重要的是扩展性和正反馈循环

25/ 遍历性,时间均值,系综均值

美国标普500指数过去二十年包含股息分红的年均回报率接近 9%, 这就是系综均值。你和隔壁邻居张三,李四,王二麻子过去二十年炒股都亏钱,这就是时间均值。

更多细节,可参见英国学者 Ole Peters 的网站,Ergodicity Economics ( 遍历性经济学)

26/ 适应性地形

王川: 适应度地形和模拟退火 – 范式转移的随想 (五)

27/ 庞氏骗局

庞氏骗局这个概念很多人应当都熟悉。庞氏骗局有个特点,就是把骗进去的人,都变成利益相关方,而绑架裹挟了。发现受骗后,正确的做法是立即切割,但这样将迅速面对短期巨大的痛苦,意志薄弱者,很难做到。而同流合污,一起帮着骗,短期还可能捞到更多好处,所以多数意志薄弱者,就会选择这条更容易的路,越陷越深。很多人本身是抱着“今朝有酒今朝醉”的想法,觉得不跟着骗捞一把就是傻*。这种事,一旦开始了,注定最后是一地鸡毛。

外人发现庞氏骗局后,如果人单式微,不要直接去公开捅破,否则里面的骗子和外面被骗的,都要跳起来和你拼命。所以也就只能看着他们自己最终集体崩溃了。

28/ 间接方法

这个概念来自英国学者李德*哈特 (1895-1970) 的同名著作 Indirect Approach。以下文字摘自他的书籍:

“战略的历史,本质上,就是’间接的方法’之演化的应用历史。

在深刻思考之后,我意识到‘间接的方法‘,有更广泛的应用,几乎在所有生活中的领域都是适用的法则:(它是)哲学的真理。

它在任何以人的因素为主导的问题里,都是成功的关键, 尤其是当大家都为自己的利益着想时,不同的愿望发生冲突。在所有这些情况里,直接把新想法强加于别人,必定激发顽强的抵触, 因此增加了改变愿景的难度。只有把一个不同理念润物细无声的渗入,或者从侧面去论证人们本能的反对意见的错误,才能更容易更快地让人们转变自己的观点。

’间接的方式‘对于政治领域,和两性关系的领域,都是有着同样根本意义的。做生意,暗示有便宜可占,比直接吆喝叫卖的威力要强大得多。在任何领域,众所周知,要让老板支持你的想法,最容易的方法就是让他认为这个想法是他的。“

29/ 计算的不可缩减性

牛顿力学,可以用简单的公式,预测天体运行的位置。但复杂系统的演变(比如金融市场),不可能靠简单的数学公式来提前计算预测。关于此概念的详细讨论,参见 Stephen Wolfram 的著作:A new kind of Science, 和 Richard Bookstaber 的著作: The End of Theory.

30/ 医不叩门,师不顺路, 不愤不启,不悱不发

如果别人没有诚心邀请你来帮助,不要主动送上门去给别人出主意,否则就是好心办坏事。这样的恶果一是讨人嫌,二是自掉身价,三是白白消耗能量。总之有百害无一利。

一个人向你轻浮的请教一个”他提问只要五秒,你回复却要至少五分钟“的问题,如果没有诚意预支咨询费,最好的应对是不理睬。如果屡次这样,可直接拉黑这种对他人劳动毫不尊重的人。

31/ 谢林点

谢林点 ( Schelling point, 有时也称 Focal Point), 此概念最初来自美国学者 Thomas Schelling ( 1921-2016). 最简单的例子是,一群陌生人如果选择在纽约碰头,一般默认的地点是 Grand Central Terminal. 如果在上海,可能会是“人民广场”。在博弈论中,这个概念有更深的内涵,和极为重要的应用。

32/ 回报递增,路径依赖

王川:随感合集 – 回报递增 /时间压力 /聪明和智慧 /认知和自信

可以参考美国学者 Brian Arthur 的著作 “Increasing return and path dependence in the economy”。

把握好回报递增的事物,获得指数增长,还有个好处,就是让以前的各种烦恼都突然变得无关紧要。

著名瑞士心理学家卡尔*荣格 ( 1875-1961)曾说:

”生活中所有最大,最重要的问题,本质都是无解的。它们永远无法被解决,只能因为人长大,长出来 (outgrow) 以后而变得无关紧要。

进一步研究后,发现这种’长出来’需要一个全新层面的意识。有些病人的视野内涌现出更高或更宽广的兴趣,而正是因为他们视野变广后,原来无解的问题突然不急了。这个问题不是按照自身的逻辑被解决,而是当面临一个新的更强大的生活的冲动时,慢慢淡化。

底层那些导致剧烈冲突和恐慌的情绪宣泄的东西,从更高层的人格角度来审视,就好像站在高高的山顶,观看山谷里的一场风暴。这并不意味着风暴不再真实,但你不再置身于中,而是置身之上。”

 

王川: 摩尔定律还能走多远? (一)

本文最初于 2016年6月10号发布于笔者的公众号。


(1)

在几周前的文章

王川: 深度学习有多深? (十七) — 衡量GPU的计算能力

里面, 我曾经提到, 理解摩尔定律未来发展的路线图, 对理解 GPU 计算能力的进步速度, 和人工智能技术的进步速度的重要性.

摩尔定律的传统定义是: 半导体芯片上的晶体管密度,平均每 18-24个月翻一番.

它最初于1965年四月被芯片公司英特尔的创始人 戈登*摩尔 (Gordon Moore) 在一篇名叫 “把更多零件塞到集成电路里” (Cramming more components into Integrated Circuit) 的论文中提出.

2013 年八月,曾就职于英特尔任总设计师的 Bob Colwell 在芝加哥的一个行业会议上宣称: 芯片行业的摩尔定律要终结了.

“从计划的时段来看,我认为 2020年可能是摩尔定律最早的终结时间. 你也许可以说服我拖到 2022年, 但不管它 (栅长, 晶体栅极的最小线宽)是到 7 纳米, 或者 5 纳米,这 (摩尔定律的终结) 是一件大事. ” ( 普通人的头发直径大约 75000 纳米)

Colwell, 不是第一个, 也不是最后一个,预测摩尔定律即将终结的人.

摩尔本人, 曾在1995年预测, 摩尔定律将于 2005年终结.

2015年, 摩尔本人, 再次预测, 摩尔定律将于 2025年终结.

最近的关于摩尔定律终结的各种预测, 最主要的理由,是到2025年之前,如果栅长缩小到只有 3纳米,其长度只相当于十个原子的大小. 在这个尺度,电子的行为方式将进入量子力学测不准原理的领域,晶体管可靠性将完全无法保证. 另外在这个尺度,晶体管的散热和芯片的生产成本控制,看起来也是无法逾越的技术挑战.

摩尔定律真的会终结吗?

如果会,是不是意味着科技发展将停滞不前,人类一起在地球上混吃等死?

如果不会,它对未来人类文明的进步,又意味着什么?

(2)

在展望未来之前,非常有必要回顾一下摩尔定律过去五十年的演变.

摩尔最初在1965年论文中提出的晶体管密度的概念,不是芯片上最多可以安放多少晶体管,而是从生产成本角度看,晶体管数目的最优值.

生产芯片时,增加晶体管数目一般会降低晶体管的单位成本.但是数目超过一个临界点,芯片生产出现瑕疵的几率增加,开始抵消密度增加的好处.集成电路的设计和生产,最终都是要寻求一个最优点.

摩尔在 1965年的预测, 是十年内,晶体管的密度,每年都会翻番.到1975年,一个芯片上的晶体管数目,将从 1965年的 64个增加到 1975年的65000 个.

后来英特尔在1975年生产的一个内存芯片 (面积为四分之一平方英寸, 折合约 161 平方毫米) 的晶体管数目达到 32000 个, 和摩尔的最初预测非常接近.

1975年摩尔在一篇论文中总结了前十年芯片密度增加的主要原因:

1.晶体管小型化

2.芯片面积增加

3. 新的设计技巧提高空间的利用率.

但是空间利用率的提高终归有限,所以摩尔在1975年修正了他的预测,把晶体管密度的增速,从每年翻番变成每两年翻一番.

以内存芯片为例, 2000 年的 DRAM, 204 平方毫米的面积上有 256,000, 000 个晶体管. 和 1975年相比, 晶体管密度 25年增加了 6300 倍. (如果按照摩尔定律两年翻一番的速度, 25年是增加 5800 倍左右, 基本上比较接近)

相应芯片的存储容量则从 0.001 Mb 增加到 256 Mb, 扩大了二十五万倍.

传统工程设计上, 往往需要权衡多种因素的利弊. 但在相当长一段时间内, 晶体管小型化在实践上不仅增加密度,而且使晶体管速度更快,能耗更低,不需要担心其它因素的限制.

平均每两年换一代的芯片生产技术,栅长缩小30% (x 0.7) ,相应的晶体管密度翻番,晶体管之间的延迟缩短30%, 导致相应的时钟频率增加40%,晶体管的电压减少30%, 单位能耗则减少50%. 由于晶体管整体数目翻番,所以整体能耗不变,但电路整体快了 40%.

但是到了本世纪初,晶体管的小型化遇到了瓶颈, 当栅长低于100纳米以后,晶体管漏电的问题变得严重,成了一个不可忽视的问题.

(未完待续)

王川: 摩尔定律还能走多远? (二)

本文最初于 2016年6月15日发布于笔者的公众号。


本文是      王川: 摩尔定律还能走多远? (一)   的续篇.

(1)

晶体管本质, 就是用”开”和”关”的状态,表示二进制里的 1 和 0.

集成电路里的所谓场效应管 (Field-Effect Transistor), 主要是三个部分: 源极 (Source), 栅极 (Gate) ,漏极 (Drain). 栅极本质上是一个电容, 对其施加电压时,栅极下面的沟道 (Channel) 联通源极和漏极,晶体管开启,代表”1″的状态. 电压取消时,电流降为零,晶体管关闭, 代表”0″的状态.

人们通常说的 CPU 的时钟频率, 就是晶体管开关的速度. 1 Ghz 就是 1秒钟内可以开关十亿次.

为什么人类的计算革命,选择了晶体管?

因为晶体管的持续小型化,使得单位生产成本的计算能力, 不断指数型的迅速增长.

与之相比,古老的算盘,算珠拨弄的速度 (类似晶体管开关的速度),和数据的容量,两千多年来没有实质的提高.

(2)

随着晶体管不断小型化,各种漏电问题成为摩尔定律发展的重大障碍.漏电意味着能量消耗的大大增加, 芯片过热甚至失效.

一类比较典型的漏电是所谓的 “栅氧化层泄露” (Gate Oxide Leakage).

传统的场效应管的栅极 (Gate) 底下是一层二氧化硅 (Silicon Oxide) 的材料, 其厚度随着晶体管小型化也相应减少 (否则会影响栅极的电容和晶体管的性能). 当栅极长度缩减到 45 纳米量级时, 二氧化硅的有效厚度只有一纳米左右, 由于量子隧穿的效应,会导致栅极的严重漏电现象.

图片

最终英特尔经过千万次实验后推出的解决方案, 是使用一种 “高介电常数” (high dielectric) 的材料, 以金属铪(Hafnium) 氧化物为基础的材料,取代二氧化硅, 其物理厚度没有减小, 但不会影响栅极的电容量.

2007年英特尔推出的 45纳米的芯片,栅极漏电比上一代技术减少了90%以上.

(3)

另一类漏电,来自所谓的”短沟道效应” (Short Channel Effect)的问题.简言之,就是晶体管栅极长度不断缩小,晶体管导电的阈值电压不断下降,零电压时的还有微弱的电流经过.

这个问题的本质, 是在栅极很短的时候,漏极本身也成了一个电容,和栅极竞争了.栅极越小,在离栅极较远的地方,源极和漏极之间的漏电无法控制. 如下图.

图片

1996 年, 当工业界还在生产250纳米的芯片时, 大众的观点是晶体管小型化到 100纳米以下几乎不可能. 但是美国国防先进研究项目总署 (DARPA)已经在思考小型化到 25 纳米时,短沟道效应导致的漏电挑战了.

加州大学伯克利分校的胡正明教授, 1997年获得 DARPA 资助, 提出了 FinFET 的设计概念. 其思路本质,是在三个侧面用栅极把晶体管包住,这样源极和漏极的任何通道,离栅极都不会太远,短沟道效应带来的漏电现象大大减弱.

这个设计,因为形状像鱼鳍 (Fin), 所以也被称为 FinFET. (FET 是”场效应管”的英文缩写)

十几年后, 在克服各种生产技术挑战后, 2011年英特尔在 22 纳米芯片中第一次使用了 FinFET 的技术. 这个技术被戈登*摩尔称为是”四十年来半导体行业中最激进的改动”.

而在我的文章

王川: 深度学习有多深? (十七) — 衡量GPU的计算能力

提到的 Nvidia 2016年最新的 GPU? 它采用的是台积电最新的16纳米的FinFET 生产技术.

(4)

如果以史为鉴,突破晶体管小型化的物理极限,并没有观察者现在那么悲观. 原来看似无法逾越的问题,换个不同的角度会有意向不到的解决方案.

摩尔定律最初说的是晶体管的密度.

密度增加, 意味着晶体管小型化, 意味着

单位成本的集成电路,
在能耗不变的情况下,
其计算能力会不断提高.

小型化只是表象,在生产成本和能耗不变的情况下,提高计算能力,才是摩尔定律的精髓. 按照这个思路, 推动摩尔定律前进的路径实际上还有很多.

(未完待续)

王川: 摩尔定律还能走多远? (三) – CPU 的内存瓶颈

本文最初于 2016年6月29日发布于笔者的公众号。


本文是    王川: 摩尔定律还能走多远? (二)   的续篇.

(1)

在 2002年之前,随着芯片密度的增加, CPU的时钟频率也一直不断增加. 对于普通消费者而言,CPU 的频率就代表计算机的快慢. 1981年最早出厂的 IBM PC, CPU 的频率是 4.77 兆赫, 相当于一秒钟四百七十七万个时钟周期. 假设 CPU 一个时钟周期可以运行一条指令, 频率越高, 就算得越快.

1995年的奔腾芯片,时钟频率达到了 100 兆赫, 是 1980年的二十倍还多.

而到了 2002年, 英特尔新型奔腾芯片时钟频率第一次突破 3000 兆赫 (3 GHz).

限制时钟频率的第一个主要物理约束条件是: 信号在晶体管之间传输的迟滞. 这也是为什么晶体管密度越大,时钟频率可以越高.

2002年之后, CPU 时钟频率增加遇到了第二个技术瓶颈: 能量消耗.

简单说, CPU的能量消耗和时钟频率的三次方近似成正比, 在 3 Ghz 之后, 频率的继续提高会使芯片过热而面临被烧毁的风险.

实际上, 2002 年之后, 英特尔CPU 的时钟频率大多一直在 2 GHz – 4 GHz 之间, 十四年来没有本质提高.

但时钟频率不再增长, 并不意味着 CPU 性能的停滞不前. 就像人类的大脑, 过去二十万年没有本质变化, 但并不意味着人类文明不会发生开天辟地的进步.

这时候,最有用的思路,是寻找新的维度,去进攻解决问题.

(2)

如果说, CPU的时钟速度好比人脑的计算速度, 那么 CPU 的内存读取速度就好比人获取信息的速度. 这是提升 CPU 性能的第一个不同的维度.

有过基本工作或者研究经验的人,都会有这样的体会:

大多数时候,限制工作效率的瓶颈是: 查资料,找东西.

找不到就只能干着急.

二十年前的科研者,查资料要去图书馆,小图书馆没有资料就要去更大的图书馆,没有计算机检索之前需要一张张翻卡片查. 查找资料的时间,动辄就是几个小时甚至更多,超过了真正研究分析的时间. 这在今天,十秒钟内就可以在互联网上,精准搜索和下载世界上大部分论文资料,完全不可同日而语.

电脑的内存架构,实际上要细分为 Register (寄存器), Cache (高速缓存), Memory(内存), Disk (硬盘). 而缓存又可以细分为一级缓存 (Level 1 Cache), 二级缓存, 三级缓存, 甚至四级缓存.

打个比方, 寄存器上的数据,好比你手中那张纸上写的信息, 信息量很少,但立等可取.

一级缓存, 好比桌面上的书, 信息量多一些, 伸一下手可以拿到;

二级缓存, 好比抽屉里的书,打开抽屉后仍然很快可以拿到;

内存, 好比书架上的书, 要站起来去查找;

硬盘, 就是图书馆的资料,需要花几个小时到外面跑一趟才可以查到了.

研究者,如果无法迅速获取需要的资料,天天要往图书馆跑,即使牛顿/爱因斯坦再世, 聪明的脑瓜也只能像高速的 CPU 一样, 无效地空转, 痛苦地在来去图书馆的道路上等待.

以 Intel 的 i7-4770 CPU 为例, 其时钟频率 3.4 GHz. 一级和二级缓存,读取数据的延迟一般在 5 – 12个时钟周期,相当于约 2-4 纳秒.如果要到内存读取数据, 迟滞则约 70 纳秒, 等价于200多个时钟周期. 如果内存找不到, 不幸地要去硬盘搜索,延迟超过 4 毫秒 (等价于四百万纳秒),再快的 CPU 时钟频率, 此时也然并卵矣.

(3)

摩尔定律的发展,对于 CPU 的时钟速度,和普通内存 (DRAM) 的读取延迟上,进步速度是不一样的.其差距每年以 50%的速度增长.

为了缓解这个矛盾,高速缓存 (Cache) 最早是以外置的形式出现在1985年的英特尔的 386的处理器上.

真正的芯片上的内置的缓存,最早是在1989年的 486处理器上出现,当时容量只有 8 KB, 到九十年代容量提高到 16 KB.

缓存容量过大,会影响搜寻速度,所以又出现了二级, 三级缓存. 这里有很多微妙的设计细节,此处不表.

缓存, 本质上就是以 SRAM (静态随机存储器)为基础的内存. 而SRAM, 本质上就是六个晶体管结构组成的逻辑单元, 如下图.

随着晶体管的小型化,芯片设计者就不断在 CPU 芯片上增加更多的内置的高速缓存.

以 2015年九月英特尔出品的 14 纳米 i7-6560U 处理器为例, 它有两个内核 (core), 每个内核有 64 KB 的一级缓存, 256 KB 的二级缓存, 并共享一个 4 MB的三级缓存.

用于缓存的晶体管占整个CPU 芯片上的晶体管的比例,也从 486时代的 40%左右,到今天许多CPU上接近 90%. (数据出处来自威斯康辛大学 Doug Burger 的论文, “Syetem-level Implication of Processor Memory Integration” )

换句话说,计算的管理,将近90%的内涵, 实际上是对内存记忆的管理.

不管在什么行业,如果做到了高效地搜寻和存储海量的数据, 你可能就已经成功了90%.

(未完待续)

王川: 摩尔定律还能走多远? (四) — 并行计算的威力

本文最初于 2016年7月14日发布于笔者的公众号。


本文是  王川: 摩尔定律还能走多远? (三) – CPU 的内存瓶颈

的续篇.

(1)

解决CPU 时钟瓶颈问题的另外一个维度,是增加系统的并行度,同时多做一些事情.

传统上,一个CPU 的芯片只有一个处理器(core, 也称内核 或 核心),当单个 CPU 的时钟速度很难再提高时,芯片设计者的另外一个思路是: 在同一个芯片上增加新的内核,让多个内核同时并行处理一些计算工作.

多核 CPU 的第一个好处是节能. 前面提到,处理器的能耗大约和时钟的频率的三次方成正比. 理论上说,如果把一个内核的时钟频率降低一半 (运算速度也降低一半),能耗就只有原来的八分之一.

如果要解决的计算任务可以很容易分成两部分,并行处理,那么一个双核的CPU可以在保持同样计算能力的情况下,通过降低内核时钟频率的办法,把整体功耗降为原来的八分之一.

当然,这只是理论上的最佳情况, 影响实际功耗的因素,比这个复杂得多.

(2)

但是 — 许多应用问题运行上有各类瓶颈,无法充分利用并行计算,尤其是普通个人电脑上的应用. 反对者常常引用的一个例子是”一个女人要九个月才可以生一个孩子,但是你无法让九个女人一个月生一个孩子”.

所有的”但是”后面,往往还有另外一个”但是”.如果目标是一个月内生出一个孩子,这个问题确实无法通过并行化加快.但是 — 如果目标是九个月内尽可能生更多的孩子,这个问题完全是可以通过九个女人并行化实现!

从一个新的角度,改变原来设定的目标,就会给现有的技术方法找到用武之地.这个原则,在设计并行计算的系统,在思考解决其它问题时,特别需要注意的一点.

如果说,普通个人电脑要关注的,是生一个孩子的问题. 那么,超级计算机,要解决的,就是在九个月内生最多数目孩子的问题.

以世界顶尖的超级计算机为例, 2000年时在世界排名第一的超级计算机,是 IBM 的ASCI White, 包含八千个内核,成本是一亿美元, 耗电三兆瓦, 计算速度为 7.2 TFLOPS (每秒万亿次浮点计算, 64位浮点数计算, 下同)

如果你还记得我的这篇文章

王川: 深度学习有多深? (十七) — 衡量GPU的计算能力

里面提到的2016年四月出品的售价十三万美元, 功耗三千瓦, 包含三万多个内核的 Nvidia 的 DGX-1 系统, 计算速度已经达到约 43 TFLOPS. (当然, CPU/GPU/不同系统的内核,性能特点不一样,有时不可简单类比,在此不赘述.)

到了 2016年, 排名世界第一的超级计算机, 是无锡的神威太湖之光, 包含一千万个内核, 成本接近三亿美元,耗电十五兆瓦,而计算速度则达到 93000 TFLOPS, 是 ASCI White 的一万三千百倍左右.

ASCI White 当年的处理器内核,时钟频率只有 375 Mhz. 而太湖之光的内核,时钟频率大约 1.45 Ghz. 内核的频率相比, 十六年增加了大约四倍.

但以内核数目来衡量的并行程度,则增加了一千两百倍.

这也是过去十几年,超级计算机,计算能力进步的最主要动力.

(3)

为什么新一代的超级计算机, 可以支持如此大型的并行计算能力? 而以前做不到?

这要归功于新一代的网络交换器 (Network switch)的数据传输速率, 让不同的内核之间, 系统节点之间, 可以迅速沟通,传输海量数据.

给神威提供交换机芯片的公司, 是总部位于硅谷和以色列的 Mellanox 公司. 神威系统的对分网络带宽高达 70 TB/秒, 这个数字是普通家庭宽带上网带宽的几百万倍.

交换器数据传输速率的进步,又要归功于摩尔定律下的晶体管的不断小型化.

(未完待续)

王川: 摩尔定律还能走多远? (五) – 这都是为了钱

本文最初于 2016年7月18号发布于笔者的公众号。


本文是   王川: 摩尔定律还能走多远? (四) — 并行计算的威力
的续篇.

(1)

对半导体芯片生产过程不熟悉的人, 常会问这样一个问题:
为什么芯片的密度要两年才翻一番? 为什么不可以更快一点, 两年翻两番, 三番? 为什么我们不能够一下子从 100 纳米跨越到 10 纳米? 而要漫长的十几年才能完成这个过程?
对这个问题的简单回答是: 如果一个人要吃七个馒头才能饱,为什么不可以先直接去吃第七个馒头?

(2)

摩尔定律从另外一个角度看,实际上是个生产成本的经济问题.

这都是为了钱.

(下图来自电影”华尔街”: “小屁孩, 这都是为了钱.其它是闲扯”)

图片

芯片密度的增加,本质上是降低单个晶体管的生产成本和功耗,使终端产品在市场上更有竞争力.

只有终极市场的利益驱动,才会推动厂家投入大量资金, 到新的生产技术里面.

这个资金规模需要多大呢?

1980年,一个普通晶圆厂的造价大约一亿美元.

2010开工的台积电的半导体晶圆厂, Fab 15, 总共造价累计约九十五亿美元.

有专家估算,到2020年,建造一个最新的晶圆厂,成本要增加到一百五十亿美元以上.

芯片生产厂房的建立为什么如此昂贵?

芯片的生产工艺,随着技术更新换代,越发复杂.其生产过程包括上千个步骤, 水电消耗极大. 大型晶圆厂占地面积一般至少十几万平方米, 一天用水接近两万吨, 耗电量超过三十兆瓦.

(3)

生产过程中最昂贵的部分,是一个叫做”学习曲线”的东西.

厂房内的每个机器都可能有几百个控制旋钮,每个旋钮都需要设定在正确的位置.最关键的一小部分设置,需要不断的长时间的人工尝试, 获得反馈, 再优化. 这需要一个高度专业化训练的科学家和工程师团队,长时间奋战调试才能完成.

晶圆厂的生产需要有足够的产能规模来调试,调试需要时间,时间就是金钱.

晶圆厂生产的芯片,有个概念叫做良率 (Yield),就是质量合格的芯片占一个晶圆上芯片总数的比例.生产调试的过程,就是提高良率的过程,良率越高,单位芯片的成本就越低.

而最终芯片的单位成本, 和芯片的累计产量的关系, 就是所谓的”学习曲线”.如下图.

图片

学习曲线通常用这个数学公式表示:
Y = a X^b
这里 Y 是累积单位产品的平均生产成本, a 是第一批产品的生产成本, X 是累计生产产品的总数, b 是负数,其绝对值越大,代表着学习曲线的进步速度越快.

“学习曲线”作为工业生产中的概念, 在上个世纪三十年代,由波音的工程师 T. P. Wright 最初提出. 他发现,飞机制造费用,随着生产数量增加,不断下降.

比如第一架新飞机成本是一亿美元,第二架就可能降到八千万,第四架降到六千四百万,单个飞机的制造成本随着累计生产数量的每次翻番而下降20%.

为什么生产成本会不断下降? 原因包括: 1.生产流程和零部件的标准化. 2. 工人效率提高. 3. 错误减少. 4. 材料浪费减少等等.

这个规律, 在许多其它传统制造业的生产中,也有体现.

在半导体生产这个游戏中, 胜者属于累计生产规模最大的厂家,因为”学习曲线”决定了:

最低的成本来自最大的累计生产规模.

(4)

从一个晶圆厂的晶片生产成本的下降曲线,到过去五十年摩尔定律的进步曲线,实际上可以看成是”学习曲线”规律在芯片行业的自然体现.

支持”学习曲线”和摩尔定律前进的最主要的动力,是人们对于芯片的不断增长的海量需求.

更大的内存芯片存储文件/照片/录像/歌曲, 更快的芯片传输更多的数据,能耗更小的芯片增加电池的待机时间.

这些需求,和它后面的实实在在的购买力,才能推动更多资金投入半导体行业的研发.

全世界半导体芯片的销售额,从1990年的五百五十亿美元, 增长到2015年的三千多亿美元.

建设一个晶圆厂的成本,从八十年代初的一亿美元,到九十年代中期的十亿美元,到2020年预计的一百五十亿美元.芯片市场有多大,就可支撑相应规模的晶圆厂.

而”学习曲线”促成的单个晶体管生产成本/价格的下降,又催生新的更多的应用和需求,进一步扩大半导体的市场,吸引更多的资金投入研发,形成一个良性循环.

图片

但这些进步的完成,需要在现有半导体产业生态系统内, 一个个馒头地吃. 指望另辟蹊径, 直接吃第七个馒头就饱了,是不符合客观规律的.

从经济学的角度看,只要这个良性循环继续不受干扰地运作,就会自然有大量资金的持续投入,摩尔定律在工程上遇到的各种挑战,终将被克服.

王川: 摩尔定律还能走多远? (六) – 有钱能使鬼推摩(尔定律)

本文最初于 2016年7月27日发布于笔者的公众号。


本文是
王川: 摩尔定律还能走多远? (五) – 这都是为了钱
的续篇.

(1)

2012年七月,半导体制造业发生了一件大事: 三家芯片生产的巨头,英特尔/台积电/三星, 集体为半导体光刻业的巨头, 荷兰公司艾司摩尔 (ASML), 承诺支付累计十三亿欧元的研发费用,帮其承担部分新技术开发的风险.

三家公司同时还以每股接近 40 欧元的价格注资购买了 ASML 大约23%的股票. ( 四年后的2016年七月, ASML 股价在 96 欧元左右.)

ASML 获得的资金, 主要用于加快 450 毫米晶圆片相关的器材和下一代极紫外线光刻技术 (EUV)的研发.

光刻工艺,占芯片生产成本的接近一半. 为了保证半导体产业链的技术发展,继续按照摩尔定律的路线图前进,芯片巨头们赤膊上阵,直接注巨资给器材商加速研发,这是第一次.

这同时也应了中国的一句老话: 有钱能使鬼推摩(尔).

只要终极市场有需求,只要有源源不断的资金注入,所有工程挑战,都是最终可以被克服的.

(2)

半导体行业未来的发展,还会吸引多少钱来推摩(尔定律)呢?

咨询公司普华永道2015年的一份报告预测,全球半导体行业的产值将从 2014年的三千三百亿美元增加到2019年的四千三百亿美元. 但是他们当时的模型,主要是假设半导体在工业生产,汽车/电车和物联网上的需求增长,而没有考虑到在人工智能应用上的爆发.

摩尔定律的进一步发展, 对于人工智能意味着什么?

如果你还记得我的这篇文章

王川: 深度学习有多深? (十七) — 衡量GPU的计算能力

里面提到, 英伟达的 DGX-1 的超算系统,在训练 alexnet 的包含六千万个自由参数的神经网络模型时,只需两个小时.

粗略地推算,对于一个包含一百亿个自由参数的神经网络模型的训练,DGX-1 需要耗费三百多个小时, 接近两周的时间. 而根据丹麦学者 Bente Pakkenberg 2003 年的论文的估计,人脑皮层等价于一个有着一百五十万亿个自由参数的神经网络.要想模拟和人脑一样复杂度的模型,需要的计算能力要在 DGX-1 的一万五千倍左右.

IBM 为首的团队,正在研发下一代的超级计算机 Summit,预计 2018年初面世.这个超算系统预计计算速度将达到 二十万 FLOPS, 这相当于DGX-1 系统的 43 FLOPS 速度的五千倍.

这个计算能力,应当可以部分模拟和人脑一样复杂的神经网络系统,并且通过主动的自我学习获得和人脑一样复杂的抽象思考能力, 而不只是简单的听说读写.

IBM Summit 的成本大约三亿两千万美元, 假设其使用寿命长达十年,那么每个小时计算成本高达三千美元.考虑到该系统耗电约 15 兆瓦时,假设一度电电费是 5 美分,一个小时电费就要 750 美元.

一个小时成本接近四千美元,听上去很贵.但是如果把这个数字横向比较:

美国前总统克林顿一小时演讲费: 二十五万美元

克林顿的女儿 Chelsea Clinton, 在密苏里大学的一小时演讲费: 六万五千美元

美国五百强上市公司 ceo 平均薪酬一年一千三百万美元,按照一年两千小时工作时间, 折合时薪大约六千五百美元.

硅谷普通工程师,假设基本薪水二十万美元, 加各类健康保险和股票的福利对于雇主的成本约三十万美元,折合时薪约一百五十美元.

这些成功人士面对的竞争, 将是一个:

孜孜不倦可以24小时连续学习工作/不用吃饭喝茶上厕所的工作狂.

上知天文/下知地理/会多国语言/思维缜密/反应迅速/高度理性/见人说人话见鬼说鬼话的智者.

不会罢工/请假/跳槽/内耗/出卖领导, 并且每年根据摩尔定律自觉降薪30%的模范雇员.

亚马逊的创始人贝索斯曾经说过, “你的利润率就是我的机会” (Your magin is my opportunity). 只要世界上还有人靠出卖智力获得高额利润,就会有资金推动人工智能及其背后的芯片技术的研发,与其正面竞争.

(3)

如果你还记得这篇文章
王川: 摩尔定律还能走多远? (二)

以史为鉴,正是因为大量资金的支持,才使得英特尔找到”高介电常数”的材料,在45纳米芯片生产时,解决了栅极漏电的问题.

同样是因为大量资金的投入,FinFET 的技术在22 纳米的芯片生产中实现,极大缓解了短沟道效应下的漏电问题.

当栅长在2020年以后缩小到 5纳米时,一种可能, 是出现目前大家没有想到的工程解决方案, 跳过测不准原理的限制.

另外一种可能,就是当一个维度走到极限时,从另外一个维度提升产品性能, 达到等价的效果.

就像这两篇文章中提到:

王川: 摩尔定律还能走多远? (三) – CPU 的内存瓶颈

王川: 摩尔定律还能走多远? (四) — 并行计算的威力

CPU 时钟频率走到尽头,就在内存架构的设计上努力.

单项计算任务的速度无法提高,就通过提升网络交换器和内存传输的带宽,加大系统的并行度.

硬件架构的优化达到极致,就在软件设计上下功夫.

平面太挤了, 就转向三维.

图片

(上图为 AMD 和三星联和开发的新一代三维/高带宽/低能耗的内存)

(4)

如果从更长远的历史视角看, 按照未来学家 Ray Kurzweil 的话说, 摩尔定律只是几百年来, 人类的计算技术, 从算盘, 到手摇机械计算机,到继电器, 到真空管, 晶体管, 进而到大规模集成电路的演变, 在过去五十年的自然体现.

经济规律在计算技术地发展中, 自然地选择了脱颖而出的大规模集成电路.但如果硅基的集成电路在未来某个时间点,计算能力走到极限,同样的经济规律会自然地选择,在那个时候涌现出来的, 最经济的技术方案.

这个未来方案会是什么? 会是砷化镓为材料的集成电路? 会是量子计算机? 或者以DNA分子为基础的新的计算架构?摩尔定律还能走多远?

现在无法预知.但是如果你相信,计算通讯能力在人类经济和文明的发展中将发挥越来越大的作用,那么更多的资金将会继续推动计算技术的研发,那么摩尔定律在未来还会走很远,

王川:亚马逊的云服务将吞噬美国的 IT 产业吗?(下)

本文最初于 2016年2月11日发布于笔者的公众号。


本文是 (可直接点击下面链接)

王川: 亚马逊的云服务将吞噬美国的 IT 产业吗? (上)

王川: 亚马逊的云服务将吞噬美国的 IT 产业吗? (中)

的续篇。

(1)

云服务市场里, AWS 的最大的优势,在于其市场的领先地位和先发优势。

云服务把资金投入的风险从客户转移到服务商那里。建造一个全球化的数据中心,功能全面的软件系统,稳定可靠的运营纪录,贴心的客户支持,需要几十亿美元量级的资金投入,和长期的积累。

据亚马逊内部数据, AWS 现在每一天增加的服务器数目,足够承载2004年整个亚马逊公司的计算需求.

这不是阿猫阿狗,拿几千万美元风险投资,就可以一两年内做成的事.

后发者还必须有足够多的资金,忍受长期的亏损.

作为美国最大的零售商,亚马逊自己也是 AWS 的最大的客户之一,他真正理解,运营部署云服务中间的各种细节问题.

市场的老大,还可以利用规模效应,向下游的供货商 (芯片商,存储硬件公司,等等)索取最优惠的价格,进一步巩固自己的优势.

(2)

传统软件公司,为了粉饰自己的新业务的业绩,常见伎俩是这样的:

一个软件公司原来从一个客户那里每年获得三百万美元的收入,迫于竞争压力,他跑去对客户说:现在把你的软件价格降为一年两百万美元,顺便再给你提供五十万美元的云计算服务,OK?

客户看到自己的总共费用下降了五十万美元,当然满口答应.

关键问题是,客户可能根本就不会去使用这个云计算服务.

但是软件公司可以跑去对华尔街说:“看!我们这个季度的云计算收入增加了很多很多!我们的增长速度比亚马逊还快! 欧耶!”

 (3)

曾经的行业巨头惠普, 2015年十月悄悄宣布,其公有云的业务将关闭。分析家指出,惠普的最大问题是,规模太小,完全无法在市场上竞争.

企业数据库软件的老大,甲骨文,试图朝云服务转型。但是它只能在现有软件客户中获得有限的成功,据估算其在Iaas 的市场份额不到 3%.

IBM,主要向已有的政府部门和大客户推广所谓的‘混合云’的解决方案,但是这只是吞噬自己原有的收入。它的整体营收仍然在萎缩.

真正财大气粗,在云服务市场上有可能长期和 AWS 叫板的,只剩下微软和谷歌.

谷歌在云计算方面的技术能力,不容置疑。但它的短板,是缺乏一个完备的面向大中型企业的销售和支持团队。有分析师指出,在这点上,它只相当于亚马逊五年前的水平。

微软的优势,来自于拥有大量现有使用其软件的企业用户,可以推销其云服务。但在此之外,相对于 AWS 并没有明显优势.

来自 Gartner 的统计数字还显示,2015年全年365天, AWS 只有两个半小时的故障停机时间,排在第二和第三名的微软和谷歌的纪录则是10-11个小时。

(4)

亚马逊的一个重要武器,就是不怕打价格战.

贝索斯的运营哲学一向是,为了抢占市场份额,不惜牺牲短期利润率.

硅谷的资深软件专家Ratan Tipirneni (RT) 指出,作为一个从零售业起家的公司,亚马逊长久以来习惯于不到29%的毛利润率。但对于多数软件公司而言,60%以上的毛利率是标配.

下面是传统软件公司的毛利率:

微软: 65%。甲骨文: 80%。 SAP:70%。 Salesforce: 76%.

换句话说,他们和亚马逊的毛利率的差值,甚至大于亚马逊的毛利率本身!

对于多数软件公司,他们的运营组织结构,长期以来就是基于60%的毛利率建立的。华尔街对他们的估值模型,一直就是基于这样的毛利率的.

组织结构的惯性,对于任何压低毛利率的竞争压力都会极力抵触.

对亚马逊而言,任何29%以上的毛利率都是盈利机会,所以它不断加大这方面的投入.

RT 打比方说,”(对于其它软件公司) 这就像你有地球上最强大的核武器,但是突然遇到来自火星人的武器,毫无办法。 ”

(5)

AWS 号称有一百万以上活跃的用户,对应其每年接近一百亿美元的营收,许多用户每个月付费不到一千美元.

大多数真正的云服务的用户,实际上对价格不敏感,他们需要的是,全面丰富的功能,和迅速的部署能力.

2013年亚马逊和IBM 竞争投标中情局的合同时,亚马逊的价格其实比IBM 的还要贵,但靠的是技术能力取胜.

(下图为亚马逊从 08-14年每年新增的产品功能的数量图)

图片

AWS 从2006年推出以来,不断根据客户的反馈,增加新的功能。从最初的虚拟服务机EC2, 存储服务S3,发展至今,包含内容分发,数据库,部署, 安全服务管理,分析,和其他诸多应用服务。

亚马逊的竞争者,面对的挑战是,AWS 已经提供了一个产品功能极为丰富的生态系统。新客户挑选云服务商时,他们会列出自己需要的功能清单:A, B, C, D. 如果只有亚马逊的产品功能最全面,服务最周到,可靠性最好,价格又差得不是太多,这个选择实际上非常简单.

当你的平台上有一百万客户时,你会拥有一个资源丰富的生态系统。对于新客户而言,如果有什么问题,很有可能别的客户以前也有类似的问题,而相关的软件应用解决方案,在AWS 里面都可以找到.

亚马逊,这个被IT公司嘲笑的书店,从2006年开始,就在云计算市场埋头苦干,十年积累下来,它在功能和规模上比竞争者领先太多。当别人发现开始追赶时,它已经成为这个行业上的标配.

(6)

分析师Trip Chowdhry 今年年初预测,FBTC (F**ked By The Cloud) 的公司,2016年会继续大规模裁员.

EMC,预计裁员15-20%,总数10000 –14000 人.

IBM,预计裁员 25%,总数 95000 人.

思科,预计裁员 20%,总数14000.

甲骨文,预计裁员 15%,总数26000.

惠普,预计裁员 30%,总数150,000. (惠普2015年拆分为两个分公司)

Symantec, 预计裁员 15%,总数 2800.

这一切也许只是刚刚开始.

(7)

纵观亚马逊的历史,它从来不拘泥于一个固定的商业模式,不怯于尝试在新的市场开发产品,哪怕是这些产品和现有的合作伙伴直接竞争。

2016年一月,亚马逊的一个子公司,Annapurna Labs, 推出新的半导体芯片,主要面向低端的家用无线路由器和存储产品。 考虑到 AWS 从 Intel 那里购买了大量高端的服务器芯片,这也许昭示着亚马逊在这个方向的雄心, 虽然二者的芯片目前差距还是很大。

2015年十月,AWS 总管 Andy Jassy 宣布推出新的数据库迁移服务 (Database Migration Service),帮助对甲骨文高价软件费用不满的客户,转移到亚马逊自己开发的数据库软件平台上。

2015年底,美国圣诞节销售最火热的礼物,是一个叫做 Amazon Echo 的音箱。

这个音箱,通过语音控制 (每个问题前说一声 Alexa),可以瞬间播放大量歌曲,回答常见的问题,播放新闻,等等。这些功能,都是通过来自 AWS 云端的人工智能软件实现。

这是亚马逊在智能家居和物联网上的一个重要布局. 亚马逊建立了一个一亿美元的基金,鼓励第三方开发者,开发基于 Echo 的API 的声控应用.

AWS 将会如何继续发展?我试着向 Echo 请教这个问题.

问:Alexa, what is amazon web service?

答:Amazon web services, is a collection of cloud computing services, also called web services, that make up a cloud computing platform offered by Amazon.com

问:Alexa, will AWS eat the world ?

答:Sorry, I did not understand the question that I heard.

王川: 亚马逊的云服务将吞噬美国的 IT 产业吗? (中)

本文最初于 2016年1月31日发布于笔者的公众号。


本文是   王川: 亚马逊的云服务将吞噬美国的 IT 产业吗? (上)     的续篇。

(1)

传统公司的 IT 业务通常是这样搭建的:

需要存储设备的解决方案,从 EMC那里买;

需要服务器,找 Dell, HP 或者IBM 购买;

需要网络硬件,从思科(Cisco)那里买;

需要数据库软件,从甲骨文 (Oracle) 那里买.

当新兴互联网公司扩展自己的 IT业务时,他们发现传统解决方案太昂贵了,而且无法迅速扩展到他们需要的规模.

以亚马逊和谷歌为代表的互联网巨头,决定另起炉灶。他们搭建自己的服务器,自己的存储硬件,自己的网络硬件,用开源代码开发自己的数据库软件.

但是亚马逊不满足于此,他把自己开发的云计算平台对外分享.

一家名叫Baird 股权研究技术的公司在2013年的报告表明:企业在亚马逊的云端消费的每一块钱,相应节省了三到四元的传统软件和硬件的消费.

换句话说,如果2016年 AWS的收入达到一百亿美元,那么相应的 IT传统市场将会损失三百到四百亿美元的收入.

这就是传统 IT 软硬件公司:戴尔,EMC,惠普,IBM,甲骨文,思科,面临的挑战.

曾为Elon Musk 作传的作家,Ashlee Vance, 2015年十月在推特提出这样一个挑衅性的问题:

“为什么 IBM, HP, EMC, Dell 和Cisco 不合并,结束这种(被云计算取代的)煎熬?

合并后的公司名字该叫什么呢?

F**ked By The Cloud ( FBTC, 被云计算干掉了) ”

截止到2016年一月三十日为止,FBTC 们的市值大约是这样的:(以十亿美元为单位)

IBM 118,惠普 17, EMC 47,思科 117,甲骨文 148. (戴尔已经私有化退市,不计入内)

五个公司市值总和不到四千五百亿美元。 而亚马逊一家的市值为两千九百七十亿美元,相当于五家公司总和的三分之二.

但仅仅在六年之前,亚马逊的市值不到三百亿美元,低于当时除了 EMC之外的其他四家公司.

(2)

2003年,亚马逊的两位工程师,Chris Pinkham 和Benjamin Black 在管理亚马逊后台 IT 系统时,突然有个想法。他们在自己的工作中,不断把系统标准化,把软件的接口更加抽象化,以增加系统的扩展性。他们给贝索斯提了一个建议:把这个系统标准化提高到到一定程度后,除了我们自己内部用,为什么不可以考虑,把系统的基础设施和服务器的计算能力也租售给别的公司使用?

贝索斯对这个建议非常感兴趣,2004初开始推动Pinkham 和Black 实施这个方案.

2006年AWS 正式推出后,开始只是靠低廉的价格吸引一些小公司成为客户.

一直到2009年时,AWS 规模还是很小,可靠性也有待提高。它在计算安全性上没有达到企业级的水平,一些大企业需要的软件功能都不具备.

但是亚马逊非常注意聆听客户的建议,并且不断迅速地把改进意见变成新的产品功能.

亚马逊的CTO Werner Vogels 提到,在一个传统的多数据中心的模式里,维护一个可靠,可扩展的 IT基础设施耗费的时间和人力, 要占整个(软件开发,部署产品应用)的70%之多。亚马逊起初预计云服务,将会把这个比例下降到30%。但实际部署之后,比例比这个数据又要更低.

大多数情况下,小公司到大企业,自己搭建的服务器,利用率常常不到10%,而且波动很大.

外包给亚马逊的云服务,按用量付费,这个问题迎刃而解.

Vogels 说,“你必须停止浪费时间和精力,在那些对你的客户并不重要的事情上。这包括 IT的基础设施。这不是你区别于(你的竞争者)的地方。。。如果我们(AWS)可以把计算和存储的价格降到足够低,你都不用担心这些问题了,(你就)可以建造优秀的产品。你将不再会被你的基础设施所限制。”

(3)

云计算的定义划分为三个层面。

最底层是“基础设施即服务”, Iaas (Infrastructure As A Service), 提供基础硬件服务,存储空间,让你运行虚拟主机和之上的软件应用.

第二层是“平台即服务” Paas (Platform As A Service), 在 Iaas 之上提供软件工具,让你开发自己的应用软件,而不用考虑底层的东西.

第三层是“软件即服务” Saas (Software As A Service), 在云端租用应用软件。广义的说,Gmail, Dropbox, 微软的office 365, 还有 Salesforce 的 CRM 软件,都属于Saas.

主流的云计算定义, 只包括 Iaas 和 Paas, 在这个领域亚马逊独占鳌头,遥遥领先于竞争者.

研究机构 Synergy Research 的数据表明,2015年初亚马逊在云计算的市场份额高达29%,比后面三个竞争者 微软,IBM和谷歌的总和还要多.

研究机构Gartner 的数据显示,2015年 AWS 按实际使用量来衡量的规模,是其余十四个竞争者总和的十倍.

在2015年最后一个季度里,亚马逊来自云计算的收入高达二十四亿美元,这个数字比上一个季度增长了15%,比一年前增长了70%。云服务的运营利润六点八亿美元,利润率接近29%.

(4)

一百多年前,辛亥革命爆发后,时任江苏巡抚程德全, 用竹竿到屋檐下挑落几块瓦片,以示除旧迎新。他然后在巡抚衙门前挂起“江苏都督府”的招牌,宣布加入革命阵营.

AWS 异军突起后,传统IT 公司为了迎合华尔街对云计算概念的追捧,也纷纷挑落传统软件业务的檐瓦,挂上了云计算的牌坊.

微软本周声称在2015年第四季度所谓”智能云”的收入有六十三亿美元, 但这里面包含了一些来自如 windows server 和 exchange server 传统软件的收入,其实这些东西并不都在云端运行.

IBM 去年底号称自己第四季度和云计算有关的收入达到一百亿美元,但是并没有细分哪些是硬件,哪些是软件,哪些是真正的云服务收入.

有分析师打比方,这就好像通用汽车公司卖自己的电车 Chevy Volt, 但是它把用来拖运电车到经销商那边的大柴油卡车,也宣传成自己的电车的一部分.

展望未来,亚马逊和其它几个竞争者相比,有什么优势和劣势?

FBTC 俱乐部的小伙伴们,他们将注定落魄吗?

且听下回分解。

(未完待续)