本文最初于 2020 年8月1号发布于笔者的公众号。
1/ GPT-3 全名 “General Pretrained Transformer-3” (通用预训练转换器,第三版), 是 OpenAI 开发的一个自然语言处理的计算模型,最初出现在 2020年五月底公开发布的一篇论文 “Language Models are Few-Shot Learners” (小样本学习的语言模型, 第一作者为 Tom Brown)。到七月中旬一位开发者发现此工具可以把普通英文口语自动转化成计算机程序代码,因此迅速在科技社区风靡。
2/ GPT-3 说白了,就是一个电脑程序, 根据你输入的提示性文字或示范,可以不断按照你的要求自动生成新的文字, 直到某个长度的上限。它的一大优点是不是专门为某一个特定任务所训练,所谓“任务无偏” (task-agnostic), 但在很多任务的表现上,已经不输于那些为某个特定任务微调多次的语言模型。打个比方,它就像一个通才教育的自学者,没有接受细分专业的特别培训,但解物理数学题,吹拉弹唱,望闻问切,杀猪宰羊的水平,和科班出身的专业人士不分伯仲。
3/ 在应用上,GPT-3 被发现可以
i. 直接把英文口语转化成相应的程序代码。
ii. 把英文翻译成法文或别的语言。
iii. 在收到简单的要点提示后,可自动生成完整的段落,并回复电子邮件。
iiii. 自动实现法律用语和口语之间的转换。
iv. 自动写小说, 诗歌,剧本等等
4/ 据使用者说,GPT-3 的 60-70% 的输出都是些垃圾, 但这并不妨碍有 30%的输出是高质量的甚至令人惊艳的文字。这比之前的 GPT-2 版本只有 5-10% 的高质量文字输出已经大大提高。
5/ 下面是 GPT-3 自动生成的一些金句。(摘自推特 @Wisdom_By_GPT3)
“世界上任何你看不惯的东西,都可以用’这不好玩‘来应对。”
“大自然残酷无情,从不宽恕,而又美丽的方式,和人脑清楚的思维格格不入。”
“一旦你拥有了过去,你就可以创造整个宇宙”。
“如果我知道人生的意义是什么,我 (TMD)还会上这来浪费时间吗?” 。
6/ GPT-3 作为最新的自然语言处理模型,耗费了大约 3640 个 Pflops-day 的算力。( 一个 Pflops-day 接近十的二十次方个浮点计算)。这个计算成本大约一千两百万美元,猜测是按照当下微软的云计算价格估计的。微软号称投资十亿美元给 OpenAI, 这里面很大部分来自于把云计算的算力按某个批发价折算成投资金额。实际也就只够训练 GPT-3 大约八十次而已。
7/ 支持 GPT-3 和其它类似的自然语言处理模型的发展,主要有三个方面。第一是算力的提高。有分析指出,过去几年同等算力 (以半精度浮点计算为标准)的 GPU 价格下降幅度大约每年 26%,这相当于每八年降低一个数量级,或者说,同等成本,每八年算力就增加十倍。
8/ 第二,新的计算模型涌现, 提高自然语言处理的效率。Transformer 模型本身的出现,也就是来自 2017年十二月一篇名为 “Attention is all you need” ( ”注意力机制就是你全部所需的”, 第一作者为 Ashish Vaswani) 的论文。这个算法允许高并行度的数据处理,因此大大减少数据训练的时间。完全可以预期,未来还会有更新更高效的计算模型涌现。
9/ 第三,更多更高质量的原始数据。GPT-3 的训练数据,60%来自于一个名叫 Common Crawl 的截止到 2019年底数据库,经过过滤整理后,数据量仍然高达 570 GB. 另外的数据来自维基百科和其它互联网数据库。
10/ GPT-3 的一个潜在应用,是可以更快更精准地寻找到用户的深度搜索需求,而不只是基于少数关键词的较为肤浅的搜索,这可能对传统搜索业务形成直接威胁。几乎可以肯定的是,它的出现会激发谷歌,脸书,亚马逊等竞争者的迅速跟进。OpenAi 的领先时间窗口不会超过十二个月。机器和计算费用,对于这些万亿美元市值的公司而言,都不是障碍。把训练好的模型尽早对外开放使用,抢占市场高地,才是当务之急。
11/ 什么是创意?无非就是把以前没有连接起来的知识点,连接起来,发现可以更高效地做更有趣的事。Gpt-3 用于训练的原始数据总共接近 1000 GB。与之相比,一本普通电子书的大小不超过 3 MB, 这就意味着 GPT-3 的阅读量相当于至少三十万本书籍。古人的“学富五车”, 如果一辆车最多装载一百本竹简做成的书,那GPT-3 的知识量相当于“学富三万车”。 笔者的老文章里曾提到
王川: 一年读五百本书,让你每天高潮迭起
但面对一个存储三十万本书籍的智慧的程序,也只能自愧不如。
12/ GPT-3 通过程序连接各种知识点的效率和可能性比人脑强几个数量级,而且还在不断进步。这是帮助所有艺术家,科学家和企业家产生创意的利器。有人把 GPT-3 比做和一万名博士在对话。如果你能和一个相当于“万名博士”的智能体不断愉快地对话,为什么还要在其他人或事上浪费时间?
13/ 互联网的转折点是1993年三月 Mosaic 浏览器的出现,其重大价值在于可以让全世界任何人非常方便地实时,零成本地共享大量文件。 Gpt-3 目前似乎还相当于浏览器之前的 ftp, gopher 之类的工具的水平, 但这类工具让人看到的期望是,全世界任何人都能以极低的成本,掌握一个不断增长的超人的信息检索,处理和输出的能力, 更多参与者在这类平台上以超人的能力交流合作,其财富创造的爆发不可限量。
14/ 在计算速度,原始数据和算法模型继续提高的基础上,未来几年 gpt-3 之类的自然语言处理工具,将会演变成一种吸取了人类几千年的所有智慧,并结合深度搜索和分析能力的超级智囊。
15/ 比如一个女生问,”我的男朋友今天说了如此如此的话,我很生气,他还爱我吗?“ gpt-3 回答可能是,”还爱,你想多了“,或者是, ”他外面肯定有人了,赶快分手” .
16/ 再如,某个男生问:“我和某某女生今天有如此如此的对话,她对我有意思吗?” ;gpt-3 的回答可能是,“她还在骑驴找马,你只是备胎” ;或者是,“傻小子,暗示已经很明显了,还不赶快往前冲”。
17/ 再比如,让 gpt-3 分析一下某个当红公司的财务报表,gpt-3 扫描之后可能迅速发现:它实际上隐性负债不断增加,现金流在萎缩;它所在的这个行业其它竞争者利润率一般都在10%以下,它并不是行业领先者,高利润率非常可疑 ;它的几个主要大客户身份不明,关联交易和造假帐的嫌疑极大,需要继续调查。
18/ 而让 gpt-3 分析另外一个小公司,它可能会发现:此公司虽然目前还很小,估值相对很高,但利润率极高,没有任何负债,现金增长速度非常快,营销费用和获客费用极低,在业内的品牌已经很明显了。按现在趋势过了某个临界点,会有爆发性增长, 这是不可多得的好公司。
19/ 再比如,某某给你许诺高官厚禄,要让你反水背叛现在的老板,你该怎么做?gpt-3 会告诉你,“请参见1936年蒋介石用两百万现大洋把陈济棠手下的黄光锐挖过来,后来又怎么一步步冠冕堂皇把钱赖掉,然后黄还有苦说不出的案例。”
20/ 再比如, 上司突然要把你调到不熟悉的外地工作,和你自己的嫡系人马隔离开,这是什么意思?gpt-3 会告诉你,“请参见 1937年斯大林把图哈切夫斯基调离莫斯科到伏尔加分区工作,然后过了几周又抓回来再处决的案例 ” 。
“那怎么破?”
GPT-3 回答,“有上中下三策, 下策请参见资治通鉴,第*卷,某某纪。中策 … 对不起,您的余额不足,请充满******大洋后再重新提问”。