秉承“无输出不读书”的理念,我将把推荐的每一本书都做笔记,尝试把我看过的好书写成读书笔记和大家分享.关于如何做读书笔记我也将计划写一篇文章专门来讨论。这算是第二本推荐图书吧,上一本是李开复的《人工智能》,虽然没有放到我的博客中,之前也有写,都放在简书网站上。

吴军是我这几年来我最喜欢的作家,跨界,我只服吴军。之前我也读过吴军的《浪潮之巅》《硅谷之谜》《数学之美》,《硅谷之谜》也写过两篇读书笔记,分别是《从硅谷之谜中能学到什么?》《硅谷之谜:别人的工程师文化》,可以在我的微信公号(做工程师不做码农)历史文章和菜单“专栏-读书笔记”中查找。

吴军作为百万级畅销书作者,多次获得文津奖,此书是备受期待的最新力作,保持了一贯的高水准,读起来酣畅淋漓。相比李开复的《人工智能》,本书趣味性更强,但是两本书的侧重点不太一样。下面是这本书的笔记

智能时代

一、数据——人类建造文明的基石

如果我们把资本和机械动能作为大航海时代以来全球近代化的推动力的话,那么数据将成为下一次技术革命和社会变革的核心动力

广义的数据(或数据的真实)的含义:互联网行的任何内容,如文字,图片和视频都是数据;医院里的含医学影像在内的所有档案是数据;公司和工厂的各种设计图纸也是数据;出土文物上的文字、图示,甚至它们的尺寸、材料也都是数据;信件、电话、电子邮件等都是数据。

数据与信息的区别:信息是关于世界、人和事物的描述,它比数据来的抽象。信息你即可以是我们人类创造的,也可以是天然存在的客观事实。并非所有数据都承载了有意义的信息。

数据中隐藏的信息和知识是客观存在的,但是只有具有相关领域专业知识的人才能将他们挖掘出来;对数据?呃信息进行处理后,人类就可以获得知识,知识比信息更高一个层次,也更加抽象,它具有系统性特征。

数据的作用:文明的基石。人类的文明过程伴随着的流程:获取数据——分析数据——建立模型——预测未知。因而可以说,数据是人类文明的基石。

相关性:使用数据的钥匙。数据和所想获得的信息之间的联系通常是间接的,它要通过不同数据之间的相关性才能体现出来,相关性是让数据发挥出作用的魔棒。

统计学:点石成金的魔棒。越想要得到准确的结果,需要的统计数据量就越大,统计还除了要求数据量必须充分以外还要求采样的数据具有代表性。

数学模型:数据驱动方法的基础。数学模型的简单化,其理论基础为:当数据量足够时,就可以用若干个简单的模型取代一个复杂模型,这种方法被称为数据驱动方法。

要建立数学模型就要解决两个问题:选择模型,模型的参数。如果一开始模型远得不好那么以后修修补补就很困难,有了模型之后就要找到模型的参数,以便让模型至少和以前观察到的数据相吻合。

找到模型的参数再过去不被重视,但在今天它又有了一个比较时髦而高深的词——机器学习。

二、大数据和机器智能

在有大数据之前,计算机并不擅长于解决需要人类智能的问题,但今天这些问题换个思路就可以解决了,其核心就是变智能问题为数据问题。由此,全世界开始了新的一轮技术革命——智能革命。

什么是机器智能?能够通过图灵测试的机器都可以称作机器智能,而符合以下几种的情况中的一种,就可以认为它有图灵所说的智能:

  • 语音识别
  • 机器翻译
  • 文本的自动摘要或者写作
  • 战胜人类的国际象棋冠军
  • 自动回答问题

使用统计学方法+大数据的方式开始了现代人工智能的新的研究方法。

大数据 big data 的特征:

  • 体量巨大。量大到足以消除不确定性。
  • 3V 特性:Vast 大量、Variety 多维度、Velocity 及时性。互信息,交叉验证。
  • 全面性、完备性。两个数据源一致,交叉熵为零。即设置模型和用模型的是一个数据源。

Big,not Large or Vast. 相对小的大,抽象意义的大。

三、思维的革命

在无法确定因果关系时,数据为我们提供了解决问题的新方法,数据中包含的信息可以帮助我们消除不确定性,而数据之间的相关性在某种程度上可以取代原来的因果关系,帮助我们得到我们想知道的答案,这便是大数据思维的核心。

思维方式决定科学成就,从欧几里得、托勒密到牛顿。基于逻辑推理的公理化系统不仅为几何学、数学和自然科学后来的发展奠定了基础,而且对整个西方人的思维方法有着极大的影响。

人们将牛顿的方法论概括为机械思维,其核心思想可以概括成以下几点

  • 世界变化的规律是确定的
  • 因为有确定性做保障,因此规律不仅可以被认识的,而且可以用简单的公式或者语言描述清楚
  • 这些规律应该是放之四海而皆准的,可以应用到各种未知领域指导实践

机械思维直接带来了工业大发明的时代

机械思维的重要特征就是所有问题有一个通用的解决方案

香农提出的信息论借用了热力学中熵的概念,它与机械思维截然不同,它是建立在不确定性基础上,这种思路成为信息时代做事情的根本方法。

香农第一定律:对于信源发出的所有信息设计一种编码,那么编码的平均长度一定大于该信息的信息熵,但同时香农指出,一定存在一种编码方式,似的编码的平均长度无限接近于它的信息熵。这带来一种方法论,经济学上的吉尔德定律,即尽量多地采用便宜的资源,尽可能节省贵的资源,与信息论中的霍夫曼编码从本质上讲是相同的。信息时代,由于摩尔定律的作用,计算机是便宜的资源,而且越来越便宜,人力成本则会越来越高。因而计算机逐步替代人的工作。

香农第二定律,信息的传播速率不可能超过信道的容量。商业中人脉就是人与人交往的带宽。

世界的不确定性:主观方面的和客观方面的两因素。首先,我们队这个世界的方方面面了解得越来越细致之后,会发现影响实际的变量其实非常多,已经无法通过简单的办法或者公式算出结果,因此我们宁愿采用一些针对随机事件的方法来处理他们,人为地把他们归为不确定的一类。不确定性的第二个因素来自客观世界本身,它是宇宙的一个特性。

信息论中的最大熵原理:当我们要对未知的事件寻找一个概率模型时,这个模型应该满足我们所有已经看到的数据,但是对未知的情况不要做任何主观假设。这个已经不同于我们使用了几百年的“大胆假设,小心求证”方法论!

大数据时代的思维:因果关系转变为强相关关系。数据中所包含的信息可以帮助我们消除不确定性,而数据之间的相关性在某种程度上而取代原来的因果关系,帮助我们得到我们想知道的答案。Google 公司的成功不仅仅是技术、是数据,而是采用大数据思维。不再花费大量时间和资源去寻找确定的因果关系,而是通过从大量数据中挖掘相关性,直接用于产品。

四、大数据与商业

在未来我们可以看到,大数据和机器智能的工具就如同水和电这样么资源,由专门的公司提供给全社会使用。

从大数据中找出规律,大数据思维的几个案例:

  • 美国警察把居民的用电模式进行对比圈定在家种植大麻的犯罪嫌疑人。
  • 查处偷税漏税的情况
  • 美国第二大零售商店利用大数据做生意的故事

大数据思维在办案中的三个亮点:

  • 第一是用统计规律和个案对比,做到精确定位
  • 第二是社会其实已经默认了在取证时利用相关性代替直接证据,即我们在前面说过的强相关性代替因果关系
  • 第三是执法成本,或者更广泛地讲,运营成本,在大数据时代会大幅下降。

传统利用数据的流向是从局部到整体,而当我们利用从大数据得到的规律指导商业行为和其他行为时,数据的流向则是从整体到局部。

现代商业中所需的重要信息:相关性、时效性和个性化,多数可以从大数据中提取。无目的的原始数据经过大量的收集,然后经过选择和处理,建立数学模型,推广到应用,或者机器学习,进一步推广应用。eg. 普拉达(Prada)的智能试衣间、金风科技的发电机、亚马逊的客户推荐书等等。

一项技术带动整个社会变革通常遵循一个模式:新技术+原有产业=新产业,那些有意无意接受了这个规律的企业家常常在新的时代又站到了浪潮之巅。

在信息时代,商业模式的变化更加明显,它突出表现在两方面,一是产业链从一种产品扩展到整个 IT 行业,二是服务业的重要性突显出来。

安迪-比尔定律的含义是,在计算机领域,软件功能的增加和改进要不断地吃掉硬件性能的提升。虽然今天我们的个人电脑比 30 年前快了两万倍左右,但因为微软操作系统使用计算和存储的资源比 30 多年前要多得多,所以给人的感觉是今天的电脑它依然并没有那么快。

根据历次技术革命中商业模式变迁的分析,可得:

  • 技术革命导致商业模式的变化,尤其是新的商业模式的诞生
  • 生产越来越过剩,需求拉动经济增长的模式变得不了逆转。单纯制造业的利润越来越低。

商业模式的变化既有继承性又有创新性。eg:小米和格力之争。格力自己是制造型企业,因而其看重的是产品核心技术,自主知识产权。这是摩尔时代的思维;小米则并没有把自己定义为制造型企业,其互联网思维是争取用户,然后建立用户理念群(好的,便宜的),这是大数据时代的思维。二者是摩尔时代和大数据时代之争。从这方面来看,小米正在超越。

五、大数据和智能革命的技术挑战

大数据的数据量大、维度多、数据完备等特点,使得它从收集开始,到存储和处理,再到应用,都与过去的数据方法有很大的不同。因此,使用好大数据也需要在技术工程上采用与过去不同的方法。

科学技术的发展并不是匀速的,长时间的相对停顿,某个时间点单点突破,然后科技全面迸发。重要拐点:

  • 1666 年,牛顿发明微积分,发现力学三定律和万有引力定律,完成了光学分析,世界进去科学近代社会
  • 1905 年,爱因斯坦完成分子说,发现光电效应,提出侠义相对论,世界进入科学现代社会
  • 1965 年,摩尔博士提出摩尔定律,出大规模集成电路,世界开始进入信息产业高速发展

大数据的产生来源有:“电脑”本身、传感器如 RFID、过去已经存在的以非数字化形式的数据数字化。大数据兴起的必要条件之一就是存储技术的发展,直到 SSD 的出现使用大数据的时机才成熟。

应用大数据的一个前提是能够有将一个大的计算任务分到很多台便宜的服务器上去做并行计算,直到云计算兴起才实现了大规模并行计算,大数据处理才成为可能。

大数据实际上是对科学、电机工程、通信、应用数学和认知科学发展的一个综合考量,这些技术难题目前并不一定有最佳解决方案,甚至不存在什么绝对好的解决办法,但是这些问题必须得到解决才能保证大数据的普及应用。

大数据的难题

数据收集是一个看似简单的难题,首先传统的收集数据的方法常常是先有一个目的然后才开始收集数据,但是大数据时代常常没有预先设定的目标,靠大数据分析才能带给我们很多预想不到的惊喜。为了收集数据有时候需要间接的曲线救国方式来做。

数据存储的压力:摩尔定律固然使的存储成本大幅下降,但是大数据的出现数据量增长的速度可能超过摩尔定律增长速度,原本不打算存储的数据被存储下来。

大数据的难题:如何节省存储量、如何便于使用、如何标准化数据格式以便于共享、并行计算和实时处理、数据挖掘、数据安全。这些挑战并非简单增加处理器就能够解决的。

大数据安全性思考

数据安全有两层含义:首先是要保证用户的数据不损坏、不丢失。其次要保证数据不会被偷走或者盗用。

为了在使用大数据的同时尽可能地保护隐私,数据从采集到使用都需要是双向知情的,也就是说不再是数据的所有者暴露在大庭广众之下,数据的采集者和使用者也是同样被监督,或许这样是最有效地保护隐私的方式。

六、未来智能化产业

现有产业+机器智能=新产业,未来的农业、制造业、体育、医疗、律师,甚至编辑记者行业都将迎来崭新形态,新产业将取代旧产业满足人类的个性化需求,大数据将导致我们整个社会的升级和变迁。

现有产业+大数据(或人工智能)=智能产业。案例有:
(1)农业:模仿以色列人的滴灌技术——装有滴水的管线直接将水和肥料送达植物的根系。硅谷的 Droplet 家庭院落自动喷水机器人,可以根据湿度、植物种类、土壤情况和天气预报进行浇水,浇水时自动调整好喷水的角度、流量和时间。
(2)体育:位于湾区的 NBA 勇士队,有硅谷这些工程师和风险投资人进行控股,经数据分析后,认为 3 分为主更有利于赢球,因而着力培养自己的娃娃脸球星,Stephen Curry。同时老板 Joe Lacob 启用三分精准的科尔教练,并坚持数据说话,勇士队在近两年的成功有目共睹。篮球界认为,勇士就是 NBA 的 Google。未来的体育仅仅靠天赋和苦练不足以取得最好的成绩!
(3)制造业:特斯拉作为一家 IT 公司,而非汽车制造商,尽量启用机器人,智能制造时代可以通过设定产品参数按照用户需求制造出个性化的产品。
(4)医疗:世界上最有代表性的做手术的机器人就是达.芬奇手术系统。它分为两个部分,手术室的手术台和医生可以在远程控制的终端。目前全世界共装配了 3000 多台,完成了 300 万例手术。南昌大学一附医院也有一台!IBM 产出的沃特森(Watson)智能系统已经基本具备了中等医生水平,相信在未来不久,计算机在一些疾病的诊断方面可以超过人。李文森博士和 Google 共同创建的大数据医疗保健公司 Calico,他们正在寻找人类产生疾病的基因根源,并针对该情况实施如何修复基因。
(5)律师业:硅谷帕罗奥图市 Blackstone Discovery 公司发明了处理法律文件的自然语言处理软件,使得律师的效率可以调高 500 倍,打官司的成本可以下降 99%。这个,是否可以用于工程设计中?!

七、智能革命和未来社会

在历次技术革命中,一个人、一家企业,甚至一个国家,可以选择的道路只有两条:要么加入浪潮,成为前 2%的人,要么观望徘徊被淘汰。

在美国,很多道路在交通高峰期要求车上必须坐有两个或两个以上的人才能使用快速车道,这些车道被称为拼车车道。我觉得这个车道挺有意思,很有启发意义,中国适合能借鉴?

区块链技术可以可以构建精细化社会,比如。在未来可以通过区块链技术跟踪每一件商品从制造出来直到被消费的完整行踪,从理论上消费者可以杜绝假货,厂家也可以了解到它每一件商品是怎样流通到最终消费者手里的。

智能化社会表现在整个社会从宏观到微观的各个层面。大数据和机器智能将把我们社会的管理水平提升到一个前所未有的高度,使我们的生活环境更加安全,更加方便,同时社会资源的利用率极大提高。这个社会的个性化将得到极大的爆发。同时,智能革命给我们带来了无隐私的环境!或许会被一些超级权力在无形中控制,甚至很多人因为没有掌握未来生存的技能而找不到工作,财富可能会更加集中在少数人手里。

今天很多人忽视大数据对个人隐私潜在的威胁,原因至少有三个:首先是对这个问题缺乏认识,他们并不知道大数据的威力,不知道多维度的信息凑到一起能够得到之人完整画像。其次是低谷了机器智能的力量。很多人认为,虽然某个公司即使有关于我的很多数据,但是那些数据都是杂乱无章的,该公司哪有功夫专门和我这个小人物过不去。岂不是在机器智能时代挖掘个人隐私并不需要人来做,而是由机器完成的。最后,也是最重要的原因,就是很多人一厢情愿地把个人隐私寄托在数据拥有者的善意上。

BIG BROTHER (George Orwell,1903-1950):Big Brother is watching you。未来仍然是人的世界。但是是只有 2%控制其他人的世界,另外 98%只是吃瓜群众。这是最好的年代,也是最坏的年代。智能时代将不可避免地替代人类很多工作,如何取迎接他?


参考:豆瓣网友书评《这是个最好的时代,也是最坏的时代!》