three
数据经济
最近,我家的一个吊灯出了故障,电路出现了一些奇怪的接线问题。枝形吊灯上的灯泡开始闪烁,在一两个小时内,随着一些危险的火花,所有的灯泡都熔断了。我们不得不把它修好,但是也发生了一些别的事情。我五岁的孩子目睹了这一切,他提到“阿帕,这个吊灯失去了网络连接,你看,连灯泡都不亮了,我们能不能检查一下网络?”
我对这个评论感到惊讶,它让我意识到我们生活的世界。下一代如此沉浸在一个无缝连接的世界中,以至于他们可能无法想象它曾经是另外一个样子。这种连接有其自身的挑战。连接产生互动,互动又产生数据——真正的大数据。然而,从这些交互中产生的数据只有在能够被有效地获取、管理和分析时才有价值。过去几年通过互联网作为数据网络实现的连接现在有了很大的提升。由于区块链,我们现在有了价值网络,连接可以导致点对点的价值交换。
这种点对点互动(无论是数据还是价值)的增长带来了一些挑战和风险,包括网络安全、数据隐私和自我主权身份。多年来,我们已经看到一些公司丢失或错误管理客户数据,并因此面临声誉和监管风险。同样,我们已经看到资本市场不足以创造包容性的价值框架,让富人变得更富,而穷人变得更穷。
人工智能、区块链和量子计算等新兴技术有助于管理新的数据经济。它们还可以帮助世界转变为一个点对点的价值交换网络。
本章将带你经历互联网的出现,以及在互联网上建立业务的技术公司的诞生。我描述了这是如何导致社交媒体和大数据的,这意味着我们需要管理随之而来的数据爆炸的方法。在如此海量的数据上,云计算和人工智能的兴起是合乎逻辑的下一步。使用区块链管理数据完整性,以及量子计算更好地利用数据,目前正在进行中。让我们从互联网开始。
互联网
互联网的兴起在互联网上有很好的记录。然而,我觉得了解技术在过去 50 年中发生的一些转变将是一个良好的开端,以便进入我们今天生活的数据丰富的时代。互联网是在晶体管、电话、收音机和电脑等设备的发明和普及之后出现的。将计算机连接起来以共享和传播信息并进行合作的尝试导致了互联网的出现。这一切都始于阿帕网。
阿帕网
1962 年,麻省理工学院的 J.C.R. Licklider 写了一系列备忘录,描述了一个网络上可能发生的相互作用,并将其命名为银河网络。思维上的另一个突破发生在麻省理工学院的 Leonard Kleinrock 提出了一个理论,即使用包而不是电路进行通信是未来的发展方向。这激发了劳伦斯·g·罗伯茨的工作,他开发了阿帕网的计划并于 1967 年发表。结果,1969 年,加州大学洛杉矶分校克莱恩洛克的网络测量中心托管了阿帕网上的第一个节点。斯坦福研究所、加州大学圣巴巴拉分校和犹他大学作为后续节点加入了该网络。主机之间的第一条信息发生在克莱恩洛克的实验室和 SRI 之间。
随着越来越多的主机加入 ARPANET,ARPANET 发展非常迅速。然而,直到 1971-72 年实施网络控制协议 ( NCP )之后,阿帕网用户才可以开发应用程序。使用 NCP,用户可以远程访问计算机并发送文件。它充当传输层,并定义连接两台计算机的过程。延伸阅读:https://www.internet-guide.co.uk/NetworkControlProgram.html
1972 年意义重大,因为第一个电子邮件程序启动了,用户可以阅读、转发和回复信息。在我们今天的微消息世界中,电子邮件主要用于正式交流。然而,在互联网的历史上,电子邮件是关键的一步。
TCP/IP
ARPANET 为使用分组交换的网络内通信铺平了道路。然而,当鲍勃·卡恩开发出传输控制协议 / 互联网协议 ( TCP / IP )时,使用不同技术的互操作性和与其他网络的连接就发生了。后来被称为 TCP/IP 的协议已经成为我们今天使用的互联网的基础协议。TCP/IP 是一种规范,用于说明数据交互如何在互联网上发生,以及数据应如何被分成数据包、如何从源传输以及如何在目的地接收。TCP 定义了如何在网络(在本例中为互联网)上创建应用程序通道,而 IP 则为数据包的目的地提供标识符或地址。下图描述了使用 TCP/IP 的互联网架构:
图 1: TCP/IP 架构
网络层是数据通过物理电线、电缆或光纤以数据包的形式传输的地方。互联网层使用我们称之为 IP 地址的东西来识别主机,并找出离目的地最近的路由器。传输层负责数据的端到端传输,与底层网络无关。它还负责错误处理、流量控制和拥塞控制,以避免大量数据通过同一个路由器发送。应用层涵盖了我们用于电子邮件、文件传输和网站等应用的协议。
TCP/IP 协议的发展和普及是互联网发展的一个重要阶段。经过几年的规划,ARPANET 随后从 NCP 迁移到了 TCP/IP,而且这一过渡出乎意料地顺利。
1989 年,一位名叫蒂姆·伯纳斯-李的英国科学家提出了万维网(T2)的概念。这意味着统一资源定位符 ( URL )可以作为保存信息的空间。这些 URL 可以通过互联网相互连接和访问。到 1990 年,Tim 还开发出了超文本标记语言,这是网络的基石。
繁荣、萧条和繁荣
20 世纪 80 年代,一些公司采用了 TCP/IP 协议。然而,直到 20 世纪 90 年代,互联网才成为主流。几个基于互联网的企业在 20 世纪 90 年代开始成形,个人电脑开始变得普遍。随着这两种创新(互联网和个人电脑)在 90 年代中期的融合,互联网市场出现了繁荣。几个公司在两年时间里增长了大约 500%。例如,美国在线(AOL)从 1992 年上市时的 7000 万美元增长到 2000 年初的 1500 亿美元。
由于上世纪 90 年代末的非理性繁荣,风险投资行业随意向初创企业砸钱。估值这些风投用来评估投资机会的模型存在根本性的缺陷,而且在很多情况下并没有进行估值练习。几家没有良好商业模式的公司以疯狂的估值获得资金,导致泡沫和破产(描述如下)。这是历史如何重演的一个经典例子,因为点网络泡沫在 2017/2018 年末的区块链/加密货币行业重演,尽管规模较小。经历这次繁荣和萧条的关键事件可以按时间顺序排列如下:
吊杆
- 1995 年 8 月:网景公司开始交易,标志着互联网时代的开始
- 1996 年 4 月:雅虎上市,第一天股价翻了一番
- 1997 年 5 月:亚马逊上市,第一天股价上涨了 30%
- 1998 年 1 月:纳斯达克以 1574.10 点开盘,两年来上涨了 50%
- 1998 年 9 月:谷歌由拉里·佩奇和谢尔盖·布林创立
- 1998 年 9 月:易贝上市,首日股价收于 163%
- 2000 年 3 月:纳斯达克指数达到 5132.52 点的峰值
半身像
- 2000 年 3 月:在达到顶峰三天后,纳斯达克指数下跌了 4.5%
- 2000 年 4 月:纳斯达克在一周内损失了 25%的价值,泡沫破裂了
- 2000 年 12 月:易贝股价跌至 2.81 美元的低点(首日收盘价为 47.35 美元)
- 2000 年 12 月:纳斯达克以 2470.52 点收盘,较 3 月份的峰值下跌了 52%
- 2001 年 3 月:eToys 的股票一文不值。该公司在三年内耗尽了 8 亿美元,并申请破产。
- 2001 年 4 月:TheGlobe.com 股票跌破 1 美元,被纳斯达克摘牌
- 2001 年 11 月:亚马逊股价跌至 5.51 美元的低点
复苏
- 2003 年 Q1:亚马逊报告其第一次年度利润为 3500 万美元
- 2004 年 8 月:谷歌上市,首日股价上涨 18%
随着 21 世纪初互联网帝国的日落,大多数公司在几周内就失去了价值。许多公司破产,投资者损失了资本。然而,在痛苦的几年后尘埃落定。其他几家互联网/科技公司从网络泡沫破裂中恢复过来。然而,这是一个缓慢的过程。直到 2016 年 10 月,微软的股价才回到 1999 年 12 月的高点。网络泡沫的破灭确定了那些继续定义计算机和互联网未来的公司。互联网泡沫的幸存者继续为我们今天所知的社交媒体构建框架。
社交媒体
互联网革命之后是另一种技术范式——社交媒体。虽然互联网是关于连接人们和共享信息的,但可供利用的信息仍然有限(相对而言)。
社交媒体创造了互动、博客和微博机会,导致数据爆炸。
图 2:社交媒体应用
随着社交媒体席卷全球,大型科技公司取得了一些关键进展。脸书发现了 Instagram 和 WhatsApp 的早期赢家。虽然 Instagram 以 10 亿美元的价格获得了成功,但以 190 亿美元收购 WhatsApp 的交易确实令人惊讶。然而,这些应用所针对的市场规模证明了其成本的合理性。此外,到 2014 年 WhatsApp 被收购时,脸书仅在广告方面的收入就约为 120 亿美元,用户群为 13 亿人。
尽管脸书的收入模式取得了成功,但他们很清楚他们必须在全球扩大用户群。他们的目标是让每个互联网用户都成为客户,在互联网渗透率低的地方,他们甚至策划提供互联网的方式。争夺用户数据的竞赛开始了,由于他们免费提供服务,他们的用户就是他们的商品。
让我们来谈谈市场的规模和使用这些社交媒体应用程序所产生的数据量。这将有助于我们理解为什么本章涵盖的新兴技术比以往任何时候都更有意义。这些数字将有助于理解为什么大型科技公司会专注于扩大他们的客户群。
需要注意的一些数字是(截至 2019 年 1 月):
- 42 亿人使用互联网
- 34 亿人积极使用社交媒体
- 脸书和 WhatsApp 每天创造 600 亿条信息
- 2018 年发送了 450 亿条微信消息
- 在早高峰时段的 1 分钟内,微信上消耗了 46 TB 的数据
- 自 2003 年以来,谷歌已经回答了 4500 亿次不同的查询
- 每分钟有 300 小时的视频被上传到 YouTube
根据前面的统计数据,您可以清楚地看到世界上数据的巨大增长。这种增长很大程度上是由全球用户广泛采用社交媒体推动的。
“从文明开始到 2003 年,全世界产生了 5eb 的信息。现在,同样的数量每两天就会被创造出来。”
–2010 年谷歌前首席执行官兼董事长埃里克·施密特
这些年来,这些数据被科技巨头用于各种商业目的。这也导致了政府、监管机构甚至消费者对数据隐私权的强烈反对。脸书与剑桥分析公司共享 8700 万人数据的丑闻给该公司带来了许多声誉问题,并凸显了更好的数据控制和监管的必要性。标签# face book sdead开始流行,许多千禧一代和 Z 世代用户因其对用户数据的处理而远离社交媒体巨头。很明显,数据监管、治理和控制是强制性的。但在继续之前,让我们先看看企业是如何使用大数据技术管理这一数据爆炸的。
大数据
术语大数据是由罗杰·穆加拉斯在 2005 年创造的,一年后,Web 2.0 被创造出来。Web 2.0 被用来表示数据时代,在这个时代,传统的商业智能工具由于要处理的数据量太大而变得无效。同年,雅虎在谷歌的 MapReduce 上开发了 Hadoop,雄心勃勃地要索引万维网。Hadoop 是一个开源框架,可以处理结构化和非结构化数据。
结构化数据由明确定义的数据类型、数据规则和它们所遵循的控制来标识。结构化数据通常位于数据库中,其中数据的确切参数是预定义的。Oracle、Microsoft SQL Server 和其他几个数据库管理系统非常注重处理结构化数据。
非结构化数据没有相同级别的结构化规则,主要是因为它的生成方式。非结构化数据以各种形式出现,构成了当今世界上的大部分数据。它可能是从社交媒体、电子邮件、聊天、录音和视频中生成的数据。社交媒体使得非结构化数据的高效管理成为必要,一些技术开始出现以抓住这一机会。
数据库的另一种分类是关系型和非关系型。MySQL、Microsoft SQL Server 和 Oracle 等关系数据库以结构化格式将数据存储在表中。这些表可以通过关系相互链接。这些关系确保数据的完整性完好无损。
然而,这种模型的缺点是,将数据转换成关系模式需要花费大量时间。因此,当数据量很大时,这可能不是最佳选择,并且处理通常需要几分之一秒的时间。从关系数据库中提取数据通常是使用结构化查询语言 ( SQL )在完成的。
MongoDB、Neo4J 和 Cassandra 等非关系数据库以 JSON 或 XML 等格式存储数据。当数据一致性不太重要,而可用性和查询响应时间更重要时,它们就派上了用场。这些数据库还允许更无缝的水平扩展。当涉及大量数据时,这一点很重要。
在深入了解大数据管理是如何发生的之前,首先了解结构化数据是如何获得、管理和分析的会很有用。
结构化数据处理
在传统的环境中,数据坚持定义明确的数据类型,以适合报告和分析的格式获取、准备、管理和交付数据的过程包括一个称为ETL–提取、转换和加载的过程。在一个组织中所有这些过程发生的系统被称为数据仓库。我们将简要讨论这些过程,如下所示:
提取
数据以各种形式来自整个组织,并存储在称为临时数据库的数据库的表中。这些源可以是平面文件、消息传递总线或高度规范化的事务数据库,用于快速事务写入。源到目标的映射是预定义的,以确保源数据以兼容的结构(数据类型)交付到临时区域。临时数据库中的表充当这些数据的着陆区。
变换
临时表中的数据经过预定义的转换。这些转换被提前识别并编码到系统中。当数据被识别为与这些转换和系统内的规则集(数据类型、逻辑标准)不兼容时,数据被记录到错误处理队列中。
装载
然后将转换后的数据加载到数据仓库中,此时数据通常是高质量的。这个最终的数据库也可以是一个数据集市,它通常是满足特定目的或组织的一部分的小型数据仓库。在任何情况下,数据都需要经过几个跳跃才能形成可供分析和报告的形状。
这一过程过去是在传统的设置中进行的。然而,实际上不可能找到一个地方来存储 2.5 万亿字节的数据(每天创建的数据),而这些数据不符合结构化数据库的语义限制。因此,需要转变使用大数据平台的方法。现在,让我们看看非结构化数据管理如何应对数据时代带来的一些挑战。
非结构化数据处理
传统的数据库管理系统并不是为处理大量数据和缺乏结构而设计的,而这些数据和结构往往与互联网联系在一起。大数据系统的关键组件包括:
数据来源
大数据系统中的数据源可以是文本文件、来自社交媒体的消息、网页、电子邮件、音频文件和视频文件。随着物联网 ( 物联网)的兴起,机器交互产生的数据也将成为大数据系统需要处理的来源。
数据存储 / 数据湖
来自这些来源的数据存储在分布式文件存储系统中,如 Hadoop 分布式文件系统 ( HDFS )。商店的分布式特性允许它处理高容量和大数据量。数据湖也可以处理结构化数据,但不需要数据在一个结构中。
成功实施数据湖的公司在有机收入增长方面比竞争对手高出 9%(根据 Aberdeen 的研究)
与传统的数据仓库不同,数据湖在读取时获得一个模式。
数据处理
大数据基础设施中的数据处理可能以不同的方式进行,具体取决于输入系统的数据的性质:
- 批处理通常用于处理大文件。这些批处理作业处理传入的文件,并将处理后的数据存储在另一个文件中。像 Hive、Pig 或 MapReduce 作业这样的工具可以处理这种类型的处理。
- 实时数据处理发生在数据来自社交媒体或物联网设备的系统中,因为需要处理连续的数据流。该数据流是实时捕获的,这也可能涉及使用消息缓冲区来处理实时数据量。
- 然后,可以使用传统技术对这些数据进行转换,并将其移入分析数据库/数据仓库。
- 或者,在传统流程不是首选的情况下,可以在数据文件之上构建一个低延迟 NoSQL 层,用于分析和报告目的。
现在,让我们来看看为管理大数据而探索的不同体系结构。
大数据架构
有一些大数据架构既能处理大量数据,又能满足精确分析的要求。例如,Lambda 架构有一个热路径和一个冷路径。热路径处理来自社交媒体等来源的大量数据,但是对于读取操作,热路径提供快速访问,但数据准确性较低。另一方面,冷路径涉及一个时间密集型的批处理过程,但处理数据以提供高度准确的分析能力。
热路径通常只保存数据很短的一段时间,之后,从冷路径处理的质量更好的数据会替换这些数据。Kappa 架构从 Lambda 架构中获得灵感,并通过使用流处理机制和仅使用一条路径而不是 Lambda 架构的两条路径来简化它。这消除了重复的复杂性,并确保了数据的一致性。像 Apache Spark Streaming、Flink 和 Beam 这样的框架能够提供实时和批处理能力。
大数据系统使用的第三种架构是 Zeta 架构。它使用七个可插拔组件来提高资源利用率和效率。这些组件如下:
- 分布式文件系统
- 实时数据存储
- 可插拔计算模型/执行引擎
- 部署/容器管理系统
- 解决方案架构
- 企业应用
- 动态和全局资源管理
这种架构的优势包括:
- 降低复杂性
- 避免数据重复
- 降低部署和维护成本
- 提高资源利用率
将解决方案分解为可重用的组件,可以在开发和管理大数据平台的多个方面提高效率。
虽然架构对于理解技术的成熟度很有意思,但是结果可能更重要。例如,大数据系统允许更好地利用以社交媒体互动形式捕获的数据。处理大量数据的基础设施的成熟有助于跨多个行业提供智能的客户特定服务。例如,我们看到的使用社交媒体分析的一些常见用例有:
- 品牌情感分析
- 品牌可以使用社交媒体分析来了解对其品牌或近期发布的看法,并相应地调整其产品。
- 客户细分和目标广告
- 几个社交媒体平台提供了组织在营销中获得最大回报的具体细节。企业可以根据这些信息微调营销策略,降低获取客户的成本。
- 主动客户服务
- 顾客不得不经历繁琐的投诉程序的日子已经一去不复返了。有几个例子,顾客在 Twitter 或脸书上记录了他们对某次特殊体验的投诉,品牌立即采取了行动。
- 政治运动
- 就连选举前的政治活动也通过社交媒体洞察得到了积极的管理。西方或许更习惯于这样的活动,但以印度为例,总理纳伦德拉·莫迪利用巧妙的社交媒体策略成功吸引了追随者的注意力。
- 几个亚洲政治组织被指控在政治竞选中发布假新闻误导选民。例如,就在 2019 年印度大选之前,WhatsApp 被用作传播印巴空战假新闻的平台。2016 年的英国退出欧盟公投是政党被指控操纵选民的又一个例子。来源:https://www.bbc.com/news/world-asia-india-47797151
组织使用社交媒体数据持续吸引消费者还有其他几种方式。例如,了解用户的情绪,主动管理投诉,以及开展活动来提高品牌知名度,这些都可以在社交媒体上完成。
作为一名投资者,当我评估公司时,我考虑的一个关键因素是他们的意识和通过社交媒体渠道推动品牌意识、客户获取和持续参与的能力。理解有效利用社交媒体的优势已经成为经营企业的一个基本属性。它不再仅仅是一种选择。社交媒体的兴起见证了企业从内部服务器转向基于云的基础设施。可能没有因果关系,但社交媒体和云之间肯定有关联。
云
大数据框架在架构上催化了大数据革命,同时也得到了云计算发展的支持。如果没有这些技术范式成为主流,就不可能捕获、存储和管理大量数据。这一切都始于 2002 年,当时亚马逊推出了在线零售服务。他们不得不采购大型服务器来管理圣诞节期间的流量高峰。在其他时候,他们的服务器的利用率大约是 10%,这在当时是很平常的。
Amazon 的团队发现了其服务器的利用不足模式,并认为他们可以创建一个模型来提高非高峰时段的利用率。与需要服务器资源的其他人共享他们的服务器基础设施可以提高每个人的效率。云基础设施的概念由此诞生。
杰夫·贝索斯和他的高管团队最终决定在非高峰时段充分利用未使用的服务器容量。不到一年,亚马逊的团队就推出了一项服务,提供计算机存储、处理能力和数据库。随着服务器基础设施变得越来越适合初创公司,这种商业模式改变了创新格局。
亚马逊网络服务 ( AWS )于 2006 年在上线,到 2018 年,它已经是一台创收 260 亿美元的机器。谷歌、微软、IBM 和其他公司纷纷效仿;然而,亚马逊显然已经抢先了一步。到 2018 年,80%的企业都在 AWS 上运行应用程序或尝试将 AWS 作为他们的首选云平台(根据 Statista)。自从云服务成为主流以来,创业成本大幅下降。
按需采购基础设施也使得运营和扩展业务变得更具成本效益。
图 3:2018 年全球公共云平台服务的计划使用和当前使用情况。来源:https://www . statista . com/statistics/511467/world wide-survey-public-cound-services-running-application/
随着云服务的成熟和规模化,出现了几种新的模式,即软件即服务 ( SaaS )、平台即服务 ( PaaS )和基础设施即服务 ( IaaS )。
SaaS 是一个模型,软件应用程序由供应商在服务器上虚拟管理,用户通过互联网访问。谷歌文档是这种模式的早期例子之一。今天,我们将云托管的 SaaS 用于几个最简单的日常任务,从文档管理到召开电话会议。多亏了这种模式,我们的笔记本电脑不会每隔一分钟就要求应用程序进行软件更新。然而,我们也变得越来越依赖互联网,如果没有它,我们会感觉功能失调。
PaaS 是一种模型,供应商不是通过互联网提供应用程序,而是为开发人员提供一个平台来创建应用程序。例如,许多供应商以 PaaS 模式提供区块链,开发者可以使用云管理的软件开发服务来创建区块链应用程序。IBM 也为量子计算提供了类似的服务,不过,这也可以归入 IaaS 模型。
IaaS 是一种将计算机资源作为服务提供的模式。这将包括服务器存储、计算和网络能力、灾难恢复以及许多其他功能。这有助于大型组织通过迁移到云来减少其基础架构占用空间。数据中心被迁移到云中,从而提高了计算机资源的效率,同时也减少了碳足迹。
随着架构、软件和基础设施技术范例的进步,数据时代已经真正开始了。我们已经找到了创建和管理大规模数据的方法。然而,我们不太擅长的是利用数据量开发大规模智能——可以挑战人类的智能。输入 AI。
人工智能
我提到 AI 就好像它实际上是在社交媒体爆炸后第一次被开发出来。没有什么比这更偏离事实了;人工智能的概念由来已久。在 20 世纪早期的科幻小说中,机器人像人类一样行动的概念被引入 T2。然而,直到 1950 年艾伦·图灵提出这个问题,它才开始成为一个严肃的研究领域,
“机器会思考吗?”
人工智能的起源
当艾伦·图灵开始探索这个问题时,他不仅遇到了数学上的挑战,还遇到了神学上的反对。他驳斥了这样的论点,即上帝给了人类一个不朽的灵魂,但没有给任何其他动物或机器,因此没有动物或机器可以思考。
他明确表示,在试图让机器思考的过程中,我们(社会和人类)并没有违背上帝的意志。他认为神学和科学采取看似矛盾的立场已经不是第一次了。
他指出哥白尼学说与下面的圣经诗句不一致。哥白尼提出太阳是宇宙的中心,地球和其他行星绕着它转。
“他立了地的根基,使地随时都不动摇”(诗篇 104:5)
艾伦·图灵也阐述了他对思维机器未来的看法。
“我相信,在大约 50 年的时间里,有可能给存储容量约为 109的计算机编制程序,使它们能够很好地玩模仿游戏,以至于一个普通的审讯者在 5 分钟的审讯后作出正确辨认的机会不会超过 70%。原问题“机器能思考吗?”我认为这毫无意义,不值得讨论。尽管如此,我相信在本世纪末,词语的使用和普通的教育观点将会有很大的改变,人们将能够谈论机器的思维而不期望被反驳。
我进一步相信,隐藏这些信念是没有用的。流行的观点认为,科学家不可阻挡地从既定事实前进到既定事实,从来不受任何改进的猜想的影响,这是非常错误的。只要弄清楚哪些是事实,哪些是猜测,就不会有什么害处。推测非常重要,因为它们暗示了有用的研究方向。"
在那些日子里,甚至尝试人工智能实验的实际挑战也是巨大的。计算能力和数据存储能力(或缺乏计算能力和数据存储能力)是最大的瓶颈。计算机不仅要存储单词,还需要理解单词之间的关系,以便进行有意义的交流。
有些科学家和研究人员乐观地认为,机器将具有人类的一般智力。他们为“ AI 奇点”提出了不同的时间线尽管 AI winters 认为这项技术是在炒作,但研究界还是取得了持续的进步;20 世纪 80 年代,John Hopfield 和 David Rumelhart 引入了深度学习的概念,人工智能领域开始通过研究资金的激增获得新的推动。
第一次实际突破可能发生在 1996 年,当时特级大师加里·卡斯帕罗夫在一场国际象棋比赛中被 IBM 的深蓝击败。深蓝是一个计算机程序,游戏结果被大肆宣传,被认为是当时该领域的一大突破。大约在同一时间,微软将 Dragon Systems 开发的一款语音识别软件集成到其 Windows 操作系统中。
科学界已经意识到人工智能不仅仅是一个像人类一样奇迹般运行的程序。这是一种利用大量高质量数据构建算法的方法。这使得算法能够更好地理解机器运行的环境,并提供相关的答案作为输出。
模仿游戏
图灵的另一个贡献是图灵测试。这个测试叫做模仿游戏。游戏的构造如下:
- 有三个房间,每个房间都通过电脑屏幕和键盘与其他房间相连。
- 第一个房间里坐着一个人,第二个房间里坐着一台电脑,第三个房间里坐着一名“法官”
- 法官的工作是根据人和机器的反应(通过五分钟的互动)来识别他们。
- 图灵提出,如果法官识别人类或机器的准确率低于 50%,这意味着法官很可能选择人类或计算机。这使得计算机成为对人类和智能的模拟。
多年来,这个实验有过几次简化,程序员把它作为测试他们解决方案智能的试金石。一些后来的研究人员批评了图灵测试在识别真正智能系统方面的能力,同时其他论文也为该测试辩护。尽管如此,艾伦·图灵对人工智能领域的贡献无疑是巨大的。他是一位远见卓识的人,为后代播下种子,让他们从中受益。
人工智能的化身
我经常发现人们在图 4 中列出的许多更详细的人工智能分支中互换使用人工智能。通常,使用 AI 来指代机器学习解决方案会受到挑战。我的看法是,人工智能的这些子集群专注于利用数据来做出更好的决策。在一些场景中,这种智能增强了人类,有时机器会自己做出决定并向他们学习。
人工智能的算法细节,如神经网络、聚类和贝叶斯网络,都包含在人工智能分支下的技术中:
图 4:人工智能的分支
机器学习可能是最常见的形式,其中在数据中识别模式,并使用这些模式进行预测。模式识别过程包括向算法提供大量数据,并开发解决方案来学习这些训练数据。在机器从训练数据中学习之后,它被用于将学习应用于一组新的数据。如果新的数据集表现出与训练数据相似的模式,那么机器会突出显示它们。因此,训练数据的广度和质量在学习过程中非常关键。我用我参与的一个例子来解释一下这个。
2014 年我在普华永道的时候,我有幸坐进了 IBM Watson 评估委员会。我们正在评估使用 IBM Watson 作为监管解决方案的可行性。自 2008 年以来,英国和欧盟的金融监管机构提出了几项复杂的监管规定,银行应该理解大量的监管文本并确保合规。成千上万行复杂的监管文本,相互补充和冲突的监管规则,以及频繁变化的法规,都让银行很难掌握自己的监管义务。
我们正在评估的 IBM Watson 解决方案将所有监管文本(以法律语言)作为输入。我们还将提供这些法规文本的自然语言版本作为输入(如果有的话)。两名监管专家将与 IBM Watson 合作,在他们所谓的“ Watson 去学校的过程中,人工智能引擎将接受监管培训。专家会问人工智能一个关于法规的问题,当得到答案时,专家会根据答案的质量给出肯定或否定的回答。这有助于人工智能引擎随着时间的推移进行学习,并更好地回答大量监管文本中简单、平凡的问题。
在这种情况下,问题非常明显——我们要求机器查看监管文本并提供相关答案。然而,在有些情况下,尽管有大量数据可用,但分析师不知道他们在数据中寻找什么。我们使用一种称为无监督学习的方法来识别数据中的问题和异常。利用这一点,我们开始理解影响异常的潜在变量的过程。
机器人技术是另一个在过去 10 年左右取得重大进展的领域。像韩国这样的国家已经将机器人技术提升到了一个全新的水平,在制造业中,每 10000 名员工配备大约 700 个机器人。下图中的数字代表 2016 年的数字。最新数据显示,韩国的这一数字已经上升到每 1 万名员工拥有 710 个机器人。
机器人被用于进行外科手术,进行对人类有潜在危害的救援行动,银行的客户服务,物流,建筑甚至农业。这些用途中有几项处于原型/试点阶段,但显示出有希望的迹象。机器人的工业应用开始变得清晰,特别是在有重复和机械任务的领域。
因此,低技能、高频率、平凡的工作将被机器取代。在资产管理行业,人工智能被用于做出投资组合管理决策,因为机器可以通过数百万个数据点来做出比人脑更好的决定。
图 5:2016 年机器人工人密度最高的国家
AI 在当今世界的应用是无限的。每天都有新的途径和现实世界的机会向人工智能敞开。数据的可用性使人工智能的繁荣成为可能,但也打开了一个全新的围绕数据隐私、数据所有权和数据安全的蠕虫罐。随着消费者数据的集中垄断,我们的数据如何被使用、共享和货币化往往是不清楚的。这就是像区块链这样的技术可以发挥作用的地方。
区块链
正如我们之前简要提到的,区块链框架有几个属性,使其易于解决一些数据所有权、安全性和隐私挑战。在当今大多数非量子技术领域,区块链也比集中式数据管理系统提供更好的数据安全性。与此同时,区块链也有局限性,如果不加以解决,可能会影响主流的采用。区块链(比特币区块链)的历史和技术架构在第一章、量子计算和区块链介绍中讨论。
区块链的几个属性允许其跨多个行业应用。然而,让我们继续关注数据经济的话题,让我们看看区块链及其功能是如何在完美的时间加入这场派对的。
权力下放
随着这项技术多年来越来越受欢迎,去中心化已经成为全球数百万区块链信徒的神奇咒语。由于我们在本书前面讨论的可伸缩性三难困境,去中心化似乎经常成为实现商业规模的障碍。在区块链实现了可扩展性的地方,去中心化经常被权衡,使其成为一个难以捉摸的乌托邦想法,我们都希望世界朝着这个方向发展。
然而,权力下放也有它的好处。多年来,我们都已经习惯了客户机-服务器系统,其中大部分数据都存储在服务器上。这种架构的挑战在于:
- 保存大部分数据的服务器很容易成为网络罪犯的目标。入侵一个中央系统来获取关键信息是很容易的。已经发生了几起银行被黑客攻击、数百万客户数据丢失的事件。
- 如果中央实体不复存在,客户拥有的数据往往会丢失。如果脸书申请破产并停止运营,全球 23 亿用户的整个数据集可能会丢失。
在一个去中心化的系统中,已经达成共识的数据版本被存储在区块链上的所有节点上。因此,关闭区块链中的一个节点并不意味着数据丢失。
虽然去中心化可以防止数据丢失,但它也可以确保数据所有权不是集中的。对于每个消费者来说,管理他们的数据、经济和社会身份变得越来越重要。由于前面提到的客户端-服务器系统的缺点,身份管理不能集中在一个公司。在分散式网络中管理身份的机制被称为自我主权身份管理。
多亏了区块链框架,自我主权身份的想法开始看起来不像以前那么难以捉摸了。在这个时代,数据被视为新的石油,关注(媒体和社交媒体)被视为新的黄金,身份必须由每个人拥有和管理。如果我有一份脸书 10 年的资料,我需要完全透明地了解脸书是如何利用我的数据赚钱的。任何未经批准的使用或出售客户数据的行为都是不可容忍的。
在深入探讨有助于管理自我主权身份的去中心化可追溯性之前,让我们看看防止对区块链系统本身进行网络攻击的功能。
不变性
在一个系统中,每个生成的块都使用前一个块的哈希,任何人想要在块链上创建虚假交易都需要通过整个块链进行暴力破解。在区块链中就假冒交易达成共识的另一种逻辑方式是获得 51%节点的控制权。这种情况发生在已经失去人气的区块链中。在这样的网络中,有人可以接管网络以获得网络的 51%的控制权。
还有其他方法可以破解区块链,如导致以太坊硬分叉和以太坊经典诞生的道破解。然而,当框架的逻辑从根本上易受攻击时,就会出现这些问题。
如果这种漏洞被遗忘一分钟,今天的区块链就像一个不可改变的网络。一旦交易被创建,就很难被破解和更改。虽然不变性肯定是一个理想的区块链属性,但它也用于需要可追溯性的上下文中。
可追溯性
在传统的数据库管理系统中建立可追溯性和可审计性并不难。然而,当可追溯性与区块链的其他功能结合在一起时,它使其成为去中心化的-不可变的-可追溯性,这是特殊的。在数据密集型世界中,区块链的这一属性在管理知识产权方面有几个应用。它还允许您跟踪第三方是如何使用您的数据的,并在相关的情况下,让您作为客户获得报酬。
几周前,我与一位区块链架构师交谈,我们讨论了许多网站提供的用户旅程,在那里我们必须输入用户名和密码才能使用他们的服务。他坚持认为,这个世界需要转向这样的解决方案,即客户的数字身份不存储在应用程序级别。相反,它应该存储在协议级别。每次需要检查客户身份时,应用程序都可以接入这个协议。
这意味着像脸书和推特这样的应用不一定是个人数字身份的主要持有者。理想情况下,身份必须由分散的政府网络来管理。然而,当网络由少数政府管理时,它被认为是集中的,是区块链的对立面。然而,这里的重点不是权力下放的程度。事实上,身份必须在更基本的层面上得到管理。
随着身份得到管理,个人拥有的数据也将得到管理。此外,用户的数据将归属于他们,他们将被告知公司通过使用他们的数据赚了多少钱。选择能利用他们的数据赚钱的提供商是用户的决定。例如,一个人可能会很高兴自己的数据被用来(在总体水平上匿名)帮助银行做出贷款决策,但他们可能不会同意一家大型华尔街银行利用这些数据向更多客户交叉销售产品。
例如,用户可能不介意低碳企业使用他们的数据,但当采矿、石油或天然气公司希望使用他们的数据做出任何战略/商业决策时,他们会希望他们将决策收入的一部分支付给环境慈善机构。
仅仅创造一个允许数据创建、共享和货币化的生态系统是不够的。有必要围绕 It 建立治理和控制,以便谨慎使用数据。在一个网络攻击将很快被民族国家用来相互发动战争的世界里,这些控制将决定赢家和输家。各国可以停止在核弹头上花费时间和金钱,开始在利用区块链等技术保护公民数据上花费更多时间和精力。
当我们经历数据时代的基础技术时,一个突出的是量子计算。这个领域现在还为时尚早,但可能性是有希望的。
量子计算
在一系列使数据经济成为可能的技术创新中,量子计算可能是最突出的。我们已经涉及了量子计算的各个方面,使它成为一个革命性的技术范式。在实践的基础上,量子帮助我们解决了一些以前不可能解决的关键问题。本书中的访谈涵盖了许多实际问题。随着量子计算的出现,人工智能开始加速发展,区块链开始焕然一新(可能是在经历了一场痛苦的手术之后),大数据管理和利用可能会经历一次重大的重新思考。
当像纠缠这样的固有量子属性被用于远距离传输信息时,网络安全看起来会非常不同。企业将能够以更高的信心做出实时数据驱动的决策。本质上,由于新兴技术,我们应该能够充分利用我们创造的数据。
结论
每隔几年,我们都会看到新的技术趋势出现。自互联网兴起以来,没有一项重大技术能够在不丰富数据经济的情况下蓬勃发展。无论是人工智能、大数据、云计算、区块链、物联网、5G 还是量子计算,它们都与数据经济互动,并为其做出贡献。其中一些在应用层有更多的用例,一些在协议层,一些在物理/基础设施层。尽管如此,它们都具有大规模的破坏性。
互联网为这几年激动人心的数据创新奠定了基础。基于它们的社交媒体。一旦我们有了通过社交媒体创建的数据,就要利用新兴技术充分利用这些数据。其中一些技术模式甚至在互联网和社交媒体出现之前就已经存在了。但丰富的上下文用户数据的可用性有助于创新者完善他们使用和进一步开发这些技术的方法。
互联网提供的连接允许创造新的经济模式。互联用户群、网络效应和参与度提供了丰富的数据。企业在充分利用这些数据,同时免费提供服务的过程中蓬勃发展。价值是用区块链数字化创造的。
一个小网络成长为一个生态系统,一个数字经济就此诞生。所有这些都是在过去 15 年里以惊人的速度发生的。出现的问题是,量子计算能丰富这一波创新吗?
在接下来的几章中,我们将研究量子计算和区块链在几个行业的潜在应用。
参考文献
- http://sitn . HMS . Harvard . edu/flash/2017/history-artificial-intelligence/
-
http://jmc . Stanford . edu/artificial-intelligence/what-is-ai/branch-of-ai . html