内容简介
数据,自古就有,人口普查、农业统计、军事战争、政治计算……数据虽小,却有助于治国安邦。美国之所以繁荣鼎盛,数据文化根基牢不可破概是主因之一。
信息爆炸、互联互通、智慧城市时代,大数据,更以排山倒海之势席卷,政府施政、企业掘金,大众要公平与正义,大数据被赋予了新的历史使命。
在这本书中,从小数据时代到大数据的崛起,作者以宏大的历史观、文化观、大数据观,给我们描绘了一幅数据科学、智慧文化的全景图。全书从美国建国之基讲起,通过阐述初数时代、内战时代、镀金时代、进步时代、抽样时代、大数据时代的特征,系统梳理了美国数据文化的形成,阐述了其数据治国之道,论述了中国数据文化的薄弱之处,展望了未来数据世界的远景。
“尊重事实,用数据说话”,“推崇知识和理性,用数据创新”,作者不仅意在传承黄仁宇“数目字”管理的薪火,还试图把数据这个科技符号在中国转变为文化符号,形成一种文化话语体系。大数据正在撬动中国的制度创新、科技创新。阅读此书,历史与现实相互融合,知识与激情相互交织,思想与观念相互碰撞,未来与前景必定豁然开朗。
目录
目 录
序一 进入一个重要的现代文化园地/许倬云 //XV
序二 一部精彩纷呈的时代杰作/郭为 //XIX
序三 大数据可以创造未来/王巍 //XXIII
第一部分 小数据之历史
第一章 初数时代:奠基共和
克服民主的劣势:用数据分权 //004
制度创新:变对抗为合作的魔法棒 //010
两党之争:无法分割的权力 //013
亚拉巴马悖论:没有的方案 //021
有数初成:共和政治反哺数据文化 //027
中国往事:第一次现代意义上的人口普查 //035
第二章 内战时代:终结奴隶制的灯塔
人口普查:南方的敌人 //040
用数据辩论:南北战争的序幕 //046
用数据远征:向大海进军 //053
政治计算:解放黑奴的真正原因 //069
兵家和数据:中国历的吉光片羽 //074
第三章 爆发:镀金时代的三重崛起
用数据预测:转变思维方式 //083
总统之死:专业化的悲情序曲 //089
世纪:大数据驱动的创新 //102
和政治分家:劳工统计的异军突起 //110
姑娘、棉花和数据:究竟谁在推动历史 //116
尘封的瑰宝:中国的数据可视化先驱 //122
第四章 量化:进步时代的数据大潮
用数据决策:水利工程中的数据竞争 //138
冲击量化的极限:给生命定价 //146
“平托”风波:福特公司的道德危机 //151
用数据来审判:理性的必然选择 //159
代理人需要监督:成本收益分析方法的未来 //163
思考中国话题:民族复兴能否量化? //172
第五章 抽样时代:统计革命的福祉
从选票到电影票:和《乱世佳人》共舞 //178
用数据跨界:质量大师是怎样炼成的 //188
旋转质量的飞轮:日本崛起 //193
世纪之问:日本行,为什么我们不行? //203
第二部分 大数据的崛起
第六章 开放时代:内开放的历程
内开放1.0:数据承载知情权 //217
内开放2.0:用数据制衡 //219
悲剧现场的第一个问题:普查局的数据之痛 //224
LEHD项目:开放数据的使用权 //229
内开放3.0:用数据推动创新 //244
2012年:来自中国的组织创新 //250
第七章 大数据时代:通往计算型的智能社会
世上本没有数:正解大数据 //255
改变世界的三股力量:大数据的成因 //259
有数据,还要有计算:计算型社会的兴起 //270
普适计算:即将到来的数据爆炸 //278
数据和计算:第三次工业革命的CPU //280
数据之巅:通向智能型社会的挑战 //288
第八章 智慧城市:正在拍打世界的浪潮
西方和东方:聪明和智慧 //303
目标锁定“城市平台”:神州数码对话录 //309
众包、众智和众创:让大众解决大众的问题 //315
云、隐私和未来:中国和美国的不同挑战 //325
结语 把握后发优势:把科技符号变成文化符号 //335
后记 蝴蝶振翅 //341
摘要与插图
第七章大数据时代:通往计算型的智能社会大数据是人类文明新的土壤,在这片土壤之上,人类将开始建设一个智能社会。
—本书作者,2014年
世上本没有数:正解大数据
传统意义上的“数据”,是指“有根据的数字”,数字之所以产生,是因为人类在实践中发现,仅仅用语言、文字和图形来描述这个世界是不的,也是远远不够的。例如,有人问“姚明有多高”,如果回答说“很高”、“高”、“”,别人听了,只能得到一个抽象的印象,因为每个人对“很”、“”有不同的理解,“也是相对的,但如果回答说“2.26米”,就一清二楚。除了描述世界,数据还是我们改造世界的重要工具。人类的一切生产、交换活动,可以说都是以数据为基础展开的,例如度量衡、货币的背后都是数据,它们的发明和出现,都极大地推动了人类文明的进步。
数据来源于测量,所谓“有根据的数字”,是指数据是对客观世界测量结果的记录,而不是随意产生的。测量是从古至今科学研究要的手段,可以说,没有测量,就没有科学;也可以说,一切科学的本质都是测量。就此而言,数据之于科学的重要性,就像语言之于文学、音符之于音乐、形色之于美术一样,离开数据,就没有科学可言。
除了测量,新数据还可以由老数据经计算衍生而来。测量和计算都是人为的,也就是说,世上本没有数,一切数据都是人为的产物。我们说的“原始数据”,并不是“原始森林”这个意义上的“原始”,原始森林是指天然就存在的,而原始数据仅仅是指第一手的、没有经过人为修改的数据。
传统意义上的数据,和信息、知识也是不同的概念:数据是信息的载体,信息是有背景的数据,而知识是经过人类的归纳和整理,呈现规律的信息。
图7–1传统意义上的数据和信息的区别
但进入信息时代之后,“数据”二字的内涵开始扩大:不仅指代“有根据的数字”,还统指一切保存在电脑中的信息,包括文本、图片、视频等。其中的原因是,20世纪60年代软件科学取得了巨大进步、发明了数据库,此后,数字、文本、图片都不加区分地保存在电脑的数据库中,数据也逐渐成为“数字、文本、图片、视频”等的统称,也即“信息”的代名词。
文本、音频、视频本身就已经是信息,而且其来源也不是对世界的测量,而是对世界的一种记录,所以信息时代的数据又多了一个来源:记录。
图7–2数据的三大来源
图7–3现代意义上的“数据”:范畴比信息还要大
注:进入信息时代之后,数据成为信息的代名词,两者可以交替使用。一封邮件虽然包含很多条信息,但从技术的角度出发,可能还是“一个数据”,就此而言,现代意义上的数据的范畴,其实比信息还大。
除了内涵的扩大,数据库发明之后,还出现了另外一个重要现象,那就是数据的总量在不断增加,而且增加的速度不断加快。
20世纪80年代,美国就有人提出了“大数据”的概念。这个时候,其实还没有进入数据大爆炸的时代,但有人预见到,随着信息技术的进步,软件的重要性将下降,数据的重要性将上升,因此提出“大数据”的概念。这时候的“大”,如“大人物”和“大转折”之“大”,主要指价值上的重要性;到了21世纪前10年,尤其是2004年社交媒体产生之后,数据开始爆炸,大数据的提法又重新进入大众的视野并获得了更大的关注。这个时候的“大”,含义也更加丰富了:一是指容量大,二是指价值大。
从这个角度出发,大数据可以先理解为传统的小数据加上现代的“大记录”,这种大记录的主要表现形式是文本、图片、音频、视频等,和传统的测量是两回事。而且大数据之所以“大