内容简介
《大数据时代》之后的之作。《大数据时代》改变了我们的思维,《数据统治世界》将改变我们利用数据的方式。揭示5大统计式思维,让你可以解决在商业、金融、科学、公共卫生以及犯罪调查中遇到的难题!
他用难以胜数的来自真实世界的例子,为我们展现了统计学在日常生活中的实际应用,以一种简单、务实、无限娱乐性的方式为您解释了数据所具有的神秘力量。
游人如织的迪士尼是如何管理排队等候时间的?高速公路为什么要修建缓行匝道?服用兴奋剂的运动员在被揭穿之前是如何制造出几十次干净的药检结果的?即使拥有海量的股票数据和公司财报信息,为什么大部分人还是不能在投资中所向披靡?为何不同的人有不同的保险费率,信用评分又是如何运作的?当传染病暴发的时候,科学家是如何帮我们找到感染源头,保证我们的安全的?统计学家为何不怕飞机失事,但也不相信能够中奖的彩票?十个精彩纷呈的故事,带你领略数据的别样魅力。
目录
前 言 让数据自己说话 / I
第1章 关注异常值,而非平均数本身:解决拥堵之害 / 001
迪士尼,让游客牢骚的长队
选择上下班线路的冒险
匝道控制,反拥堵的利器
知觉管理,快速通行卡让等候时间“变短”
适当放弃,赢得支持
消除变异,消除怒气
第2章 相关比因果更重要:疾病侦测与信用评分 / 035
污染的菠菜与大肠杆菌
建模师为信用评分
寻找疾病的罪魁祸
信用评分,相关创造商业奇迹
抛弃脏数据
统计建模的两大模式
第3章 分层与同类比较:考试公平与保险风险 / 087
黑人考生与白人考生之间通过率的巨大差距
统计学家助力SAT题目诞生
项目功能差异分析消除差异
突然不可保的飓风
被误解的“百年一遇”
将不同的组分开
第4章 假阳性与假阴性的博弈:药检与反恐 / 131
不能给假阳性一丝机会
统计学上的分界线
用测谎仪证明自己
难以把握的成本效益比
宁可错杀三千,不可放过一个
假警报,检测系统远非
第5章 小概率的力量:航空安全与彩民信心 / 187
夜空中的灾难
4次灾难惊人的巧合
27000年才有一次的中奖机会
白点黑点,换个角度看数据
在整个背景下评价数据
精心选择的数字更丰富
结论:像数据科学家一样思考 / 211
译者后记 /
247
摘要与插图
现场调查法,传染病流行病学的开始一个半世纪以前,大约在1830—1850
年间,英国接二连三地暴发霍乱,成千上万人被瘟疫夺去了生命。有位年轻医生亲眼目睹了这一幕幕惨剧,忧心如焚。1854
年,伦敦的布劳德大街(Broad Street)(也就是现在的布劳维克大街[Broadwick Street])附近的居民,3
天内有127 人被瘟神带走了生命,霍乱暴发后的前10 天就有500
人丧生。那个时代,普遍认为霍乱是“疠气”(miasma)或称“恶气”所致。约翰·斯诺(JohnSnow)医生,通过一系列富有灵感的研究,证实霍乱是通过“被污染的”
水而不是通过“被污染的”空气传播的。
斯诺画出了公共抽水机和被夺走生命的人的分布图,通过这张图他准确地测算出布劳德大街的抽水机被污染了。民间的说法是当人们把抽水机的手柄移走后霍乱就随之停止了。(现在流行病学家认为其他的因素,比如居民从疫区撤离也对结束这场灾难起了作用。)
斯诺医生所开创的现场调查方法标志着传染病流行病学的开始。后来,亚历山大·朗缪尔医生(Alexander
Langmuir)把这门学问引进了美国。作为美国疾病与控制中心的席流行病专家,朗缪尔在1951年创建了流行病学情报所(EIS),用于训练疾病侦探。他把这个项目设计成一种“国民防御”(civil
defense)的形式,并向外界兜售,用以抵制冷战期间的生物武器的威胁。流行病学情报所在脊髓灰质炎、铅中毒、军团病〇1
和中毒性休克综合征等疾病的、控制方面发挥了主导作用。该组织的成员自豪地戴着一枚翻领别针,上面有一只穿孔的皮鞋图案,象征着疾病监测活动的汗水与艰辛。
朗缪尔的办公室里悬挂着他所敬仰的三位偶像的肖像:约翰·斯诺(那是肯定的了)、埃德温·查德威克爵士(Edwin
Chadwick)和查尔斯·蔡平(Charles Chapin)。查德威克爵士,跟斯诺一样,是英国19
世纪推动公共卫生改革的先驱。他提倡居民们用管子将水输送到家里,这种观念在当时是很新鲜的。蔡平在罗得岛州普罗维登斯市,当了48
年的卫生员,被大家昵称为“城市卫生官员主任”(dean of city health officers)。他在19 世纪80
年代推动了美国的公共卫生运动,而且拥护在公共卫生管理中使用科学原则。
朗缪尔到处宣讲合作的价值,鼓励那些来自心理学、人类学、社会学及其他学科领域的人参加流行病学情报所培训。到今天为止,已有3 000
多名官员毕业于此;的班上大约有30%
的学员不是医生。流行病学情报所培养出来的官员们不仅以分析的细致见长,而且具备实际的眼光,他们因集两种优点于一身而著称于世。
数据统治你的世界
在阅读本书时,你突然明白了自己的世界被各种各样的数据统治着。当你在高速路上驾车时,工程师们会在入口和出口匝道上测你的车速。如果你的家人去迪士尼乐园玩,你会注意到有摄像机在收集你们在过山车之间的移动信息,也许你会正好撞见莱恩·特斯塔或者他的工作人员正在数人数。你现在知道信用分对你有利,至于为什么,道理上不必讲得通。但是当美国食品药品管理局召回这种或那种食物,你会问该机构是否已经找出了代码所代表的产地了。如果你或者你的孩子要参加一个标准化考试,你应该知道考试开发者是如何选择那些对每个人都公平的题目的。那些住在灾难高发区的人们现在应该理解了为何私人保险商要突出重围。下次当
你听到某个因类固醇而名誉扫地运动员投诉说,遭到了检验员的政治迫害的时候,你会想到那些散落在实验室里的阴性样本。下次测谎程序来筛选潜在的恐怖分子时,你会想到那些被错抓到监狱里的无辜者。登上飞机后,你就会精神放松了,因为