内容简介
几年前,“数学之美”系列文章原刊载于谷歌黑板报,获得上百万次点击,并被热情的读者广为传播,得到高度评价。读者说,读了“数学之美”,才发现大学时学的数学知识,比如马尔科夫链、矩阵计算,甚至余弦函数原来都如此亲切,并且栩栩如生,才发现自然语言和信息处理这么有趣,才真正明白“数学是科学的皇后”这句名言。
今年,作者吴军博士几乎把所有的文章都重写了一遍,为的是能把高深的原理讲得更加通俗易懂,让非专业读者也能领略数学的魅力。经过改写和重构后,《数学之美》在整体和细节的度上控制得更好。希望读者通过具体的例子学到的是思考问题的方式,学会如何化繁为简,如何用数学去解决工程问题,如何跳出固有思维不断去思考创新。同时书中也留了很多问题给愿意钻研的人做进一步深入思考。
目录
i 出版说明
v 序言1
ix 序言2
xi 前言
第1章 文字和语言 vs 数字和信息
文字和语言与数学,从产生起原本就有相通性,虽然它
们的发展一度分道扬镳,但是还是能走到一起。
1 信息
2 文字和数字
3 文字和语言背后的数学
4 小结
第2章 自然语言处理 从规则到统计
人类对机器理解自然语言的认识走了一条大弯路。早期
的研究集中采用基于规则的方法,虽然解决了一些简单
的问题,但是无法从根本上将自然语言理解实用化。直
到?? 多年后,人们开始尝试用基于统计的方法进行自
然语言处理,才有了突破性进展和实用的产品。
1 机器智能
2 从规则到统计
3 小结
第3章 统计语言模型
统计语言模型是自然语言处理的基础,并且被广泛应用
于机器翻译、语音识别、印刷体或手写体识别、拼写纠错、
汉字输入和文献查询。
1 用数学的方法描述语言规律
2 延伸阅读:统计语言模型的工程诀窍
3 小结
第4章 谈谈中文分词
中文分词是中文信息处理的基础,它同样走过了一段弯
路,目前依靠统计语言模型已经基本解决了这个问题。
1 中文分词方法的演变
2 延伸阅读:工程上的细节问题
3 小结
第5章 隐含马尔可夫模型
隐含马尔可夫模型应用于通信领域,继而推广到语
音和语言处理中,成为连接自然语言处理和通信的桥梁。
同时,隐含马尔可夫模型也是机器学习的主要工具之一。
1 通信模型
2 隐含马尔可夫模型
3 延伸阅读:隐含马尔可夫模型的训练
4 小结
第6章 信息的度量和作用
信息是可以量化度量的。信息熵不仅是对信息的量化度
量,也是整个信息论的基础。它对于通信、数据压缩、
自然语言处理都有很强的指导意义。
1 信息熵
2 信息的作用
3 延伸阅读:信息论在信息处理中的应用
4 小结
第7章 贾里尼克和现代语言处理
作为现代自然语言处理的奠基者,贾里尼克教授成功地
将数学原理应用于自然语言处理领域中,他的一生富于
传奇色彩。
1 早年生活
2 从水门事件到莫妮卡?莱温斯基
3 一位老人的奇迹
第8章 简单之美 布尔代数和搜索引擎的索引
布尔代数虽然简单,却是计算机科学的基础,它不
仅把逻辑和数学合二为一,而且给了我们一个全新的视
角看待世界,开创了数字化时代。
1 布尔代数
2 索引
3 小结
第9章 图论和网络爬虫
互联网搜索引擎在建立索引前需要用一个程序自动地将
所有的网页下载到服务器上,这个程序称为网络爬虫,
它的编写是基于离散数学中图论的原理。
1 图论
2 网络爬虫
3 延伸阅读:图论的两点补充说明
4 小结
第10章 PageRank Google的民主表决式网名
网页排名技术是早期的杀手锏,它
的出现使得网页搜索的质量上了一个大的台阶。它背后
的原理是图论和线性代数的矩阵运算。
1 PageRank 算法的原理
2 延伸阅读:PageRank 的计算方法
3 小结
第11章 如何确定网页和查询的相关性
确定网页和查询的相关性是网页搜索的根本问题,其中确
定查询中每个关键词的重要性有多高是关键。是目
前通用的关键词重要性的度量,其背后的原理是信息论。
1 搜索关键词权重的科学度量TF-IDF
页排名技术
2 延伸阅读:TF-IDF 的信息论依据
3 小结
第12章 地图和本地搜索的本技术 有限划
摘要与插图
第2章 自然语言处理一从规则到统计
在上一章讲到,语言出现的目的是为了人类之间的通信。字母(或者中文的笔画)、文字和数字实际上是信息编码的不同单位。任何一种语言都是一种编码的方式,而语言的语法规则是编解码的算法。我们把一个要表达的意思,通过某种语言的一句话表达出来,就是用这种语言的编码方式对头脑中的信息做了一次编码,编码的结果就是一串文字。而如果对方懂得这门语言,他或者她就可以用这门.语言的解码方法获得说话人要表达的信息。这就是语言的数学本质。虽然传递信息是动物也能做到的,但是利用语言来传递信息是人类的特质。
1946年、,现代电子计算机出现以后,计算机在很多事情上做得比人还好。既然如此,机器是否能够懂得自然语言呢?事实上当计算机一出现,人类就开始琢磨这件事。这里面涉及到两个认知方面的问题:第一,计算机是否能处理自然语言;第二,如果能,那么它处理自然语言的方法是否和人类一样。这本书将回答这两个问题。为了不吊读者的胃口,我在这里先给出简洁版的答案:对这两个问题的回答都是肯定的,Yes!
……
P15