数学之美-读书笔记

2016-12-31

第一章文字和语言 vs 数字和信息

文字只是信息的载体，而非信息本身，所以同一个信息，在中文或英文中表现不同，如果用其他载体比如数字也是可以表示同样的意思，这就是现代通信的基础。
信息的冗余是信息安全的保障，这对信道编码有直到意义。
语言的数据，我们称之为语料，尤其是双语或者多语的对照语料对翻译至关重要，它是我们从事机器翻译研究的基础。
“罗赛塔”石碑
总结
1. 通信的原理和信息传播的模型
2. （信源）编码和最短编码
3. 解码的规则，语法
  - 聚类
  - 校验位
  - 双语对照文本，语料库和机器翻译
  - 多义性和利用上下文消除歧义性

第2章自然语言处理–从规则到统计

语言出现的目的是为了人类之间的通信，字母，文字和数字实际上是信息编码的不同单位，任何一种语言都是一种编码方式，而语言的语法规则是编解码的算法。我们把一个要表达的意思，通过某种语言的一句话表达出来，就是用这种语言的编码方式对头脑中的信息做了一次解码，编码的结果就是一串文字。而如果对方懂得这门语言，他就可以用这门语言的解码方式获得说话人要表达的信息。这就是语言的数学本质？虽然传递信息是动物也能做到，但是利用语言来传递信息是人类的特质。
基于统计的自然语言处理方法，在数学模型上和通信是相通的，甚至就是相同的。

第3章统计语言模型

第4章谈谈中文分词

中文分词以统计语言模型为基础。

第5章隐含马尔可夫模型

自然语言是人类交流信息的工具，语言和通信的联系是天然的，通信的本质就是一个编解码和传输的过程。但是自然语言处理早期的努力都集中在语法、语义和知识表述上，离通信的原理越走越远，而这样离答案也就越来越远。当自然语言处理的问题回归到通信系统中的解码问题时，很多难题都迎刃而解了。
发送者（信息，上下文） –> (s1,s2,s3…)编码—>传递的信息(信道)—>(o1,o2,o3…)解码 —>接收者（接收的信息）
马尔可夫模型和几乎素有的机器学习的模型工具一样，它需要一个训练算法（鲍姆-韦尔奇算法）和使用时的解码算法（维特比算法），掌握了这两类算法，基本上可以使用隐含马尔可夫模型这个工具了。

第6章信息的度量和作用

信息熵：一条信息的信息量和它的不确定性有着直接的关系。
条件熵
信息的作用在于消除不确定性，自然语言处理的大量问题就是找相关的信息。
互信息
信息熵不仅是信息的量化度量，而且是整个信息论的基础。它对于通信、数据压缩、自然语言处理都有很强的直到意义。信息熵的物理含义是对一个信息系统不确定性的度量，在这一点上，它和热力学中熵的概念相同，因为后者是对于一个系统无序的度量。这说明科学熵很多看似不同的学科之间也会有很强的相似性。

第7章贾里尼克和现在语言处理

第8章简单之美–布尔代数和搜索引擎的索引

下载、索引、排序组成搜索服务。
发觉真理在形式上从来是简单的，而不是复杂和含混的。

第9章图论和网络爬虫

图论：遍历算法，1 深入优先 2 广度优先
网络爬虫：1 首先考虑是BFS 还是 DFS？结论是BFS。 2 页面的分析和URL的提取。3 记录哪些网页已经下载过的小本本–URL表。 4 如何解决存储哈希表的服务器的通信瓶颈？两个好办法：a 首先明确每台下载服务器的分工，也就是说在调度时一看到某个URL 就直到要交给哪台服务器去下载，这样就避免了很多服务器对同一个URL做出是否需要下载的判断。然后在明确分工的基础上，判断URL是否下载就可以批处理了，比如每次向哈希表（一组独立的服务器）发送一大批询问，或者每次更新一大批哈希表的内容，这样通信的次数就大大减少了。

第10章 PageRank — Google的民主表决式网页排名技术

网页的质量信息。网页的相关性信息。
PageRank算法的原理：如果一个网页被很多其他网页所链接，说明它收到普遍的承认和信赖，那么它的排名就高。这就是PageRank的核心思想。
网页排名高的网站贡献的连接权重大。

第11章如何确定网页和查询的相关性

质量网页和查询的相关性，有个简单的方法，就是直接使用各个关键词在网页中出现的总词频。
汉语中需要对每个词对应一个权重，这个权重的设定必须满足以下两个条件。
1. 一个词预测主题的能力越强，权重越大，反之，权重越小。在网页中看到“原子能”这个词，或多或少能了解网页的主题，而看到”应用一词，则对主题基本上还是一无所知。因此，“原子能”的权重就应该比“应用”大。
2. 停止词的权重为0，比如“是”，“和”，“中”，“地”等。

第12章地图和本地搜索的最基本技术—有限状态机和动态规划

第13章 Google Ak-47的设计者–阿米特•辛格博士

第14章余弦定理和新闻的分类

第15章矩阵运算和文本处理中的两个分类问题

第16章信息指纹及其应用

第17章由电视机《暗算》所想到的–谈谈密码学的数学原理

第18章闪光的不一定是金子—谈谈索引引擎反作弊问题

第19章谈谈数学模型的重要性

第20章不要把鸡蛋放到一个篮子里–谈谈最大熵模型

第21章拼音输入法的数学模型

第22章自然语言处理的教父马库斯和他的优秀弟子们

第23章布隆过滤器

第24章马尔可夫链的扩展—贝叶斯网络

第25章条件随机场和句法分析

第26章维特比和他的维特比算法

第27章再谈文本自动分类问题—期望最大化算法

第28章逻辑回归和搜索广告

第29章各个击破算法和Google云计算的基础