数学之美-读书笔记

第一章 文字和语言 vs 数字和信息
  • 文字只是信息的载体,而非信息本身,所以同一个信息,在中文或英文中表现不同,如果用其他载体比如数字也是可以表示同样的 意思,这就是现代通信的基础。
  • 信息的冗余是信息安全的保障,这对信道编码有直到意义。
  • 语言的数据,我们称之为语料,尤其是双语或者多语的对照语料对翻译至关重要,它是我们从事机器翻译研究的基础。
  • “罗赛塔”石碑
  • 总结
    1. 通信的原理和信息传播的模型
    2. (信源)编码和最短编码
    3. 解码的规则,语法
      • 聚类
      • 校验位
      • 双语对照文本,语料库和机器翻译
      • 多义性和利用上下文消除歧义性
第2章 自然语言处理–从规则到统计
  • 语言出现的目的是为了人类之间的通信,字母,文字和数字实际上是信息编码的不同单位,任何一种语言都是一种编码方式,而语言 的语法规则是编解码的算法。我们把一个要表达的意思,通过某种语言的一句话表达出来,就是用这种语言的编码方式对头脑 中的信息做了一次解码,编码的结果就是一串文字。而如果对方懂得这门语言,他就可以用这门语言的解码方式获得说话人要表达 的信息。这就是语言的数学本质?虽然传递信息是动物也能做到,但是利用语言来传递信息是人类的特质。
  • 基于统计的自然语言处理方法,在数学模型上和通信是相通的,甚至就是相同的。
第3章 统计语言模型
第4章 谈谈中文分词
  • 中文分词以统计语言模型为基础。
第5章 隐含马尔可夫模型
  • 自然语言是人类交流信息的工具,语言和通信的联系是天然的,通信的本质就是一个编解码和传输的过程。但是自然语言处理 早期的努力都集中在语法、语义和知识表述上,离通信的原理越走越远,而这样离答案也就越来越远。当自然语言处理的问题回归到通信系统中的解码问题时,很多难题都迎刃而解了。
  • 发送者(信息,上下文) –> (s1,s2,s3…)编码—>传递的信息(信道)—>(o1,o2,o3…)解码 —>接收者(接收的信息)
  • 马尔可夫模型和几乎素有的机器学习的模型工具一样,它需要一个训练算法(鲍姆-韦尔奇算法)和使用时的解码算法(维特比算法) ,掌握了这两类算法,基本上可以使用隐含马尔可夫模型这个工具了。
第6章 信息的度量和作用
  • 信息熵:一条信息的信息量和它的不确定性有着直接的关系。
  • 条件熵
  • 信息的作用在于消除不确定性,自然语言处理的大量问题就是找相关的信息。
  • 互信息
  • 信息熵不仅是信息的量化度量,而且是整个信息论的基础。它对于通信、数据压缩、自然语言处理都有很强的直到意义。信息熵的物理含义是对一个信息系统不确定性的度量,在这一点上,它和热力学中熵的概念相同,因为后者是对于一个系统无序的度量。这说明科学熵很多看似不同的学科之间也会有很强的相似性。
第7章 贾里尼克和现在语言处理
第8章 简单之美–布尔代数和搜索引擎的索引
  • 下载、索引、排序组成搜索服务。
  • 发觉真理在形式上从来是简单的,而不是复杂和含混的。
第9章 图论和网络爬虫
  • 图论:遍历算法,1 深入优先 2 广度优先
  • 网络爬虫:1 首先考虑是BFS 还是 DFS?结论是BFS。 2 页面的分析和URL的提取。3 记录哪些网页已经下载过的小本本–URL表。 4 如何解决存储哈希表的服务器的通信瓶颈?两个好办法:a 首先明确每台下载服务器的分工,也就是说在调度时一看到某个URL 就直到要交给哪台服务器去下载,这样就避免了很多服务器对同一个URL做出是否需要下载的判断。然后在明确分工的基础上, 判断URL是否下载就可以批处理了,比如每次向哈希表(一组独立的服务器)发送一大批询问,或者每次更新一大批哈希表的内容,这样通信的次数就大大减少了。
第10章 PageRank — Google的民主表决式网页排名技术
  • 网页的质量信息。网页的相关性信息。
  • PageRank算法的原理:如果一个网页被很多其他网页所链接,说明它收到普遍的承认和信赖,那么它的排名就高。这就是PageRank的核心思想。
  • 网页排名高的网站贡献的连接权重大。
第11章 如何确定网页和查询的相关性
  • 质量网页和查询的相关性,有个简单的方法,就是直接使用各个关键词在网页中出现的总词频。
  • 汉语中需要对每个词对应一个权重,这个权重的设定必须满足以下两个条件。
    1. 一个词预测主题的能力越强,权重越大,反之,权重越小。在网页中看到“原子能”这个词,或多或少能了解网页的主题,而看到”应用一词,则对主题基本上还是一无所知。因此,“原子能”的权重就应该比“应用”大。
    2. 停止词的权重为0,比如“是”,“和”,“中”,“地”等。
第12章 地图和本地搜索的最基本技术—有限状态机和动态规划
第13章 Google Ak-47的设计者–阿米特•辛格博士
第14章 余弦定理和新闻的分类
第15章 矩阵运算和文本处理中的两个分类问题
第16章 信息指纹及其应用
第17章 由电视机《暗算》所想到的–谈谈密码学的数学原理
第18章 闪光的不一定是金子—谈谈索引引擎反作弊问题
第19章 谈谈数学模型的重要性
第20章 不要把鸡蛋放到一个篮子里–谈谈最大熵模型
第21章 拼音输入法的数学模型
第22章 自然语言处理的教父马库斯和他的优秀弟子们
第23章 布隆过滤器
第24章 马尔可夫链的扩展—贝叶斯网络
第25章 条件随机场和句法分析
第26章 维特比和他的维特比算法
第27章 再谈文本自动分类问题—期望最大化算法
第28章 逻辑回归和搜索广告
第29章 各个击破算法和Google云计算的基础