数字、文字、自然语言 一样,都是信息的载体。
语言和数字的产生为的是同一个目的 :记录和传播信息。
1948年,香农提出信息论,人们才把 数学和语言 联系起来。
1. 信息
<img src="/images/nlp/history-info-1.jpg" width=“480” height=“400” align=“middle” /img>
人类最早利用 voice 进行 通信
<img src="/images/nlp/history-info-2.png" width=“650” height=“100” align=“middle” /img>
人类文明的进步,需要表达的信息量越来越多,人类发明的自然语言
语言的出现是为了人类之间的通信。字母、文字、数字 是信息编码的不同单位。任何一种语言都是一种编码方式,语言的语法规则是编解码的算法。
2. 文字和数字
当语言和词汇多到一定程度,人类大脑记不住所有词汇,高效记录信息的形式出现,人类便发明了 文字
文字
古埃及,读音相同的词用同一个符号来记录。
文字按照聚类会带来歧义性,弄不清多义字在特定环境的含义,就要依靠上下文。
不同的文明,由于地域原因,历史上互相隔绝,便会有不同的文字。文明的融合与冲突,不同文明下的人们进行交流(通信),那么翻译的需求便产生了。不同的文字系统在记录信息上的能力是等价的。
罗塞塔 Rosetta Stone 石碑 [古埃及象形文字、埃及拼音文字、古希腊文] 的破译对于 NLP 学者的两点指导意义 :
- 信息的冗余是信息安全的保障
- 语言的数据,我们称之为 语料
Rosetta Stone, Google推出的翻译软件
数字
祖先需要记录物件的个数越来越多,所以开始发明了计数系统,也就有了 数字。因为 10 个手指头,所以发明了 10 进制。
描述数字最有效的是 古印度人,他们发明了 10个 阿拉伯数字。数字的革命性在于它的简单有效,而且 标志着数字和文字的分离。这在客观上让 自然语言的研究 和 数学的研究 在几千年里没有重合的轨迹。
3. 文字和语言背后的数学
从 象形文字
到 拼音文字
是一个飞跃,描述物体方式上,从外表进化到了抽象的概念,同时不自觉的采用了对 信息的编码。同时祖先对文字的编码还非常合理,常用字短,生僻字长。这完全符合信息论中的 最短编码理论。
这种文字设计(其实是一种编码方法)带来的好处是写起来省时间、省材料。
公元前26世纪,约4700年前,出现了楔形文字(一种拼音文字)
在古代,在造纸术发明之前,人们说话还是类似白话文,文字书写要刻在 龟壳、石碑、竹简 等上,很费时间和材料,所以惜墨如金,使得古文非常简洁。
类比信息科学 :
- 通信时: 如果信道较宽,信息不必压缩,可直接传递;
- 通信时: 如果信道较窄,信息在传递前需要尽可能压缩,然后在接收端进行解压缩。
词语
: 是有限和封闭的集合 (其实可设置完备的编码规则)
语言
: 是无限和开放的集合 (不可以设置完备的编码规则)
任何语言的都有语法规则覆盖不到的地方,这些不精确性,也造就了语言的丰富多彩。
4. 小结
了解 文字、数字、语言 的历史
- 通信的原理和信息传播的模型
- (信源) 编码 和 最短编码
- 解码的规则 : 语法
- 聚类的概念
- 双语对照文本,语料库 和 机器翻译
- 多义性和利用上下文消除歧义性
Reference
- 《数学之美》 读书笔记
Checking if Disqus is accessible...