《信息简史》读书笔记
前言
本文以Q&A的形式展开,question来源于笔者学校开设的《信息简史》导读课。笔者从中挑了一些有意思的问题集合成笔记。
第一章
Q:为什么“鼓语”中要引入如此多的“冗余”(反复用不同的鼓点描述同一个字、词或者句子)?在你平常的对话中是否也用到这种冗余?
A:非洲的鼓语仅使用音调作为音素,而非洲的口语还有元音、辅音等其他音素。因此,将口语映射到鼓语的过程中,不可避免地会丢失信息。为了弥补辅音与元音的缺失,必须要对同一个字、词等进行更充分的描述,以此消除歧义。这就是引入冗余的原因。
在我平常的对话中,也会引入这样的冗余。中文中有许多一词多义、同音词等的现象。引入“冗余”可以使交流更精确。
Q:为了描述一个事物或者说明一件事情,使用“鼓语”的方法是否方便?与中文(对话或者文字)相比呢?中文与英文相比呢?
A:并不方便。根据拉尔夫哈特利的计算公式$H=nlogs$,在同样信息量的前提下,可用符号总数越少,使用的符号数就越多。鼓语的音素只有音调,可用符号数极少,就必须要使用大量的符号(也就是冗余)。就信息密度来看:中文的信息密度是最高的,其次是英文(在进行文字的书写时能非常直观的感受到英文不如中文效率高),最后才是鼓语。
Q:这些非洲部落成员通过鼓语传递信息,传递的信息量与鼓语中的哪些“物理参数”(如敲击速度、时长、音调等等)有关?
A:音调是最重要的物理参数。
Q:能否通过这一章的内容简单提出你心目中“信息”的直观解释?并考虑它应该怎样量化?
A:信息是用于描述、解释的内容。如果要对其进行量化,定性的来讲,一个描述越具体,那么它对应的信息量就越大。我们可以将一个描述拆成若干个不同于彼此的原子命题,用最终命题的数量来定义信息量。
第二章
Q:原书(中文版)第38页关于“白马非马”的论述,你对此持什么看法?论战双方是否都一些道理?
A:“非”这个字本身就很有意思。“非”可以表示对于种属关系的否定:例如,“我非美国人”,这句话表明:“我”作为一个“种”,是被排除在“美国人”这一属之外的;“非”还可以表示对于全同关系的否定:这里所强调的是,两个概念的内涵与外延并非完全相同。站在第一种视角上理解:白马当然是马的一种,所以这个命题是错的。站在第二种视角上理解:白马与马的概念并不完全相同,所以这个命题是对的。
Q:假如你只身前往到一个存在文明的新的星球,那里有你从未见过的文字、从未了解的语言(假如你还可以用你的感官感受到的话),你应该如何应对?
A:这个问题让我想到了一款游戏:《巴别塔圣歌》。在《圣经》中,诺亚时代的洪水退去后,天下人都讲一样的语言。人们担心会再有洪水产生(尽管上帝承诺不会再有洪水产生),于是开始修建巴别塔。上帝发现自己的承诺受到了人们的质疑,决定对人类进行惩罚,并且阻止他们继续建塔。他改变并区别开了人类的语言,建塔的事情也就半途而废了。在《巴别塔圣歌》这款游戏中,我们也身处一个陌生的世界,人们说的是陌生的语言。但我们能在与他们的交互中,不断去了解这些语言的含义。从最简单的“日”“月”“门”这些实物开始,到后来越来越抽象的文字。通过对当地人言行的观察可以帮助我们逐步推断出各种文字的含义。
第三章
Q:你认为如果在一千年之前有“汉语字典”(非《尔雅》这样的归类释义典籍),它应当如何安排方便检索的词汇顺序?
A:一是可以通过汉字书写的笔画顺序进行排列,但这要求使用者会写这个字。二是可以通过注音的顺序进行排列,在1000年前,纽四声法、反切法等较为规范的注音顺序已经出现,利用相应的注音发可以对词汇进行排列。
Q:面对快速更新的汹涌澎湃的网络词汇和语言,类似《牛津英文词典》这样的传统词典编纂方式应如何应对?
A:等待到这些新的网络词汇和语言它们的用法、读音、含义完全固定下来后(可能不需要书中提到的5年)再结合政治、社会因素、使用频率考虑具体要不要收录这些词汇。
Q:你是如何面对基于互联网的“信息爆炸”所带来的文字、语言或者文化上的冲击?
A:积极拥抱,取其精华去其糟粕。
Q:如果你曾经读过莎士比亚的原作,你可能会有很多文字上的牵绊,主要是里面涉及了不少“早期现代英语(early modern English)”的词汇和语法。如果你手头没有关于早起现代英语的字典和语法手册,如何尽可能多地理解原著?
A:在这样的情况下,结合前后语境理解是唯一有效的方法。
Q:本书第50页提到:“考德里生活在一个信息贫乏的时代。不过,即便他当时有这样的概念,他也可能不会这样想。相反,他可能觉得自己身处于一个信息爆炸的过程之中,……”。预测一下我们现在所处的“信息爆炸时代”会不会成为在未来人的眼中的“信息贫乏时代”?为什么?
A:我认为会出现这样的一种情况。首先,信息是需要介质进行存储与传输的。随着科技的不断发展,这些介质存储与传输信息的能力也将不断增长。其次,我们现在每天都在处理大量的信息,但其中只有一小部分真正地为人所。在未来,随着脑机接口等技术的发展,我们大脑处理信息的能力或许也能得到更大的提升,这会使我们从主观上认为我们面对的信息量在变得更大。除此之外,我们现在面对的许多信息载体的信息密度太低了,例如短视频,未来,如果信息密度能进一步提升,也会导致这种现象的产生。
Q:拉丁文或者其它基于字母表的字典可以通过“层层递归”(p. 55)的方式将所载词汇有序地扩展到任意规模(p. 56);而对于汉字这样的不基于字母表的文字和词汇,像《新华字典》、《现代汉语词典》这样的工具书给出了我们小学时就熟知的几种排序和检索方式。你认为这种方式是否完全合理?如果不是,可以进行哪样的改进?
A:我认为这样的检索方式是比较合理的。我们查字典时往往是六种情况:知道读音查找意思;知道读音查找写法;知道写法查找意思;知道写法查找读音;知道意思查找写法;知道意思查找读音。《新华字典》等字典可以满足前四种需求,但无法满足最后两种。而纸质字典几乎无法满足最后两种需求,因为这两种需求所对应的信息量是远超前两种的。但是AI与搜索引擎的发展可以较好的满足这两种需要。
第四章
Q:在 p.80 中提到,有⼈(Élie de Joncourt)甚⾄出版了⼀本通篇只有数字的书,列出了全部前19,999 个三⻆形数。这种今天看似匪夷所思的书在当时为什么会得以出版?⽽今天为何不再会以⼈们得以⼴泛认同的⽅式发⾏这种数表?是什么促成了这种变化?
A:从当时的人类思考水平和经济发展程度来看,临时计算数据不如从书中查检这些数据来的更方便,预先计算和数据存储与传输的成本要小于临时计算的成本。这就导致这些书有“用武之地”。但如今,人类的数学水平大幅提高,许多原先杂乱无章的数据现在都被归纳为一个简便易于计算的式子;一些辅助计算工具如计算器、计算机等的发明也使得计算更为方便。计算机还使得数据的存储与传输更便捷,也就有了电子书等形式的出现。这些均导致这样的书籍逐渐不再有被发表的机会。
Q:巴⻉奇考虑,“使⽤语⾔来思考语⾔往往导致困境和悖论”,你认为这是为什么?
A:语言是一种不够精确的工具。语言中存在着大量的一词多义现象。不同的语境下的词汇往往表示不同的含义。例如,“是”这个字在中文中既可以表示全同关系,如“能被2整除的数是偶数”;也可以表示种属关系,如“我是中国人”。因此,我们必须要有一套规范化得到严谨的语言来进行表达。
Q:你觉得算盘的计算能⼒与现代计算机的计算能⼒(注意不是计算速度⽽是可解决问题的范围)相⽐谁更强?——例如,能否使⽤算盘作为中央处理器(CPU,当然要辅助⼀些拨动算珠的机械装置)进⾏⽂字处理、即时通信、视频播放、玩“王者荣耀”
等?
A:就可解决得到范围而言,计算机的计算能力会更强一些。相比于算盘,计算机有一个很重要的运算能力——逻辑判断,但传统的算盘无此功能,仅仅只能进行计算。