`
davidxiaozhi
  • 浏览: 236691 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

自然语言处理--信息模型

阅读更多

今天拜读了数学之美的第一章,例举的例子感觉真是浅显易懂,这里不禁要对吴军老师的写作功底拜服,下面谈谈对信息模型的理解,数字、文字和语言作为信息的载体,他们的目的都是记录和传播信息,就像我们的老祖先一样乌拉乌拉几句,对方就明白了,你丫的骂我,拿起石头就扔过去了,其实他们的这种交流可以概括为

信息1--编码(也就是怪叫)---信息2(听到的声音)-----解码----信息1(得到原始信息),其实这就是一个简单的信息模型 信息1刚开始也就是我们的信息源 -- 信息2也就是声音可以看做信道,看到没我们的老祖先也懂得合理利用信息模型。

      当我们祖先的叫声种类和形式越来越多时,事情也越来越多时大家都记不住了怎么办,于是文字、数字变产生了,用来记录,大家抓的兔子越来越多,大家的money越来越多,怎么办,刚开始还可以数手指头,手指头数着数着不够了怎么办,聪明的现代人肯定会说脚趾头啊,说这句的人太聪明了,其实玛雅人就是这样的。于是大于10的怎么办,必须有一种形式啊,于是进制变产生了,笨笨的我们的祖先还有欧洲的祖先,不会用脚指头,于是便逢十进一 10进制变产生了,聪明的玛雅人知道脚趾头不够用了才想到进制,于是他们便是20进制,想想玛雅的孩子多苦,背诵一个乘法表19*19那就是一个围棋盘啊,而我们只需要九九乘法口诀就搞定一切了。看样子有时太聪明也是不好滴。但是在采取十进制的时候由于我们的祖先比较财富比较多,于是我们的十进制是采用乘法表示 例如 99999=9*10000+9*1000 +9*100+9*10 +9 那我们七个数字就可以表示一百万啊,当时作为先进的欧洲代表罗马人由于财富很少,但是在他们眼里那也是很有钱了,他们采用的是加减法表示也就是一个数字的值是10个数字的中选取几个数字的和或者差,  可想而知,他们要表示1百万那手得抽经了,但是由于他们过着茹毛饮血的生活 物质及其匮乏,他们就是这样坚持了几千年,认为加减法完全够了,知道后来工业革命后,有很多钱了有很多钞票了,这才发现写不过来,才发明了M在M上划线表示几万和几十万。 这里中国的个十百千兆 和罗马人的ⅠⅡⅢⅣⅤ都引入了朴素编码的概念,在中国编码规则是乘法,在罗马是加法,明显中国的比罗马的做法要高明很多,编码更有效。当我们的词汇越来越多时,多的我们记不住的时候产生新的词汇有点不合适了,于是古人便使用一个字或者一个词风别代表多个意思如

日 名词太阳、表示太阳东升西降也就是一天,还有就是骂人的意思了。于是概念的一次概括和归类就开始了,这种概念的聚类,在原理上与我们今天的自然语言处理或者机器学习的聚类有很大的相似性。

    古代人的在木有发明纸张以前,都是靠竹简,你想想老以前始皇帝皮奏折都是找人用筐来计量的,都是几筐几筐的,你想想大臣们刻几个字多么不容易,所以我觉得这也是中国文言文为什么流行的原因,精简、信息量大,类似于我们今天的电报,你父病危速归,也就是信息熵非常大,也就是可以通过简单几个字就明白全部意思。关于信息熵后面再扯。古人这么不容易,天天刻竹简,于是有人想偷懒,慢慢的把常用的字的笔画越来少,越来越好写,刚开始大家还不屑,你这孩子怎么能随便修改文字,那可是仓颉大圣创下的啊,慢慢的大家都绝得笔画少不错,也就是慢慢接受了,其实是手痛给累的。因此我们现在的汉字是常用的笔画很少很精简,容易写,那些生僻字 笔画多难写,这其实很符合最短编码原理(熟悉计算机的同学可能知道霍夫曼树),书写使用文言文,而我们日常确使用白话交流,这中现象和通信工程的原理又类似,信道宽,信息不必压缩,信道窄,则信息必须压缩,古人交流时信道宽,传输不费力,不用压缩直接白话文交流,而书写,想象 几箩筐竹简吧,还是压缩压缩少些几个字吧,这就需要古人把白话文压缩成当时能看懂的文言文,书写,阅读者在解压缩,看看我们的古人多么聪明,虽然他们不懂信息论。但是汉朝以后的大儒们对论语的解读确实各有各的看法,因此从这点看信息熵的大小也根据时代有关呢

 

欢迎喜欢深入了解推荐系统和mahout的兄弟加入群     推荐系统之Mahout  135918911

1
0
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics