第7章 字的战争

上一章 目录 下一章
韩庶最近很无聊,实在是无聊,每天不是陪着林琳做一些小学习题,就是被老师抓壮丁去批作业。俗话说:那里有压迫那里就有反抗,还有俗话说:不在沉默中爆发就在沉默中灭亡,所以,韩庶显然是不甘心灭亡的,再所以韩庶为此抗议过不止一回,可是每次的爆发都换来的是更大的压迫。
比如上次关于林琳小姐压迫韩庶同志,硬要韩庶讲解四年级的繁分数。“拜托现在才是三年级,又不是所有的孩子都像韩庶一样是灵魂偷渡者,你林琳瞎起劲个什么阿?你的时间还多着呢。你又不是21世纪的超人小学生,家长恨不得10岁的孩子精通6国语言外加琴棋书画还要加上一个跳舞和电脑,竞争的激烈性堪比拳王争霸赛。”韩庶当时心里嘀咕着:“你不就是一个傻丫头么,你是生在新中国长在红旗下的新一代。又不是旧社会的包身工,那么买力干什么?”总体来说现在的小学生还是幸福的,至少一天的大半时间还是在阳光下度过的,不像21世纪的小学生整天几乎是在铁窗和小黑屋(韩宸曰:当然光线还是充足地,不过有一块黑忽忽的板子,不是小黑屋是什么?)中度过的。
下面是一段关于林琳和韩庶的典型对话:
“苗苗,这个分母为什么要减少一半呀?”林琳问。
“因为分子是2的倍数所以可以和分母共同除2也就是和分母共同减少一半。”韩庶耐心的解释着。
“那苗苗,分子是6为什么不除三呢?”林琳继续化妆好奇宝宝。
“因为分母不是3的倍数,分子和分母要有公约数才可以约分的。”韩庶继续作着业余优秀教师的姿态。
“苗苗,什么是公约数?”
“公约数就是……”
………讲解中………
“苗苗,什么……”
………讲解中………
“苗苗,为什么……”
………讲解中………
“苗苗,怎么……”
………讲解中………
“苗苗,你好厉害哦!都没有不懂的东西,比李老师还要厉害,明天你还要教我语文。”林琳满眼细碎的星星。
“……”韩庶一副苦瓜脸对之。
“怎么你不愿意?”林琳有些不满的嚷嚷着。
“你就按照学校里教的学不就行了?”韩庶有些无力的作着说服工作。
“才不,你不答应我就告何秀妈妈去。”林琳不乐意了厥着小嘴儿,威胁着韩庶同学。
“爱告状的小鬼,告我妈也不行。”
………
半日后,在妈妈的办公室。
“我来问你。”何秀妈妈一只手揪着韩庶的耳朵,一只手扠腰,做茶壶状,威风凛凛的拷问着韩庶。
“哎哟!哎哟!疼!妈妈轻点儿。”痛的韩庶韩庶的小脸儿都皱成了一团,韩庶赶紧求饶。
“想轻点儿?那你说,你上午是不是欺负林琳了?”何秀妈妈不依不饶。
“没有没有!绝对没有,妈妈我保证绝对没有。我怎么敢呢。”韩庶歪着脖子踮着脚尖儿,努力的将那只受苦的耳朵送货上门,减少着产品实际与客户需求之间的距离。
“还敢说谎,没有欺负林琳,人家怎么会哭了一个中午的?肯定是你欺负人家了!”何秀妈妈武断的下了定语。
“哎唷,妈妈,轻点,轻点,向**保证,我绝对没有欺负林琳。”韩庶忍着疼,微微的正了正脑袋,举起一只拳头,一本正经作小大人状,发誓保证。
“还不老实?林琳都交代了。你是不是说人家笨,不肯教人家?”何秀手中微微用力,作顺时针圆周运动。
“……”韩庶张了张嘴,想辩解,又没发出声儿,片刻“吱”的一声,咽了口气儿,瞪大了眼睛,做目瞪口呆状。这一下韩庶彻底是哑巴吃黄连,没想到那个小丫头狡猾狡猾地,不肯教学是韩庶说的,可韩庶没有骂过她笨啊?可就算韩庶说出来,也没有人肯信的,因为那么一句话是多么的顺溜啊!?一般的孩子肯定会这么说的。“说慌说到这个份上也算是大师级的谎话了,一比当年的韦小宝韦爵爷也就是金牌和银牌,那个叫什么,对就是伯仲之间了。”把韩庶给堵的,连心理话都说不利索了。
“说慌的丫头流一辈子鼻涕,说慌的丫头流一辈子鼻涕……”韩庶在心里恶狠狠的诅咒着那个狡猾的黄毛丫头。
“没话说了吧,还狡辩,林琳人家多好的一个小姑娘,你欺负了人家,人家还帮你遮掩,要不是你红钰姐姐细心都问不出来。”何秀苦口婆心的教育着韩庶。
“何姐,苗苗还小,没事的,知错能改就是好孩子。”转过头正气凛然的对着韩庶道:“苗苗只要你诚心向林琳道歉,我向她一定会原谅你的,当然教教人家也是诚心道歉的一种表现。苗苗你说是吧?”尽管红钰姐姐说的正气凛然,可不知道是否是心理原因,韩庶总是在红钰姐姐的眼中发现了那一丝狡猾的笑意。怎么看眼前的这位小狐狸精都有点像老北京那些做古董赝品生意中的“托儿”。
看了看眼前有些得意的狐狸,韩庶感觉着后槽牙有些痒痒,鼓了鼓腮帮子。忽然韩庶一个哆嗦,转过头看了看何秀妈妈,见到一双审视的双眼时,韩庶瞬间泄了气,整个人都蔫了下去,搭拉着个脑袋有气无力的道:“好吧,我教还不行么…”
当天下午关于这个问题,韩庶同学向当事人林琳同学再次提出严正交涉,结果是每次都是面对无辜的大眼睛散发着纯洁又崇拜的目光,外加一脸坚毅,立志改行做人肉板《十万个为什么》的林琳。
也再次向妈妈提出过抗议,可是妈妈只一句话就把韩庶给打败了。
韩宸惟妙惟肖的学着妈妈当时的口气说到:“谁让林琳是我家内定的小媳妇呢,唉,娘这也是没办法呀,谁让你爹当年一糊涂就这么定下来了呢?不过儿子你也不吃亏,看着林小丫头那是越长越俊阿。”韩宸一边摇着头做小大人状,一边向隔壁的小妹妹诽谤着自己的哥哥。
韩庶满头黑线,彻底残念无语中……。
韩庶眼见着自己简单的反抗无效,不得已之下只好寻求着更隐蔽更间接的办法,左思右想之后,韩庶觉着与其这样和一帮小学生耗着还不如找些正事来做,韩庶板着手指头数了所有现在可以做的事情之后,下了定论:“看样子硬件现在是没有办法搞了,只能从软件上入手。”
想到软件韩庶就想起了后来的中国软件的悲惨境地,整个软件行业就剩了财务软件和软件外包业务。而且外包的还不是什么技术活,几乎就是一些软件中常规的的函数模块,只耗人力没有一点技术,而比较核心的部分比如数据库的引擎,3D引擎,智能模块,加解密的核心算法,等等反正只要是比较有技术含量的部分中国的软件人几乎都没有机会参加。当然21世纪中国的软件市场是丰富的不乏高科技的软件,可是中国人就只能用不能造,为什么?因为软件的所有标准几乎都是握在美国人的手里,比如最常见的WIN32API,再比如C语言标准库,JAVA标准,COM、DCOM、HTTP、ActiveX、TCP/IP……反正只要是计算机软件标准就没有一个是中国人参加制定的,就连现在的计算机汉字编码大部分用的都不是中国人自己制定的标准。
而这一切都是因为汉字并不适合于用于计算机,尤其是早期计算机。因为汉字的单字数量巨大,单单是常用字就有将近7000个,而要是是一般的表达不出现问题要用到将近20000个汉字,这样要表达一个汉字就要用到16个二进位,也就是两个字节,而西方语言几乎都是字母型的,准确的表达所有字母只要1个字节就足够了。而早期计算机内存小比,如前世韩庶在92年用的386PC机上只有256K字节(256*1024字节),而一个最最小的PC计算机程序也要占有数K字节。所以早期的计算机几乎每一个字节都是宝贵的,而且汉字字形复杂一个比较粗糟的16点阵的汉字字形库要占用16*16/8也就是32个字节,而整个汉字库就有7000*32也就是将近200K字节的汉字库,而这在早期计算机几乎是不可想象的。整台计算机的90%的内存资源用于毫无意义的字型库,还不如直接用英语这样的拼音语言来的合适。但是并不是说汉语就绝对没有优势,如果是大篇幅的文章表述用汉语来表述就好很多,一般英语单词要用平均6~10个字母表示(6~10字节),而汉语一般一个词语就是两个到三个字(4~6字节),而且英语语法中有很多没有直接意义的介词、动词、副词等等这在汉语里通通的没有,所以如果篇幅较大汉语还是有很大的优势的。
另一个影响汉语在计算机中应用的重要原因就是:汉语不是拼音语言,不能从键盘直接输入,而早期的计算机没有一种好的输入方法,韩庶还记得在前世读大学时,还在用没有任何联想功能的全拼输入法。而比较快速的输入法就只有电报码输入法和区位输入法了,而这两种输入法的输入规律和汉字本身的规律几乎没有任何关系,一个是直接用电报发报使用的电报码,另一种就是直接将计算机内使用的汉字编码用键盘以数字的形式输入。两种输入法都是直接用数字来输入的,可想而知当时的汉字输入是如何困难的了,当然如果这两种输入法如果会用倒是输入的很快。而早期的拼音输入法没有词组联想功能,没有字频调整功能,没有智能判断功能,没有整句输入,每一个字几乎都要翻页寻找,可想而知拼音输入法当时的输入效率是如何的低下了,一分钟输入10个字已经是熟练的输入者了。

作为一个“后来者”韩庶知道汉字输入法和汉字字库的重要性,几乎就是关系到汉语在计算机中应用的‘一切’根源。而当前的形式是汉字的字形库几乎没有(大概就只有在大中型机上使用的非通用的字形库),输入法几乎没有,连大名鼎鼎的GB编码都没有,韩庶印象中GB编码好像是82或者是83年由国标委定的(实际上是81年3月),而字形库好像是有的,就是不知道是16点阵的还是24点阵的,输入法是几乎没有的如果有的话可能也只有区位码和电报码。
韩庶思前想后觉得现在最重要的就是字形库和输入法。要解决这些问题首先得要有一个汉字编码,关于汉字GB编码韩庶还是有想法的,GB编码有很多缺点。首先就是字数太少早期的GB编码只定义了6763个汉字。韩庶就有点搞不明白了,同样是两个字节为什么就只定义6763个汉字?两个字节共可以表述65500个不同的状态,也就是理论上可以定义65500个汉字,可是英语定义了英语字符(ASCII编码)占用了一个最高位也就是说占用掉了一半,还有32000多个位,去除一些保留位,和用户定义汉字用位应该还有将近30000个汉字位,但是国标委就只定义了6763个汉字,这些汉字表述一些平常的语言是够用了,可是在一些专用的领域就远远不够了,比如户籍登录、地图地名、历史文档等等专业领域都有一些生僻字,而如此少的汉字定义显然影响了计算机在各行各业中的应用,也间接的造成了一些领域用拼音或英语来代替汉字,就比如化学元素就有一些生僻字在GB码中无法找到,还有一些姓氏也在GB码中无法找到,令韩庶感到屈辱的是连一些中国的地名都要用拼音(英语)来表示,而同样汉字编码港台地区的GIB5就定义了13053个汉字。
对GB码韩庶有些无奈,因为GB码是国家标准韩庶他能编程序能做软件再牛一点能造一台计算机,但韩庶总不能造一个国家标准吧?“如果我先做一个汉字编码然后发表不知道会不会影响到GB码的颁发?”韩庶如是想到。想来想去韩庶决定还是先下手为强,现在GB码还没有颁发,如果趁着GB码颁发之前先搞一套出来不知道会怎样,不管如何总比没有的好。
逻辑陷入一个死循环,中国的计算机行业要和美国竞争,就必须用汉语来代替英语在计算机中的应用。要汉语在计算机中超过英语就必须中国的计算机行业超过美国(你总不能希望美国人用汉语来开发计算机吧?)。
还好韩庶的印象中韩国日本在后世都是可以和美国在某一方面一角高下的对手。还好老祖宗留给我们一笔丰厚的遗产,而从文化上来说,韩国日本都是汉字文化圈,和英语没有多少关系,特别是日本更是使用汉字的字数甚至不比中国少了多少如果能将韩国日本拉入盟友的行列,再和美国比拼竞争力就要大得多。
关于如何拉拢日韩港台,韩庶有自己的想法,后世的Unicode字符集就是一个很好的范本。如果由国家出面来组织显然是不行的,首先就是一个政治问题,日本还有一定的可能性撇去不谈,首先韩国还没有和中国建交,80年时中国还不承认韩国的合法地位,台湾是中国大陆的敌对政治体,而香港一向和台湾走的比较近,和大陆没有太多和关系。如果用国家标准从政治上考虑难度不小,所以最好是用一套民间的标准将来使用的范围扩大之后,可以慢慢的成为一种国际标准。但是前世的Unicode标准是由国际标准组织从中协调由多个国家共同组建制定的,韩庶显然没有这样的能力。
想来想去韩庶觉得再结合当年的GBK编码的方法可能更好一点,也更灵活更开放。
先将英语字母、标点符号、汉字拼音字母(全角字符)、各种图形符号、港台地区的汉字注音字符、日本假名字符、韩国朝鲜文字符……等等定义成一个大的子集称为《字符集》,然后将其中某种语言的字符定义成一种小的子集,而各种语言的常用字符最多不超过255个,每种语言的字符由使用这种语言的本国提出编码。
然后将常用的各种汉字或其他非字母字符组成一个大的子集称为《大字集》,在这个子集中预先定义了常用的汉字2级子集,然后由各国提出本国使用的非字母字符的子集,然后由其中的相同部分组成一个常用扩展2级子集,而其中不相同的部分组成各个国家自己的2级子集,最后加上一个用户自定义字的2级子集组成。
首先是《字符集》中的各种字符,这个简单只要照抄美国国家标准(ASCII编码)和IBM-PC定义的扩展ASCII编码,作为《字符集》中的第一个子集《英语字母子集》。而汉语拼音也可以用《英语字母子集》稍微改动就可以了,而日本假名也很简单,还有朝鲜文字母,汉语注音都比较简单只时需要预先定义一下每个子集留出256个位就可以了。
然后汉字的《大字集》就比较麻烦了,首先要定义常用字2级子级,由于现在没有各个国家的常用字作为标准,韩庶左思右想就只好将新华字典中的汉字作为《常用字2级子集》,然后用辞海中的汉字作为《扩展字2级子集》,如果要港、台、日本、韩国都承认这种定义方法看来还要进行多次的扩充。
回家的路上,韩庶一边走着一边板着手指头一一数来:
新华字典家里就有,可是辞海就不是韩庶家里所有的了,估计整个新疆也没有几套。
“妈的,辞海要买,还要邮寄,估计得好几十块甚至可能要上百元。让我到哪里去弄钱去?”韩庶狠狠的踢飞一块小石子,不满的咕囔着:“天啊,老爸现在的工资才四十多元一个月,让我到哪里去弄这100多块钱去啊!”
“新华字典中的汉字要好几千个,甚至有可能要上万,全部要排在一个表里这个工作量还是不小的。~不过好像有免费劳动力可以使用,小丫头,终于可以给你一个光荣的任务了,嘿嘿……”韩庶自言自语,想到了那个不死不休的丫头恶棍,越想与得意不由得邪恶的笑着。
“不过得要找个好一点的办法,不然那个丫头小恶棍可能不会乖乖的就犯。~~怎么办呢?”
韩庶一路琢磨,想到得意处不由得“嘿嘿”奸笑出声。
夕阳下,两行整齐的杨树散发着金黄色的毫光,笔直的土路也似浮动着金沙,韩庶佝偻着幼小的身躯,压抑的奸笑着,在夕阳下还能看见韩庶那微微的颤抖着有些萎琐的身影。
等韩庶回到家,第一件事就是翻出书橱里的新华字典,翻开说明一看,果不其然一万一千一百多字。
韩庶咬着嘴里的铅笔微微叹息道:“看来工作量不少啊!”
“但是我会怕么?”
“当然不会。”韩庶自言自语。
“为什么?”韩庶继续臆语着。
“因为我有免费的劳工啊!?”韩庶自言自语,还故作惊奇,得意的伸了个懒腰,将脚翘到写字台上,双手抱着后脑勺,不由得舒服的哼哼了两声,韩庶完全的沉浸在了YY的幻境之中。
YY了好一片刻,这才回过神来,继续板着手指头数:
“光有汉字编码还不行,要字形库。”韩庶一边在纸上写着一边自言自语。
“一万一千字要做字形库好大的工作量,光靠小丫头一个免费奴隶是不行的,还要发动全班,全校的小学生一起来才行,可是怎么才能让全校的学生一起来干这件事呢?”
“看样子还是要用钱来帮忙,在学校发布任务,五画以下的字就让林琳来,五画以上的字,多余出来的笔画每多两画一分钱。然后校对一分钱,二次校对一分钱,三次校对一分钱,纸张表格一分钱。”韩庶沉思着。“以平均12画来算,每字8分钱,一万一千字就是880元,还有一些其他开销就是将近1000元!”
“嗷!!”韩庶惨嚎一声“一千多块,天啊让我死吧一千块,老妈一个月的工资才36块,这要多少个月?”
“为了不被那个可恶的丫头奴役,值!”
“输入法的词组更是花钱的大户。就以每字平均四个常用词,每个词平均两个字来算,就要将近2万个词,以每个词1分钱来算就是200元。”
“为了不被那个可恶的丫头奴役,值!”
“然后输入法中拆字……”
“为了不被那个可恶的丫头奴役,值!”
“还有……”
“为了不被那个可恶的丫头奴役,值!”
……
韩庶用伟大文豪鲁迅先生为啊Q先生发明的精神胜利法,一遍一遍的鼓励着自己。
韩庶直到现在才觉得钱的伟大,正应了前世的一句哲言《钱不是万能的,但!没钱是万万不能的。》
韩庶不由得觉得一阵胸闷,仿佛就像自己整个人都掉到钱眼中去了似的……
★PS:这一章写的很是枯燥,尤其是当中的关于字库的那一段,简直就像是字库的说明文档。但是作者也很无奈,因为不这样写就有些说不清楚,敬请读者原谅,如果您没有读懂也不要紧,您就当是这个文字编码是很重要的一种电脑软件标准。
书书网手机版 m.1pwx.com