中国语言文字论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

只需一步,快速开始

搜索
查看: 3039|回复: 3

●书同文字库与国际语建议●

[复制链接]

46

主题

237

帖子

980

积分

高级会员

Rank: 4

积分
980
发表于 2017-3-22 19:44:36 | 显示全部楼层 |阅读模式
纪念书同文会20周年会的南宁中易私塾建议草稿之二
                    ●书同文字库与国际语建议●
                            中易私塾稿(初稿于南宁)
                  1)  一简对多繁问题
                  2)  试倡加注体汉字库
                  3)  供加注体汉字便用的音码优选
                  4)  供加注体汉字便用的音形码优选
                  5)  书同文根本出路的国际语
        书同文研究会20年来已取得很大成绩,基本上已完成了书同文理论上的研究任务,分析归纳出了有问题一简对多繁的字表。该把这些理论成果普及应用到各实用领域中去。这里补充点建议探讨。
                     1)一简对多繁问题
        一简对多繁不必过分担心,简繁自动转换的误用不难用程序的完善解决。如没有“(發(发)廊、皇後”的习惯用法,各用一段条件判断报错自行修正的小子程序,不难解决。该大力宣传这正误字表,提请词库与输入法专业程序员,加进这些子程序,提高容错纠错的智能化程度,提高简繁自动转换的精准度。
       不必担心电脑不好解决简繁自动转换问题,早迟能进步改善。更关键的是简繁人工处理。只有在字典中加进简繁正误字表,加入到相关各字的释义中,加强民众对简繁正误的知识教育,内地提倡识繁写简,海外繁字区提倡识简写简。稍有简繁正误认识的人,一般不会误写的。
        另一个可能试探是观念上的容错扩展,如定义“发(發、髮)廊、皇後”是简字后出现的异体词,不一定要当错别字看待,只是字源上有过正误之分。图罗(国语罗马字)拼音化创制与倡导人之一的学贯中西的赵元任大师,晚年也认为汉字罗马化不行,改为搞通字方案,就容许两三千通字外的字,可用进同音字替代,把同音错别字升格为正体字。
        又如台湾教育部要教师把月旁肉旁分开的所谓正体字观,就可不必。戚老批评现代字把字源上的肉旁当正体批评为歪体,就是一种认同容错的发展观,不一定要拘束在历史上、字源上的某一体,可以作简化性新规范。
戚批台育字小.JPG
                 2)  试倡加注体汉字库
        还无网络与电邮的20 年前,书同文会黄山预会时前夕,我只能用邮票纸信寄上个手写草稿,谈到民间书同文可搞,因字体发展就曾有过民间行为成功范例。
         秦皇令李斯、赵高等丞相搞统一汉字范本秦彖,只能是等线体曲线以适应硬笔竹简曲面载体。蒙恬毛笔兴起后,竹简曲面两侧笔段便于加粗与中间凸部笔段协调,于是出现现蚕头雁尾的隶书,马上动摇了秦彖皇位。皂隶小吏搞的隶书迫使官方文字让位,古代汉字最大改革的隶变发生了。平面蔡侯纸代曲面竹简后,不必字两侧蚕头雁尾刻意做作,楷书成为主体。生产力与生产工具的书写工具与载体的进步,促使字体变革,连皇帝也无能为力左右。
        而今天,荧屏键盘取代了纸笔,打字取代了写字。字的笔画多几笔少几笔已不是问题,简化字或废汉字改用纯拼音的文改已失去原来那样大的意义。可以有原汉字与简字、拼音兼容的,以旧带新的复合体汉字。不需要废汉字而是请原汉字带数码化汉字面世。需要兼容新旧字且有便于查字打字信息的文字,不一定要消除原汉字。因旧字加些笔画就可能有便于认读和查字打字的信息,比汉字退位让给拼音可能更省事。因此中易私塾S码猜想 ,电脑时代可能需要与可能出现加注体汉字的新字体(聚珍体、聚书、拼音形声字)。
        如下图中就有“能”字的PC型加注字模拟表示,是加注的SP4型音码nw和首次尾C型码LDL组成的PC型音形码nwLDL。一见这加注字,由其下加注的音码nw,就知是HP型简拼“讷nw”快读拼出的nw音。由注的PCnwLDL,可知在PC字典nwL页的DL行可查到其字义。按nwldl这几键或nw键,就可在屏上打出该字。其中含有可代汉字用拼音化、数码化的PC型字母化的拼音形声字nwLDL。隐含的拼音简笔字,就是实线的笔画和可略去的虚线的笔画,十笔的“能”可略成只三笔的简笔字。
PC能字及两D表.JPG


回复

使用道具 举报

46

主题

237

帖子

980

积分

高级会员

Rank: 4

积分
980
 楼主| 发表于 2017-3-23 12:29:56 | 显示全部楼层
       上世纪80年代初,香港中国语文学会《汉字改革》赞助人,出版家的李业宏先生,认为汉字要拼音化,宜铸汉字注音铜模,还专门捐资赞助这事。庞大笨重的铜模成本极高,难以实现。而今天一个U盘或光盘,就可装进几十间屋的金属注音汉字的软字模。繁重车间技术活的铜模铅模造注音汉字库,今天不过是小菜一碟的桌面上键盘鼠标的操作。电脑字库界甚至宣称,人人造字库的时代已经到来,人人都可写(打)出颜柳欧苏字体、明星许静蕾字体和自我字体。
        把原方块汉字稍压扁些,上或下加注音或形码等,恢复原方块形。这种加注体汉字,便于与句中原其它汉字高矮一样,和谐的融合在一起。 用造字软件作出这种加注体汉字,按电脑字库字体文件ttf式保存,复制到有宋体、黑体字等的WINDOWS字库文件夹FONTS,各种打字码可以按需切换把它们从库中调出打字与打印,像现在各种码都可打出宋体、楷体、黑体、颜柳欧苏名家字体一样便用。
会计会.JPG    
        见到聚珍体汉字,无论是中国人或外国人,原来认识的汉字照样能认识,不认识的生字,可由其中注的拼音拼认读出,由其中注的音形码知哪页可查到字音字义,按哪几键可打出该字。手写当然可以略去加注部分只写原汉字,也可只写加注用的、无同码的与原汉字对应的音形码式拼音形声字,如上图下两行的聚珍体汉字模拟例。
        不会会计、人行道旁的银行与一简对多繁的书同文等汉字问题,有的可用加注有字音与字形首尾轮廓码的加注体字解决。如“汉、漢”都还不认识的才读完中易私塾学前班的学童,见了上图末行中的加注有中易私塾SCP3型的聚书体字,由其中加注的P3型音码h3,知是H64字简拼“核h、安3”快读拼出的音(相当于是汉语拼音方案“核han”拼)。由这音前的首次尾C型码,知CP字典中“汉”在sla h3行有它的字义,“漢”在sfa h3行可查到它。按sla h3这几键,就可打出“汉”字。按sfa h3这几键,就可打出“漢”字。
        在国标GB2312字表的近七千字中,han音节的同音字只有约30个,它们的首次尾C型码是:“含adoadvcficlidaodfxdlxfiffxifxvhaohdxkyxlfdljiofdpfdpdxplasfxslaslisxtvfdxdixdt
xdxxfdzcf”。
          可以看出,它们的首次尾C型码都不同码,所以它们的首次尾C型码与P型拼音组合的PC型音形码或CP码都不同码,可作为拼音化、数码化的新形声字代汉字用。它们的聚珍体字不会受到多大的反对,因不妨碍任何人识旧字或新字。小学一册语文几十年都是汉字加注拼音,无人反对已习以为常,发展出聚珍加注体字也可能易流通。
        推广加注体字,还可摸索出常用字通盘简化的体系。30多年前试行二简时,笔者曾上书文改会等,谈到一简是千百年形成较流行的俗字,二简是东减一笔西简一点的生造字,不如形旁系统简化,音旁系统简化造拼音简笔字(新形声字),该万言书被香港《语文建设通讯》1983年7月以篇名《通盘考虑汉字简化问题》摘登了半页。加注体PC字,就是这样一种试样。
        yuan音节为例,这音的P4型简拼是van,P3型简拼是v3。这音的同音字在近七千字的国标GB2312字表中约30个,它们的音码与S码C型首次尾码组合的PC型音形码或CP码,都不同码。因此解决了纯拼音同音字多的问题,是具有代汉字性能的拼音化、数码化的新形声字。这也说明常用六千字可能这样通盘简化,只写首次尾C型码部件加拼音,其余笔画或多于9笔的笔画,部分或全部可当过多冗余信息略去。下图中“鸳”字,就有S码C型首次尾轮廓拼音简笔字模拟例。
         广东造字库爱好者冯力网友,也有这创意。他先造出汉字中加拼音的半读体汉字,进而造出更少费猜的全读体汉字,如下图中右下角“鸳”字的冯力体与S码PC体例。
P4C元van加注体.JPG
         PC型加注字与PC轮廓拼音简笔字,本源立场不同,只形体有简繁主从区别联系。PC型加注字就是为了保护发展汉字的一种建议。PC轮廓拼音简笔字则是GJ语未盛行前万一需要的简化过渡考虑,是一种可能代汉字的文改设想。
        PC加注体不损原汉字一丝一亳,不妨碍已识字的中外民众用而不会受到现在已识字的人反对。小学一册课本几十年来一直是汉字加注音,已习以为常无人反对。一些研究者也有过这种不损原汉字一丝一亳又实现拼音化的文改设想,桂林语言文字学家潘山及公子潘山子仁,曾推出不易被理解的汉字兼拉方案,不动原汉字结构,只用点线与位置表示声韵母加在字空隙中。在我支持他的帖中曾解释这类似英语韦氏音标法,S码八卦区位码也用到类似英语韦氏音标法。S码虽然在网上发过八卦区位码帖,但认为八卦区位码不如加注PC码那样便于独立出来当拼音化、数码化的汉字用。
        PC轮廓拼音简笔字则不是为较长时期保护原汉字,而是为了能否早一点取代汉字实现拼音化与通盘简化汉字的设想。它绝不可能先 PC加注体被接受流行,因它比PC加注体费猜,费猜要新学习的汉改方案开头都会受到已识字的人反对不愿学用。只有在PC加注体长期被使用熟习后,才会从实用领域退居入博物馆珍展。能否出现试用PC轮廓拼音简笔字的发展,还难逆料。所以建议先试倡不损原汉字的加注体,再看有否用拼音简笔字或数码化PC字的可能。冯力体也属拼音简笔字,都有些费猜,也可能碰到SPC型简笔字当稀奇看的多,实用者稀或无,难被接受流行的问题。


回复 支持 反对

使用道具 举报

46

主题

237

帖子

980

积分

高级会员

Rank: 4

积分
980
 楼主| 发表于 2017-3-27 20:04:01 | 显示全部楼层
                  3)  供加注体汉字便用的音码优选
        不妨碍任何人识旧字或新字的聚珍体字,是用加注音形码原理,才既有读音规律又能区分开同音字。这就要求音形码能区分开常用6千字,码位不宜超过5-7位。原字就可作区分同音字的形意字素。如加注有中易私塾的H38H64字简拼的聚珍体字,就有这性能,是比汉语拼音方案简明得多的最简注音识字法。汉语拼音方案码长可达6位,若再加注形码区分,码位过长不便加注体汉字用,所以要优选码短又简明的音码。
        中易私塾的H38字简拼,因不学“玻ㄅ破ㄆ摸ㄇ佛ㄈ”只学“不扑木夫”,所以比注音字母的初学记忆量与难度小一倍。汉语拼音方案还要学多条加字母变字母的拼写变化规定,比注音字母难一倍以上,比H38字简拼难几倍。所以H38字简拼是最简注音识字入门法。如H38字简拼中,根据“核安”快读可拼出“汉、瀚”音,在如下的H38字汉字化键盘上按标有“核、安”(“核h、安3”)的两键,屏上就出现“汉、瀚”等字。
P3键盘汗字.jpg
        H38字简拼虽然比注音字母或汉语拼音方案还简明容易,但与它们一样,有的字可能碰到声介拼两拼与声介韵三拼的难点。1958年汉语拼音方案施行后,文改会汉语拼音处首任处长的老文改专家杜松寿,亲自到各地试教,就发现用到辅音的音素拼的58P(汉语拼音方案)有两拼与三拼难点问题,由于汉语中辅音是隐含在声母字音中,中国儿童只有字音概念,没有辅音概念。不同于西方口语中有显性的辅音,如英语asks中显性的辅音sks。因此中国儿童难免有这两拼与三拼的难点,所以杜老提出避开辅音的声介合母教法,为58P补拙。但他没有或不便指出这不合音素拼,是反切的音节字母拼原理。
        被刘少奇、陆定一等中央领导誉为圣人的祁圣(建华),1958年被打压押赴彝寨高山林场变相劳改约十年后,遣返农村监管。文革中发蒙的女儿要这位被毛公称为注音扫盲专家的爸爸,发明个没有两拼与三拼难点的注音法。祁老不可能知劳改后才出台的58P,也没条件知杜老法与反切等,独自闭门苦思,终于发明了没有两拼与三拼的难点的67字“汉语拼音新案”,女儿一试十分简易。
        殊不知祸不单行,被定为右派翘尾巴用新案对抗汉语拼音方案的现行反革命,捆绑游斗吊打刀刺,九死一生逃到外村当乞丐。不幸中的万幸是,没像这时搞拼音新案的承德医学院张国防那样,被定为现行反革命抓去打入大牢。
        这时奉行圣贤观无力与枭雄争斗的文革逍遥派教师,不满58P潜心研究拼音问题。揭示发现优化出的音节字母简式反切的SHP型简拼,与58P对比,认为更简明容易。S码深知这是不能声张的冒犯58P权威的,只是自得其乐的消遣,逃过了被抓出斗打下牢之灾。直到文革刚过,中国科技情报学会19797月油印的文革期间《汉字编码方案目录(第一集)》的约2百个方案中,才出现被编为54号的S码《简拼字草案》。
        S码汉字式H型简拼音母,有3864个等种,其P型代码有字母或夹数字的等种。代码键位有6位的P65位的P5P4P3P2等种,都不用58P的各条代码字母拼写变化规定,不把声母像58P当辅音,都当含元音的音节字母。
38P3、64P4与58P相异表.JPG
        H64P型字母码为例,只用“于v”代58P的“迂yu”,就是SP6简拼,若再用“嗯w”代“嗯ng”,就是没有码长超过5位的P5型。再加进S码揭示的双字母代码规律调整H64字的几个代码,就是没有码长超过4位的P4型。 只3位码的P3型有26键与36键等种,36键的如上述图中所示的P3型,26键的则要用进一些字母变读。两位音码的P2型,有变读更多的和一字一母的,祁圣新案就有H67字一字一母的自创西式字母。祁圣H67字、SH64字与杜老的原理方法不谋而合,只不过S码指明H64字是简式反切音节字母拼,祁圣与杜老可能还没来得及筛选出简式反切,用的名称是旧名声韵母。
HP4D0加注孝孝表.JPG



回复 支持 反对

使用道具 举报

46

主题

237

帖子

980

积分

高级会员

Rank: 4

积分
980
 楼主| 发表于 2017-4-5 21:56:16 | 显示全部楼层
                  4)  供加注体汉字便用的音形码优选
        不是一两位形码,就可能区分开常用六千字的同音字。S码在北大中文论坛的输入法专区中,曾发帖征求一百部件两位形码使常用六千字的同码字少于20个的方案,都说作不到,几年来始终没出现这样指标的方案。
        因此S码也只试筛选出3位形码区分开同音字的C型码,且部件多70个。        虽然一百以内的部件比小学教的两三百个规范部首少得多,不如规范部首查字难教,但起始难度仍偏大。所以S码又分为循序渐进的由单笔画D级,加进几类复笔部件的Q级,再加进30几个部件的C级这样的三月三步教法。B级(DQ级)又有数码与字母码等种供选用,代码表如下:
B0Q双表.JPG
BD-BQ说明彩色.JPG
        在中易私塾揭示的S码字母观中,单笔画必是中外各种文字的字母,因此S码兼顾码长、离散性、同码率、便记易用性等,大量数据归纳分析,优选得到汉字的单笔画体系用键优选值既不是林语堂大师上下形码的30几种,也不是王码五笔的五种。古人已嫌五笔太粗略,才又出现永字八法。S码认为这优选值宜在8-12种间,所以S码的单笔画数码或字母码。都用到十键上下。
       但若像汉语拼音方案一样限制在6位码内,只靠单笔画码是难以消除常用6千字中同码字多余十个的组。所以S码单笔画D0D2码,只能达到国标GB2312字表的近七千字中,90%的字的6位码内同码字少于十个。
        与外文字母一样还要用进一批复笔字母来改善离散性,复笔部件哪些是汉字的字母,不像单笔画部件必是字母那样明显,北大陈爱文教授声称发现了汉字的表形码字母体系,但300多表形码部件当字母未免太多难记难用。宜像西文那样几十个特高频的单复笔部件才配叫字母。
        由于S码已筛选出6位单笔画D型码国标字同码字多于于十个的组,复笔字母必隐含在这些字中。因此找出了8类十来个复笔部件,把它加到单笔画D型码表中,就得到6位码国标字没有同码字多于于十个的组的Q型码或汉字基本字母系,如上二表所示。
        SB型(DQ型)码只能满足查字定位到页,打字不用翻页键,还不能定字到行不看屏盲打。直到又类似的筛选出次特高频的30几个复笔部件,加到Q型码中得出的C型码,才使PC型音形码或CP码较好的区分开常用6千字。
        要证明编码的性能,一个简法是看同音字最多的音节的首次尾码。国标GB2312字表近7千字中,同音字最多的是yiP型简拼中代码为i)音字,有一百来个。它们的首次尾笔D型码没有超过十个同码字的组,所以PDDP码可见字知查字,不用翻键打字。常用6千字中,i音字的首次尾位C型码没有同码字,所以PCCP码可见字知页知行查字,不看屏选字步入屏盲打境界。从下面的i音字的首次尾DC型码表中,可统计证明其所达指标。
yi的D型首次尾码.JPG
yi的CP型加注字.JPG



回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|中国语言文字论坛

GMT+8, 2024-5-13 17:16 , Processed in 0.070424 second(s), 32 queries .

快速回复 返回顶部 返回列表