中国语言文字论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

只需一步,快速开始

搜索
查看: 2860|回复: 3

●开发汉字新体的加注体字库建议●

[复制链接]

46

主题

237

帖子

980

积分

高级会员

Rank: 4

积分
980
发表于 2017-4-8 14:16:45 | 显示全部楼层 |阅读模式
             ●开发汉字新体的加注体字库建议●
                       中易私塾
                 1)  从字体发展看今明天汉字
        秦皇令李斯、赵高等丞相搞统一汉字范本秦彖,只能是等线体曲线以适应硬笔竹简曲面载体。蒙恬毛笔兴起后,竹简曲面两侧笔段便于加粗与中间凸部笔段协调,于是出现现蚕头雁尾的隶书,马上动摇了秦彖皇位。皂隶小吏搞的隶书迫使官方文字让位,古代汉字最大改革的隶变发生了。平面蔡侯纸代曲面竹简后,不必字两侧蚕头雁尾刻意做作,楷书成为主体。生产力与生产工具的书写工具与载体的进步,促使字体变革,连皇帝也无能为力左右。
        而今天,荧屏键盘取代了纸笔,打字取代了写字。字的笔画多几笔少几笔已不是问题,简化字或废汉字改用纯拼音的文改已失去原来那样大的意义。可以有原汉字与简字、拼音兼容的,以旧带新的复合体汉字。不需要废汉字而是请原汉字带数码化汉字面世。需要兼容新旧字且有便于查字打字信息的文字,不一定要消除原汉字。因旧字加些笔画就可能有便于认读和查字打字的信息,比汉字退位让给拼音可能更省事。因此中易私塾S码猜想 ,电脑时代可能需要与可能出现加注体汉字的新字体(聚珍体、聚书、拼音形声字)。
               2)  今日急需的汉字聚珍体   
        把原方块汉字稍压扁些,上或下加注音或形码等,恢复原方块形。这种加注体汉字,便于与句中原其它汉字高矮一样,和谐的融合在一起。这种加注有拼音和区分同音字信息的加注体汉字,也可叫聚珍体字、和谐体字、新形声字、拼音简笔字、拼音化数码化汉字。
        用造字软件作出这种加注体汉字,按电脑字库字体文件ttf式保存,复制到有宋体、黑体字等的WINDOWS字库文件夹FONTS,各种打字码可以按需切换把它们从库中调出打字与打印,像现在各种码都可打出宋体、楷体、黑体、颜柳欧苏名家字体一样便用。
    若报刊标题、小学一册课本、对外汉语教本用这种加注体字印,无论是中国人或外国人,原来认识的汉字照样能认识,不认识的生字,可由其中注的拼音拼认读出,由其中注的音形码知哪页可查到字音字义,按哪几键可打出该字。手写当然可以略去加注部分只写原汉字,也可只写加注用的、无同码的与原汉字对应的音形码式拼音形声字。
        如下图中就有“能”字的PC型加注字模拟表示,是加注的SP4型音码nw和首次笔DC型码LDL组成的PC型音形码nwLDL。一见这加注字,由其下加注的音码nw,就知是HP型简拼“讷nw”快读拼出的nw音(w是汉语拼音方案的“ng嗯”“能neng”)。由注的PCnwLDL,可知在PC字典nwL页的DL行可查到其字义。按nwldl这几键或nw键,就可在屏上打出该字。其中含有可代汉字用拼音化、数码化的PC型字母化的拼音形声字nwLDL。隐含的拼音简笔字,就是实线的笔画和可略去的虚线的笔画,十笔的“能”可略成只三笔的简笔字。
PC能字及两D表.JPG
        花费巨额的浩大中华字库工程,几十个分包内容,可能要造几十套十万汉字的字库,已被一批大学和字体专业机构分包。绝大多数字是一些史典中的古董死字,一般人不可能用。虽然汉字博物馆要珍藏这些尸体,但花点人力物力财力,造今天常用6千字的加加注字库,可能现实作用不小。中华字库工程宜添加这数码化汉字库项目,方正字库也宜有信息丰富的数码化汉字库。香港中国语文学会赞助出版商李业宏先生,曾捐资建议铸注音汉字铜模,台湾中易网戚桐欣已推出加注数码化汉字的三维电脑活版,曾首创中易黑体、楷体、首推郑码等,被Windows骗用的北京中易公司,该再创辉煌。

回复

使用道具 举报

46

主题

237

帖子

980

积分

高级会员

Rank: 4

积分
980
 楼主| 发表于 2017-4-9 17:25:33 | 显示全部楼层
               3)  便于作加注体汉字的音形码优选
      加注体汉字若注有形码,就不难打字。但形码没有读音规律不便识字,必需加注音码。若只注音码,又区分不开同音字不便识字与打字。所以加注体汉字宜既注音码又有足以区分开同音字的形码。
    GB2312字表的近7千字中,“一yi、鸡ji”音节的同音字多达3位数,要3位数码才区分得开。郑码、五笔字型王码等形码,也要四位才能较好区分开同码字。音形码中的形码,也得要3位才能区分开同音字。
      保持汉字方块形,加注的音码、形码总的码位不能太长,宜音码形码各三四位内,总长控制在六七位码内。而汉语拼音方案音码已可能长达6位,显然不便供加注体汉字用。因此需对音码、形码分别进行优化优选。
            3-1)音母的优化优选
    中易私塾S码揭示,古代汉语音母体系中,有音节字母拼的国学拼音反切或声韵母拼,从其中可优化出简易的S码简拼方案。S码简拼与P6全拼(汉语拼音方案)相比较,可能更简明码短。我国古代反切拼音或声韵母拼,都是把单音节的字音当音母,表示声韵母的汉字,就叫声韵母。反切上、下字可能是声韵母或含有所需的声韵母的单音节汉字,所以都属音节字母拼。而P6全拼(汉语拼音方案)则是把声母约定为辅音,用的声韵母拼实际是辅元音的音素拼。
    P6全拼声母表中有“zh知ㄓ、ch蚩ㄔ、sh诗ㄕ、r日ㄖ、z资ㄗ、c雌ㄘ、s思ㄙ”,声韵母表后第一条规定说,“zh知ㄓ、ch蚩ㄔ、sh诗ㄕ、r日ㄖ、z资ㄗ、c雌ㄘ、s思ㄙ”等字的韵母用i。所以字的注音是“zhi知ㄓ、chi蚩ㄔ、shi诗ㄕ、ri日ㄖ、zi资ㄗ、ci雌ㄘ、si思ㄙ”。由此可见,声母的汉字表示字或注音字母,都是辅元音包含在内的音节字母而不只是辅音,所以与声母同音的字的注音就是该声母表示字符,不另加元音(韵母)。但声母表中的P6全拼声母,是不包含元音(韵母)的辅音,与声母同音的字要用该声母表示字符再加元音(韵母)i
    又如注音字母中与声母“思ㄙ”同音的“四思”,注音就是ㄙ,未再加元音(韵母),所以这7种声母的注音字母是音节字母。但P6全拼的注音不是“四思s”而是“四思si”,所以这7种声母在P6全拼中是被定为辅音当音素字母看,不是当包含元音(韵母)的音节字母用。
    除上述7种声母在注音字母是音节字母外,其余14种声母,在注音字母与P6全拼中都是当辅音的音素字母用,给同音的字注音时要再加元音(韵母)。如声母“b玻ㄅ、d得ㄉ、j基ㄐ”同音字的注音,是分别加元音的“玻boㄅㄛ、得deㄉㄜ、基jiㄐㄧ”
    既然声母可约定为音节字母也可约定为音素字母的辅音,若约定为音素字母的辅音,则同音的上千字的注音都要再加元音(韵母)。若约定为音节字母,与它们同音的上千字的注音,就字字少一位码。所以中易私塾S码有单音节汉字音表示音母的H型简拼,如64个汉字表示反切上下字(前后音字)的H64字简式反切拼、H38字声介韵简拼等种H型简拼,都约定用音节字母法。
H38与64字合表.JPG
    简式反切是古反切中最简明的精华品种,古反切多属繁式反切,要“上字取声、下字取韵与调”来拼。其中S码揭示的简式反切,不需考虑声韵的取或舍,只要上下字(前后音)快读,就可拼出所需字音。如古书中“练,朗甸切”就是繁式反切,而“练,力衍切”就是简式反切。
                   3-2)  汉语音母的字符代码优选
    H38H64字简拼,是注音识字打字最简简法。只要几天教会3864个汉字,就可注音识字与练习汉字化键盘打中文。加注有H汉字的加注体生字,学童也能拼认与打字。H38字汉字化键盘就是把H38字分别写贴在26个字母键和10个数字键上。每字按声介韵简拼,音码只13键。
1-H38表键盘与注音体字幼儿.JPG
        从上述H38字汉字化键盘中可以看出,既可按标的H38字击汉字键打字,又可按汉字键上标的字符(字母与数字)打字,是同一回事。可以把这38个键符(字母与数字)看成是对应的H38字的P3型音码代码,因按它打字,声韵母一母一符,没有超过3位码的音码,所以叫H3S字简拼P3型码。H38字及其P3型代码与按“讷安”两键打“南男难”音的字截屏图,见下面各图表。
38P3、64P4与58P相异表.JPG
H型3836键n3字例W版.JPG       
          H38字简拼38键用到26个字母键和十个数字键共4排键。也可以有H64字只用三排26个字母键的P型音码,64字音母26键,就不能一母一符一键,有的音母就得用多个键符组合作代码。P6全拼声母有的是双字母代码,韵母多是两三个字母组合作代码,以致字音有的长达五六位码。S码中有最长码位分别为65432位的P型简拼。如上述P3型就是最长码位为3位的P3型。
         以汉语拼音方案为参照,来看音码与简拼P6P5P4等的优选。汉语拼音方案用加帽u及“迂yu”表示韵母“迂”,是一个败笔,不得不再规定几条两省一不省的约定,小学教与用十分繁难。若用“于v”代,就是S码简拼P6型。虽最大码长仍是6位,但与“于v”相关的几百字码短些,没有了两省一不省的记用麻烦。且因用音节字母拼,上千字码位都比汉语拼音方案短。
         若再用“嗯w”代汉语拼汉语拼音方案的“嗯ng”,已没有3位码的韵母。就是字音码位没有超过5位码的S码简拼P5型,又使大批字码变短。
         若再用S码揭示的双字母声母潜在优选规律,把汉语拼音方案的三个双字母声母对调,就是字音码没有超过4位码的S码简拼P4型,又使大批字码变短,半数的字都可少按打字键。
P4型与异于58P表.JPG
         由于P3P4码的最大码长只三、四位,已便加注体字选用。


H型3836键n3字例W版.JPG
回复 支持 反对

使用道具 举报

46

主题

237

帖子

980

积分

高级会员

Rank: 4

积分
980
 楼主| 发表于 2017-4-10 12:11:40 | 显示全部楼层
                      3-3) 音形码中的形码优化优选
    著名的郑码、五笔字型王码等形码,用到两三百个部件,要四位才能较好区分开同码字。但形码没有读音规律,同音字多,分词连写规律疑点太多,很多页规则繁难不便用。多字同码词仍多,不可能像形码半页代码表取前三末一位码那样简明。所以只有音码码加足以区分开同音字的音形码,才便加注体字用。
    两三百个部件(字根)的郑码、五笔字型王码等著名形码,也要四位才能较好区分开同码字,都不便加注体字的音形码用。音形码中的形码,宜4位以下,部件少到一百以下的便记范围,才便小学识字教学用。笔者曾在北大中文论坛的中文信息处理专区,征求两位码把常用6千字同码字降到20个以下的方案,或常用6千字用两位形码区分开同音字的100部件的方案,万马奔腾的编码专家们都说作不到。因GB2312字表的近7千字中,“一yi、鸡ji”音节的同音字多达3位数,无便记规律的编号,也要3位数码才区分得开。
        S码虽然优化优选出了100部件以下,区分开常用6千字的同音字的C型码,但也要3位形码。上述三、四位P型音码与首次尾C型码组合的PC型音形码或CP码,就能区分开常用6千字的同音字盲屏打。PCCP码总长各字不过六、七位,已可能供PCCP型加注体汉字用。虽然入门的近百个形码部件记忆,难度仍较大。但SBCGTA五级中,又把入门基础的B形码部件分为DQ两小级,第一步是十几个单笔画部件的D型代码,加十来个复笔部件成能见字知页查字打字的Q码,再补充进30几个复笔部件成C码。这样三月三步练PDPQPC码,小学一册甚至学前班,也可能逐步沿这PC码天梯,攀上见PC型加注字就能拼认生字识字查字打字的汉字不难学的自由王国。
                      3-3-1) 八部首单笔画D型码
        兼顾离散性同码几率、码长、便记便用性等,S码优化优选认定,单笔画种类数量归并有个优选较佳值,这极值不是林语堂大师上下形码的30几种,也不是五笔字型王码的5种。而是宜812种间。单笔画S码的D0型数码与D2型字母码,就是归并为十种上下。
D0D2代码见下表。
B0带口诀两种用法.JPG
B2D附说明黑白.jpg
        在国标GB2312字表的近7千字中,S码八部首单笔画D型码,取首次尾笔码与P型简拼组合的PC型音形码或CP码,没有超过十个同码字的组,《新华字典》每页约十个字头,所以同PC码或CP码的字,都在字典的同一页内。因此能见字知页查字,不用翻页键打字。要证明编码性能的一个简法是,看同音字最多的音节(yi音节)的首次尾码的同码率。GB2312字表中,“衣yi”的首次尾笔D型码见下表。
i音D0首次尾码.JPG

yi的D型首次尾码.JPG
      由上表可以看出,D型码记码、编码、取码都不难,上百字的yi音节首次尾笔码,没有超过5个同码字的组。当然能见字知页查字,不用翻页键打字。
D0码八个人.JPG

BD码Z部小.jpg


回复 支持 反对

使用道具 举报

46

主题

237

帖子

980

积分

高级会员

Rank: 4

积分
980
 楼主| 发表于 2017-4-13 11:26:17 | 显示全部楼层
                      3-3-214部首Q型码
        S码虽然优选确定了较好的单笔画字母体系,但只有单笔画字母或单笔画部件,不可能是文字的较好字母体系,还必有一批复笔字母或复笔部件。哪些复笔部件可算汉字的复笔字母呢,不像单笔画必是各种文字的字母那么明显。
        北大陈爱文教授声称发现了中文字母体系,就是他的表形码中的300多个部件。但把300多部件都算字母。未免字母太多难记难用,只有特高频的几十个部件配称字母才有便记便用的现实意义。S码优选确定了较好的单笔画字母体系后,发现若不管字音,常用六千字内,6位单笔画纯形码只有10%的字同码字多于十个。这些同码字多的组,是由几类笔画多又字多的特高频复笔部件引起的。若这几类各用一位码的字符作代码,不去其中拆取单笔画,就可消除同码字多于十个的组。
        因此S码筛选出了这十几个八类的特高频复笔部件,把它们各类约定为一位码的字母,加到D型单笔画字母(单笔画部件)表中,就得到十几类约30个部件的汉字基本字母体系的Q型码。Q码的Q0数字代码与Q2的字母代码表见下二表。
B0Q双表.JPG
BD-BQ说明彩色.JPG
         国标GB2312字表的近七千中,QPQQP或纯形6Q码,都没有同码字多于十个的组。当然能见字知页查字,不用翻页键打字。以同音字最多的上百个yi音节字为例,首次尾Q码与P型音码组合的PQ音形码或QP码,没有同码字多于5个的组。有同码字的在20%以下。这上百个yi音节字的首次尾Q码见下表,可看出80%的字没有同码字。
i音字次首尾Q码加注.JPG


回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|中国语言文字论坛

GMT+8, 2024-11-15 10:43 , Processed in 0.059804 second(s), 32 queries .

快速回复 返回顶部 返回列表