魔拼汉字输入法 无字库技术
Unicode是一个号称要收录全世界所有文字符号的字库。目前的字库已经使用了9万多个编码,而其中汉字就有7万多,占据了四分之三的存储空间,汉字是Unicode的第一大收录来源。
世界上所有的语言文字在字库中存储的基本上都是其部件或字母信息,输出时再由部件或字母组成“字”或“词”。而相反,汉字存储的是7万多个单字的整体信息,字库庞大,字形复杂,每个字都是一幅图画,互不关联,记忆量惊人。其构字方法无系统性、规律性和规范性,从而导至了汉字检索与编码的混乱局面,其弊端显而易见。
总而言之,汉语文字依赖于字库的现状需要变革。魔拼方案中提出了一种不依赖于字库的汉语文字信息处理技术,简称无字库技术。
魔拼是拼音与拼形相结合的平面文字,魔拼存储的是构字部件信息,需要输出字形时再由部件组装成字。通过有限的构字部件能组建出无限的魔字,而不是象汉字那样从预先存储的字库中提取整字。
魔拼是由23个辅音、6个元音、1个多功能总共30个音素构成了简单的汉语语音系统。当汉语语音系统使用二维的书面符号来记录与体现时,其音素就需要转化为形素,即单一的拼音字母转化为多变的拼形字母,以应对其字母不同的排位、方向、大小的体形变化。
魔拼共30个音素,因其音素字母不同的排位、方向、大小原因而衍生出350多个构字元件,再加上48个意符,总共有400多个构字元件并存储在字库中,需要字形时再通过元件组装。
而构字元件的排位、方向、大小是由构字元件的【级别排序】、【声调方向】、【组合格式】三个因素决定的,这三个因素也是元件图片进行电脑处理及数据编码的必要条件。例如,下面表中,元音i、收音n、声母j分别衍生出24个、12个、5个同位素的构字元件。(可参考前面【组合格式】中的案例)。
|