本帖最后由 13879252729 于 2018-5-11 11:12 编辑
无字库技术
Unicode字库Unicode是一个号称要收录全世界所有文字符号的字库。目前的字库已经使用了9万多个编码,而其中汉字就有7万多,占据了四分之三的存储空间,汉字是Unicode的第一大收录来源。
世界上所有的语言文字在字库中存储的基本上都是其部件或字母信息,输出时再由部件或字母组成“字”或“词”。而相反,汉字存储在字库中的是7万多个单字的整体字形信息,字库庞大,字形复杂,每个字都是一幅图画,互不关联,记忆量惊人。其构字方法无系统性、规律性和规范性,从而导至了汉字检索与编码的混乱局面,其弊端显而易见。
总而言之,汉语文字依赖于字库的现状需要变革。魔拼方案中提出了一种不依赖于字库的汉语文字信息处理技术,简称无字库技术。
魔拼是拼音与拼形相结合的平面文字,魔拼存储在字库中的是构字部件信息,需要输出字形时再由部件组装成字。通过有限的构字部件能组建出无限的魔字,而不是象汉字那样从预先存储的字库中提取整字。
魔拼是由22个辅音,6个元音,加上零声母与补充符总共30个音素构成了简单的汉语语音系统。当汉语语音系统使用二维的书面符号来记录与体现时,其音素就需要转化为形素,即单一的拼音字母转化为多变的拼形元件,以应对其字母不同的排位、方向、大小的体形变化。
魔拼共30个音素,因其音素字母不同的排位、方向、大小原因而衍生出334个构字元件,再加上48个意符,总共有382个构字元件并存储在构字元件库中,需要字形时就能通过元件组装出形态万千、变化多端的二维平面图形文字。(如果采用向量存储法,其构字元件还可以压缩到只有156个)。
而382个构字元件的排位、方向、大小是由构字元件的【级别排序】、【声调方向】、【组合格式】三个因素所决定的,这三个因素也是构字元件进行电脑处理及编码的必要条件。
|