中国语言文字论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

只需一步,快速开始

搜索
查看: 2711|回复: 6

中文编码字符集新国标发布 新增1.7万余个生僻汉字

[复制链接]

105

主题

214

帖子

1115

积分

金牌会员

Rank: 6Rank: 6

积分
1115
 楼主| 发表于 2022-7-29 09:14:03 | 显示全部楼层 |阅读模式

《信息技术中文编码字符集》(GB18030-2022)强制性国家标准发布,将于2023年8月1日正式实施。新国标共收录汉字87887个,比上一版增加录入了1.7万余个生僻汉字。

28日,国家标准化管理委员会、工业和信息化部、国家语言文字工作委员会在京联合召开《信息技术中文编码字符集》(GB18030-2022)强制性国家标准发布宣贯会。

会上,市场监管总局党组成员、副局长、标准委主任田世宏表示,语言文字规范化、标准化、信息化建设,是落实党中央、国务院决策部署的具体举措。文字编码是信息化的重要基础,标准化是文字编码发挥作用的重要路径。无论是传承与发展中华民族传统文化,还是实现政务服务“网上办”“掌上办”,都需要中文编码标准化。下一步,市场监管总局(标准委)将会同有关部门,不断强化标准实施,持续推进标准创新,统筹优化标准体系,深化标准国际合作,切实推动语言文字标准化工作实现新发展、迈上新台阶。

工业和信息化部党组成员、副部长张云明表示,近年来,在党中央、国务院的坚强领导下,我国语言文字信息化工作取得了显著成效,语言文字信息技术标准体系日趋完善,语言文字信息技术产业化稳步推进,少数民族语言文字信息化效果显著。下一步,工业和信息化部将会同有关部门,加快推动语言文字信息技术标准化发展,促进语言文字信息技术产业化应用,推动语言文字信息技术成果更好地惠及人民群众。

教育部党组成员、副部长、国家语委主任田学军表示,《信息技术中文编码字符集》是贯彻落实《国家通用语言文字法》、推动《通用规范汉字表》在社会各领域实施的重要举措,是坚定文化自信、促进中华优秀传统文化传承发展的切实需要,是坚持以人民为中心、为群众办实事的具体体现。下一步,教育部、国家语委将进一步加强与有关部门的合作,协同推动《信息技术中文编码字符集》标准的贯彻落实,不断满足人民群众高质量的语言文化需求。

据介绍,《信息技术中文编码字符集》是中文信息技术领域最重要的基础性标准,对汉字和我国多种少数民族文字进行了统一编码,需要进行中文处理的信息系统均需应用此类编码标准,因此标准实施场景丰富、应用范围广泛,标准首次发布于2000年,2005年第一次修订,支撑了我国中文信息处理和交换需要。

据了解,新版《信息技术 中文编码字符集》强制性国家标准将于2023年8月1日正式实施,共收录汉字87887个,比上一版增加录入了1.7万余个生僻汉字,不仅收录国务院发布的《通用规范汉字表》全部汉字,还可覆盖我国绝大部分人名、地名用生僻字以及文献、科技等专业领域的用字,能够满足各类使用需求,为传承中华文化、增强中文信息处理能力、满足姓名生僻字人群用字需求提供强有力的标准保障。



回复

使用道具 举报

21

主题

122

帖子

1027

积分

版主

Rank: 7Rank: 7Rank: 7

积分
1027
发表于 2022-7-29 11:41:52 | 显示全部楼层
国家标准GB 2312—1980《信息交换用汉字编码字符集》是由中国国家标准总局1980年发布,1981年5月1日开始实施;基本集共收入汉字6763个和非汉字图形字符682个;由于我国汉字数量巨大(约10万字),又陆续增加了六个辅助集,其中,基本集与第二、第四辅助集是简化汉字集,第一、第三、第五辅助集是繁体集,分别有简、繁体字一一对应关系,(个别简、繁关系为一对多的汉字除外)。

国家标准GB 13000.1-93《信息技术 通用多八位编码字符集(UCS) 第一部分:体系结构与基本多文种平面》是由中华人民共和国信息产业部提出,1994年8月1日开始实施;GB13000建立了一个全新的编码体系。ISO/IEC 10646被称作"多八位"编码字符集,是因为它采用四个"八位"(即8 bit)编码,这四个字节被用来分别表示组、平面、行和字位。GB13000的总编码位置高达2,147,483,648个(128组×256平面×256行×256字位)。实现的是00组的00平面,称为"基本多文种平面"(Basic Multilingual Plane, BMP),编码位置65536个。(由于基本多文种平面所有字符代码的前两个字节都是0(00组00平面XX行XX字位),因此,在默认情况下,基本多文种平面按照两字节处理。

国家标准GB 18030,全称《信息技术 中文编码字符集》,是中华人民共和国国家标准所规定的变长多字节字符集,每个字可以由1个、2个或4个字节组成,1个字节表示ASCII码,2个字节表示GBK区块,4个字节表示UTF区块,其中4字节区块总编码位置高达1,587,600(126×10×126×10)。

GB18030-2000《信息交换用汉字编码字符集基本集的补充》是GB18030的首版,由信息产业部电子工业标准化研究所和国家质量技术监督局联合发布的,2000年7月1日开始实施;其中,2字节有21,003字,4字节有6,530字,共收入汉字27,533个;是我国继GB2312-1980和GB13000-1993之后最重要的汉字编码标准,是我国计算机系统必须遵循的基础性标准之一。

GB18030-2005《信息技术 中文编码字符集》是GB18030的第一次修订,由国家质量监督检验总局和中国国家标准化管理委员会于2005年11月8日发布,2006年5月1日实施;在GB18030-2000收入的27,533个汉字基础上,增加了CJK统一汉字扩充B的42,711个汉字,共收入汉字70,244个,并包含多种我国少数民族文字(如藏、蒙古、傣、彝、朝鲜、维吾尔文等)的超大型中文编码字符集强制性标准。

GB18030-2022《信息技术 中文编码字符集》是GB18030的时隔 17 年的再次修订,收录汉字87,887 个,在GB18030-2005收入的70,244个汉字基础上,增加了17,643个汉字,其中应当包含CJK统一汉字扩充C、D、E、F共17,606个汉字及其他一些增补的汉字。

============================
回复 支持 反对

使用道具 举报

70

主题

1587

帖子

4565

积分

论坛元老

Rank: 8Rank: 8

积分
4565
发表于 2022-7-29 12:07:54 | 显示全部楼层
yangming 发表于 2022-7-29 11:41
国家标准GB 2312—1980《信息交换用汉字编码字符集》是由中国国家标准总局1980年发布,1981年5月1日开始实 ...

在错误的道路上大步前进!
拽,都拽不住!
回复 支持 反对

使用道具 举报

8

主题

227

帖子

1653

积分

金牌会员

Rank: 6Rank: 6

积分
1653
发表于 2022-7-29 15:21:03 | 显示全部楼层
本帖最后由 yuyanzhong 于 2022-8-5 10:19 编辑

用《汉语拼写方案》来拼写汉语,可以进行汉字字音异化拼写,拼音词语能够区分同音词,具有等效于汉字的词语拼写功能。平行于词语拼写的汉字书写,可以按字音异化写成保留原有汉字并配用标音字组合成为的新方块字,即双读字,可以按原有汉字字音写成保留原有汉字部首并配用标音字组合成为的新方块字,即形音字。双读字和形音字构成华字系统,相当于是汉字的升级系统或优化系统,其功能与汉字系统相同。词语拼写构成拼字系统,可以采用罗马字母写成几千个拼字,尤其是拼字系统中的语字系统,对应有2000多个汉字的字音异化音节,用于分词书写普通话,无同音词困扰。汉字有注音,包括反切、注音符号、汉语拼音等,但在历代使用中未显示注音,认识汉字需要记住未显示的注音。拼字系统,任何一个拼字都带有注音,能有效进行汉字字音异化并具有原有汉字的字义功能,从而促进了汉语的健康发展。由于汉字系统平行于拼字系统使用,对于文言文等历史文献,可以继续使用汉字,包括双读字和形音字。
《汉语拼写方案》,确立了由语字构成的话语词系统。话语词系统中的词汇,涉及2000多个关联非汉语词汇的汉字实现了字音异化。关联非汉语词汇的字音异化汉字,脱离了汉字系统的表音方式,相当于增加了2000多个不表音汉字,这些不表音汉字在汉字系统写成了表音的扩充汉字即双读字,所对应的语言既可以是普通话,又可以是言文一致的“新普通话”即“普通语”。双读字既标注有“普通语”字音,又标注有“普通话”字音,还保留有原有汉字的整体字形。具体的双读字书写方式,是将“普通语”注音写在原有汉字之上,“普通话”注音写在原有汉字之下组成上中下结构的方块字形。由于2000多个字音异化的汉字多为高频字,按“普通语”阅读原有的汉字文本,需要额外学会2000多个汉字的字音异化。按“普通语”阅读语字文本,也需要额外掌握2000多个汉字的字音异化,才能读懂文本意义。由学习“普通话”变为学习“普通语”,在过渡期,人们既要学习“普通话”又要学习“普通语”,在过渡期之后,人们可以只学习“普通语”。显然,由“普通话”变为“普通语”,是世人负重,而世人负重的代价换得了子孙享福的万代基业。
《汉语拼写方案》是迄今为止唯一能实现多功能书写汉语的方案,并且在技术上是可验证的成功方案。《汉语拼写方案》从汉字的字音入手来优化汉字系统,通过异化2000多个汉字的字音来实现数量级减少汉字系统的同音词,具体的结果就是构建了新汉字系统即华字系统。华字单一对应原有汉字,完整保留原有汉字的字形表义部分,依照《汉语拼写方案》,不同的人群构建华字系统能得到一致的字形结果。华字字形,会汉字的人群几小时、几天以至几十天就能学会识字。华字的计算机应用,同汉字的计算机应用几乎没有差别,会汉字的拼音打字就会华字的拼音打字。初期使用华字,可以不涉及原有汉字的字音异化,其结果比起字音异化来仅仅是同音词多了而已。《汉语拼写方案》,其主体是涉及汉字字音异化的语字系统。语字系统,包容采用双音字和两音字来区分同音词,包容非汉语借词,包容套用英文中的逻辑化语法。《汉语拼写方案》通过优化汉语来实现汉语言文字的言文以致,采用纯拼音的拼音词语来作为通用文本的书写形式,在语言本身之外几乎不产生歧义。
拼音词语,具有人机一致性,母语人群学习和使用拼音词语,比学习和使用汉字简单许多倍,同时还方便外国人学习和使用汉语。在1980年代初期,我们国家与国外的计算机差距并不大,完全有能力开发汉语计算机,人们认为汉字是中华民族的文化瑰宝,为了巩固汉字地位而只注重开发计算机系统的汉字化应用,从而抛弃了中文编程的拼音词语代码。因为《汉语拼音方案》是法定的拼写和注音工具,任何超越《汉语拼音方案》的拼音词语都属于个人主张,都无力挑战《汉语拼音方案》的法定地位。开发汉语计算机必然会及时建立基于当时的拼音词语系统,既挑战了《汉语拼音方案》的法定地位,又冲击到了计算机系统的汉字化应用,历史过程中的计算机系统的汉字化方式取代开发汉语计算机系统的拼音化方式,是坚持《汉语拼音方案》和巩固汉字地位的必然结果。但是放弃开发汉语计算机系统的后果证明,记录汉语不能缺失拼音文字。因为与其他使用拼音文字的民族相比,学习和使用汉字要多耗费几年的时间和精力,几年的时间和精力对于信息化时代提高国民素质的发展以及加速全社会的发展会产生怎样的结果?对于未来几年、几十年乃至百年、千年国民素质的发展以及加速全社会的发展会有怎样的前景?文字的运行效率涉及到全社会的运行效率,自主指令是自主信息技术的基础中的基础,只有改变国家通用语言文字现状,以拼音词语作为推普工具,采用拼音词语与汉字并行使用的计算机运行方式来提高语言文字效率,加快发展核心科技,才能避开国外的技术封锁,保障国家安全运行。
《汉语拼写方案》
中国语言文字论坛»论坛›中国语言文字论坛›文字改革›汉语拼写方案
http://yuyannet.com/thread-1675-1-9.html

《全面实现汉语拼音化》
中国语言文字论坛»论坛›中国语言文字论坛›文字改革›全面实现汉语拼音化
http://yuyannet.com/forum.php?mod=viewthread&tid=1671




回复 支持 反对

使用道具 举报

16

主题

506

帖子

2446

积分

金牌会员

Rank: 6Rank: 6

积分
2446
发表于 2022-8-5 09:45:13 | 显示全部楼层
本帖最后由 jhz001 于 2022-8-5 09:46 编辑

《信息技术中文编码字符集》(GB18030-2022)强制性国家标准发布,将于2023年8月1日正式实施。

针对8105个通用规范汉字GB18030-2005标准不能覆盖一小部分罕用简化字,而明年8月1日正式实施的GB18030-2022标准已能全部覆盖通用规范汉字表。

这意味着《中华人民共和国国家通用语言文字法》明年八月起可以进入有法可依,违法必究的执法阶段。



回复 支持 反对

使用道具 举报

60

主题

893

帖子

2242

积分

金牌会员

Rank: 6Rank: 6

积分
2242
发表于 2022-8-7 18:22:17 来自手机 | 显示全部楼层
电车时代老用牛车,有优点大又多的共同语文字老用多害语字,劳民伤财!保守无知!害国害民!.改汉字极利国利民!是对文化的发扬光大!
回复 支持 反对

使用道具 举报

60

主题

893

帖子

2242

积分

金牌会员

Rank: 6Rank: 6

积分
2242
发表于 2022-8-12 21:15:33 来自手机 | 显示全部楼层
保守猪越拜老多害语字,就是拜老牛车为神,无知无能!混血螳螂挡车!电车时代必用电车,即用河南省宁陵县李明的共同语文字发明,其优点大又多,能快救人出多害语字疫海,极利国利民!
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|中国语言文字论坛

GMT+8, 2024-11-15 01:22 , Processed in 0.048219 second(s), 36 queries .

快速回复 返回顶部 返回列表