虛懷若谷 发表于 2017-7-17 09:19:08

網海一勺

過去的一些舊帖,轉刊於此。能找到日期的,將當時的日期附於後。
也可能添加些新的隨感。

虛懷若谷 发表于 2019-5-21 12:39:16

中國的“少數民族”就是這樣被慣得越來越驕橫的——
扎里夫指出,特朗普“希望实现亚历山大大帝(Alexander)和其他侵略者未能达成的目标”——英文新闻中的原文是“亚历山大和成吉思汗”,中国官媒篡改伊朗外长称成吉思汗为侵略者的事实,删除成吉思汗的名字。

以上信息有網友在豆瓣網發佈,馬上被豆瓣當局刪除。

虛懷若谷 发表于 2017-7-17 09:22:57

中文電腦輸入法能否從字輸入變為筆畫輸入
中文電腦輸入,近年取得了很大的進展,但是還有些問題未能解決,使得中文輸入,始終不能像拼音文字輸入那樣完全便捷。
一,中文輸入,需要編碼,拼音字輸入,無需編碼。
中文輸入方法,大致分為兩類,一類是音碼,一類是形碼。無論是哪一類,都必須首先編碼,才能輸入。也就是說,我們不能像手寫漢字一樣在電腦上直接“寫”漢字,我們日常寫漢字,是按照筆畫寫出來的,不是用漢語拼音拼出來的,也不是把漢字拆分成什麽字元再寫出來的。相反,拼音字是能夠做到直接在電腦上“寫字”的,手寫拼音字是一個個字母寫出來的,電腦輸入時也是一個個字母輸出的。拼音文字的輸入是擬手寫,我們的文字輸入卻不是。
二,字的數量太大,不便輸出生僻字和臨時造字。
中文字很多,康熙字典里收了5萬多字。雖然常用的就那幾千,可是沒準兒什麽時候你就可能需要打出一個你平時不用的漢字,這時怎麼辦?生僻漢字無法輸出,始終是漢字電腦處理的一大問題。雖然現在字庫越做越大,總有些字是難以在電腦中找到的。一個字,明知怎麼寫,就是無法讓它跳上屏幕,豈非惱人?
而且往往一個字有異體,一個字出現一種細微的變異,在電腦中便成為一個不同的字符,需要占有字庫的一個位置。比如黃黄,只有一笔之差,但在電腦中就是兩個字。像這麽龐大數量的各種不同形體的漢字都是我們文字寶庫中的成員,不能歧視任何一個,但是由於漢字數量太大,總有些文字受到不公平對待,進不去電腦,或者不容易查找,無法自如的輸出。
對於低頻度用字,輸入也很麻煩,這種字需要找字。於是就出現這種現象:一個常用字很快就能打出來,一個冷僻字就算電腦字庫里有,也要找半天才能尋出。本來我們日常寫字,對於生僻字,按照它的筆順寫出來就是了,和寫一個常用字沒有區別。電腦打字卻辦不到如此。
拼音文字不是如此,根本不存在找字問題。罕用的英文字可以用字母直接組合,不存在漢字輸入的找字難、字庫缺字問題;想臨時造一個新字,也可以直接造出,這都是現在中文輸入無法辦到的。比如魯迅的一篇雜文中,寫到“無名小卒”,因爲所指是女的,就信手造字,在“卒”字左邊加了個女字旁,造了個新字。可是我現在在電腦上就打不出這個字,只能如此描述一番。
以上的問題,是現有漢字編碼電腦技術無法徹底解決的,現有漢字輸入技術雖然不斷有所突破,但都只是治標,不是治本,只能緩解以上問題,而不能從根本上解決以上問題。欲從根本上解決問題,就必須徹底改造漢字輸入方法,把行行色色的編碼輸入法都送進博物館去,使得漢字實行無編碼直接輸入,像拼音文字一樣。
為什麽拼音文字能做到無編碼直接輸入,因為拼音文字能夠以簡馭繁。儘管拼音文字字數成千累萬,但是字素,即最小書寫單位,只有那么幾十個。比如英文所用的拉丁字母,只有26個。用26個拉丁字母,就能拼出所有的英文字。
而漢字輸入要想做到英文打字那樣,無編碼,可任意組字,就必須提煉出漢字的有限的基本字素來。
拼音文字的基本字素是字母,漢字有基本字素嗎,漢字的基本字素是什麽呢?有,是筆畫。
漢字的筆畫數量是有限的。全部楷書所用的筆畫大概只有20幾種,這20幾種筆畫,實際上又可概括為橫豎撇捺折5類。
漢字是筆畫組成的,就好像拼音文字是字母組成的。區別在於,拼音文字的字母的排列是單向線性排列。而漢字的筆畫排列方法複雜的多,是多向空間性排列。拼音文字的排列方法,是把一塊塊磚頭(字母)向一個方向平鋪,漢字的排列方式,是把一塊塊磚頭(筆畫)用各種方式在一個方塊性空間架構起來,每一個漢字都是一個小型建築物。
能不能設計出來一種方法,把漢字的基本筆畫做成字母鍵位,其數量大概只會比26個字母少而不會多。然後,再在電腦上解決打出筆順後自動拼裝出漢字的問題。
這樣可以隨意造新字,可以臨時造字。比如,想臨時造一個提手旁右邊一個周字的這樣一個字(我不知道現行漢字有沒有這樣一個字,這裡是舉例),只要按照筆順,就在電腦上自然打出來了。
這樣,一個現成漢字也不必進輸入法字庫,漢字字庫只要收有限的幾十個筆順,就可以了,用這些筆順,可以組成全部漢字,根本不必考慮漢字實際有多少字,字庫需要裝多少字,就好像英文計算機輸入不必考慮這些問題一樣。

关键就是这个摆放问题。
其实,汉字和字母文字的根本区别不在于什么表音表意。就在于我主楼所说的“拼音文字的字母的排列是單向線性排列。而漢字的筆畫排列方法複雜的多,是多向空間性排列”。

虛懷若谷 发表于 2017-7-17 09:28:25

重温鲁迅答记者问
1932年元旦,《中学生》杂志向鲁迅提问:“假如先生面前站着一个中学生,处此内忧外患交迫的非常时代,将对他讲怎样的话,作努力的方针?”
鲁迅回答:“编辑先生,请先生也许我回问你一句,就是:我们现在有言论的自由么?假如先生说‘不’,那么我知道一定也不会怪我不作声的。假如先生竟以‘面前站着一个中学生’之名一定要我说一点,那么我说。第一步要努力争取言论自由”。(《二心集.答中学生杂志社问》)
按:这篇原载鲁迅杂文集二心集的答记者问,现在仍然适用,也许更适用。因为中国实在还没有到能谈别的问题的时候,要谈别的问题,第一步就要先争取言论自由。这回答“中学生”的问题,实在不仅仅适用于当年的中学生的,而是适用于现在的全中国人的。悠悠万事,唯此为大。    2006-10-30

jkayreb 发表于 2017-7-17 11:03:00

英文字母有52个,而不是只有26个。52个字母分大写、小写两类,两类的读音一样。英文字母也是由笔画构成的,而不单单是汉字由笔画构成。各种语言文字的键盘输入,除非完全由52个字母组成,否则是需要特定的输入法支持的。英文主要由字母组成,汉文主要由汉字组成,由于二者"基本的组文"符号数差异大,直接输入存在差异在所难免。英文之所以能够通过键盘直接输入,关键在于电脑的最初设计用的英文字母。法文能够直接输入吗?俄文能够直接输入吗?都需要相应的键盘程序支持。

曰之乎者也 发表于 2017-7-17 17:15:30


太理想化。
即便就是标准的几何图形,如阿拉伯数字 1234567890 用斜形的 日 字调整笔画显示,字形也缺少美感。
杂交组合字搞了个中庸之道,用意、音、词类编号三部分组字(词),所有人类语言所需的字部件,也只有六、七千。相对来说,属于小字库了。普通话专用,全部字部件也在两千以内。
拉丁字母线形输入,目前就可以直接使用。

jkayreb 发表于 2017-7-17 20:19:39

偏偏有人自己就不用,不是不会用,而是不适用。时间久了,就被遗忘了。

jkayreb 发表于 2017-7-17 20:20:32

偏偏有人自己就不用,不是不会用,而是不适用。时间久了,就被遗忘了。

虛懷若谷 发表于 2017-7-18 09:01:17

"豆瓣“網站當局現在真是差勁,如果我真的寫了什麼激烈的、”敏感“的東西,我不難爲你,所以這樣的文字也不會發表在那裏。問題是,我下面寫的這些,毫無任何”敏感“內容,也被這個網站刪除了。下面是我17年7月14日,在《美人贈我蒙汗藥》(長江文藝出版社2000年8月版)一書的相關頁面所寫——
拿“老俠”的著作表(上列1987到2009十六種書目,其中個別是同一書的各地不同版本)搜索了一下,豆瓣只有一本,不,半本“老俠”的著作,刪的真乾淨。
此也是老俠1990年以後在大陸地區唯一出版的一本,不,是半本著作。2000年的時候,出版環境相對寬鬆,故得用化名出版了這半部著作。
數年前在一家書店打折區,半價買到的此書。當時還不知“老俠”是誰。

虛懷若谷 发表于 2017-7-18 12:55:51

《哈佛中國史.元與明》:「文盲在晚明人口中只占一小部分。天啓五年(1625),遭遇船難後被沖上中國海岸的西班牙耶穌會士阿德里亞諾.德.拉斯.科特斯對明人的平均生活水準未感驚奇,但對其教育程度卻深感驚訝。他在回憶錄中寫到:“中國男孩,哪怕是來自貧苦的家庭,不會讀寫漢字的也極爲少見。”拉斯.科特斯來自一個連貴族也並非人人樂意學習閱讀的國度,因此,當他發現“大部分人,無論貧富貴賤,鮮少不會讀寫”時,怎能不感到震撼?」蓋晚明時,中國人——起碼是男性——的文盲率不高,比同期歐洲許多國家,例如西班牙的文盲率要低的多。所以所謂漢字造成文盲率高的說法,純屬想當然,在歷史事實面前,不攻自破。西曆二〇一七年七月十八日

虛懷若谷 发表于 2017-7-25 10:31:20

繼百度、新浪之後,豆瓣也要求必須綁定手機,實名上網。中國人殘餘的最後一點網絡自由,很快要被剝奪殆盡。
页: [1] 2 3
查看完整版本: 網海一勺