BIG5字集入面的一萬多個繁體中文字是哪些?

2007-10-22 11:31 am
BIG5字集入面的一萬多個繁體中文字是哪些?
在哪裏可以找到下載?
更新1:

我知道什麼是big5,但係big5確實有什麼字呢?收費的下載也可以,謝謝

回答 (1)

2007-10-23 2:02 am
✔ 最佳答案
大五碼
Big5,又稱為大五碼或五大碼,是使用繁体中文社群中最常用的電腦漢字字符集標準,共收錄13,053個漢字,其中有2字為重複編碼。
中文碼分為中文內碼及中文交換碼兩類,Big5屬中文內碼,知名的中文交換碼有CCCII、CNS11643。
Big5雖普及於台灣、香港與澳門等繁體中文通行區,但長期以來並非當地的國家標準,而只是業界標準(de facto standard)。倚天中文系統、Windows等主要系統的字符集都是以Big5為基準,但廠商又各自增刪,衍生成多種不同版本。
2003年,Big5被收錄到台灣官方標準的附錄當中,取得了較正式的地位。這個最新版本被稱為Big5-2003。
歷史及名稱
「大五碼」(Big5) 是在1984年由中華民國財團法人資訊工業策進會為五大中文套裝軟體所設計的中文內碼,所以就稱為Big5中文內碼,雖然五大套裝軟體並沒有成功,但Big5碼卻深遠地影響正體中文電腦內碼,直至今日[1]。「五大碼」的英文名稱「Big5」後來被人按英文字序譯回中文,以致現在有「五大碼」和「大五碼」兩個中文名稱。
Big5碼的產生,是因為當時台灣不同廠商各自推出不同的編碼,如IBM 5550、王安碼等,彼此不能兼容;另一方面,台灣當時尚未推出官方的漢字編碼,而中國大陆所推行的GB 2312編碼,亦未有收錄繁體字。在這樣的時空背景下,為了使台灣早日進入信息時代,所採行的一個計畫;同時,這個計畫對於以台灣為核心的亞洲繁體漢字圈也產生了久遠的影響。
Big5產生前,研發中文電腦的朱邦復認為這套內碼收字過少,在資策會內碼會議提出採用他的五萬多字的字庫。工程師已肯定其技術可行,但在1983年朱邦復被誣為共產黨,資策會因此放棄其研究成果。[2]
在Big5碼誕生後,大部分台灣的電腦軟體都使用了Big5碼,加上後來倚天中文系統的高度普及,使後來的微軟 Windows 3.x等亦予以採用。雖然後來台灣還有各種想要取代Big5碼,像是倚天中文系統所推行的倚天碼、中華民國中文電腦公會所推動的公會碼等,但是由於Big5字碼已沿用多年,因此在習慣不易改變的情況下,始終無法成為主流字碼。而台灣以後發展的國家標準中文交換碼(CNS 11643)由於先天所限,必須使用3位元組來表示一個漢字,與現行英語軟體欠缺相容,所以普及率遠遠不及Big5碼。
在1990年代初期,當中国大陆的电子邮件和轉碼軟體還未普遍之時,在深圳的港商和台商公司亦曾經使用Big5系統,以方便與總部的文件交流、以及避免為大陆的辦公室再寫一套不同內碼的系統。在使用简体中文社群,最常用的是GB 2312、GBK及其後續的國標碼(GB 18030)。
現在,除了台灣外,其他使用繁體漢字的地區,如香港、澳門,及使用繁體漢字的海外華人,都普遍使用Big5碼。這已經成為繁體中文顯示的標準格式。
字節結構
Big5碼是一套雙位元組字符集,使用了雙八碼儲存方法,以兩個字節來安放一個字。第一個字節稱為「高位字節」,第二個字節稱為「低位字節」。
「高位字節」使用了0x81-0xFE,「低位字節」使用了0x40-0x7E,及0xA1-0xFE。在Big5的分區中:




0x8140-0xA0FE
保留給使用者自定義字元(造字區)

0xA140-0xA3BF
標點符號、希臘字母及特殊符號,
包括在0xA259-0xA261,安放了雙音節度量衡單位用字:兙兛兞兝兡兣嗧瓩糎。

0xA3C0-0xA3FE
保留。此區沒有開放作造字區用。

0xA440-0xC67E
常用漢字,先按筆劃再按部首排序。

0xC6A1-0xC8FE
保留給使用者自定義字元(造字區)

0xC940-0xF9D5
次常用漢字,亦是先按筆劃再按部首排序。

0xF9D6-0xFEFE
保留給使用者自定義字元(造字區)
值得留意的是,Big5重複地收錄了兩個相同的字:「兀、兀」(0xA461[U+5140]及0xC94A[U+FA0C])、「嗀、嗀」(0xDCD1[U+55C0]及0xDDFC[U+FA0D])。
衝碼問題
因為低位元字元中包含了程式語言、shell、script 中,字串或命令常會用到的特殊字元,例如0x5C “\”、0x7C “|”等。「\」 在許多用途的字串中是當作轉義符號又稱為跳脫字元,例如 \n(換行)、\r(歸位)、\t(tab)、\\(\本身符號)、\"(引號)等等。而 「|」 在UNIX作業系統中大多當作命令管線的使用,如 "ls -la | more" 等等。如果在字串中有這些特殊的轉義字元,會被程式或直譯器解釋為特殊用途。但是因為是中文的原因,故無法正確解釋為上面所述的行為,因此程式可能會忽略此轉義符號或是中斷執行。若此,就違反了使用者本來要當成中文字元一部份使用的本意。[3]
在常用字如「功」(0xA55C)、「許」(0xB35C)、「蓋」(0xBB5C)、「育」(0xA87C)中時常出現,造成了許多軟體無法正確處理以Big5編碼的字串或文件。這個問題被戲謔性地人名化,稱為「許功蓋」或「許蓋功」(這三個字都有這種問題)。
一般的解決方法,是額外增加“\”的字元,因為“\\”會被解釋為“\”,所以“成功\因素”這個字串就能無誤地被程式當作“成功\因素”的字串來處理。但是額外的困擾是,有些輸出功能並不會把“\”當作特殊字元看待,所以有些程式或網頁就會錯誤地常常出現在「許功蓋」這些字後面多了“\”。[3]

[编辑] 私人造字區
在倚天中文系統,以及後來的Windows 3.1、95及98中,定義了四個私人造字區範圍:0xFA40-0xFEFE、0x8E40-0xA0FE、0x8140-0x8DFE、0xC6A1-0xC8FE。
私人造字區的原意,是供使用者加入本來在編碼表中缺少的字元,但當每個使用者都在不同的地方加上不同的字元後,當交換資料時,對方便難以知道某一個編碼究竟想表達什麼字。

[编辑] 影響
自中文電腦流行後,由於很多日常用字被視為異體字而未收錄。很多人,甚至電視台的字幕、報紙的用字習慣都被改變。
例如台灣教育部視「着」為「著」的異體字,故沒有收錄「着」字。康熙字典中的一些部首用字(如「亠」、「疒」、「辵」、「癶」等)、常見的人名用字(如「堃」(民進黨主席游錫堃)、「煊」(中华民国前財政部長王建煊)、「栢」(歌手張栢芝)、「喆」(歌手陶喆)等),雖被中文社會廣泛採用,也沒有收錄到Big5之中。
在互聯網上,實在不難看到人們把游錫堃、王建煊、陶喆等名字,寫成為「游錫方方土」、「王建火宣」和「陶吉吉」等寫法。電視上日本動畫的中文字幕中也會看到像“木堅”木這樣的字。

[编辑] Big5未收錄字舉例



未收錄的字 有收錄的字 原因



俗字



俗字



被認為是異體字



異體字



異體字



異體字



異體字



被認為是異體字



簡體字


http://zh.wikipedia.org/wiki/%E5%A4%A7%E4%BA%94%E7%A2%BC

.


收錄日期: 2021-04-23 22:37:43
原文連結 [永久失效]:
https://hk.answers.yahoo.com/question/index?qid=20071022000051KK00422

檢視 Wayback Machine 備份