2018年7月11日 星期三

Windows 各版本對應 Unicode 版本(撰寫中)


隨想

生產力工具 for XP/2003可能就是含新細明體套件者
unicode版本差異,差異字碼區何在
不在0字面的CJK碰到華康早期版字型無字情況機會應很大

參考資料

  1. Windows 各版本對應 Unicode 版本
  2. 新細明體更新套件
  3. Unicode

Windows 各版本對應 Unicode 版本

Windows 版本
Unicode 版本
字數
2000 (2000/2)
2.0 (1997/7)
38,950
XP (2001/10)
2.0 (1997/7)
38,950
2003 (2003/4)
2.0 (1997/7)
38,950
生產力工具 for XP/2003 (2005/4)
3.1 (2001/3)
94,205
Vista (2006/11)
5.0 (2006/7)
99,089
2008 (2008/2)
5.0 (2006/7)
99,089
7 (2009/7)
5.1 (2008/4)
100,713
2008 R2 (2009/7)
5.1 (2008/4)
100,713
8 (2012/8)
5.2 (2009/10)
107,361
2012 (2012/8)
5.2 (2009/10)
107,361
8.1 (2013/10)
6.2 (2012/9)
110,182
2012 R2 (2013/10)
6.2 (2012/9)
110,182
10  (2014/9)
7.0  (2014/6)
113,021


















https://tlcheng.wordpress.com/2015/03/13/unicode-windows-各版本對應-unicode-版本/

新細明體更新套件

新細明體更新套件是微軟公司為Windows XP及Windows Server 2003的中文版用戶,可以使用表意文字補充平面的字元而製作的更新套件。它將系統字型新細明體更新為Unicode 3.1的標準。由於補充平面上的字元使用了32位元的編碼空間,所以更新只適用於Windows XP或以上的作業系統。

問題 

在發布後不久,該字型下載便被微軟自行移除。據稱移除該字型下載的原因之一是許多人認為字型變醜了,另一個原因則是安裝後無法徹底解除安裝(被修改的字型檔案不能自動還原)。因此,在安裝前請對原檔案(MingLiU.ttc)做好備份。

解決方案

先前提到此更新套件是針對 Windows XP/2003 的作業系統所做的系統自行修正,使用者可從 Windows 7 字形資料夾內取得 7.0 版本的新細明體字形。 微軟公司後來推出了可在Windows XP及Windows Server 2003執行的ISO 10646:2003支援套件。這套件包括了6.90版本的新細明體,細明體,HKSCS細明體,細明體-ExtB,HKSCS細明體-ExtB,和新細明體-ExtB字形,但不包括輸入法的更新。
https://zh.wikipedia.org/wiki/新細明體更新套件

Unicode

Unicode(中文:萬國碼、國際碼、統一碼、單一碼)是電腦科學領域裡的一項業界標準。它對世界上大部分的文字系統進行了整理、編碼,使得電腦可以用更為簡單的方式來呈現和處理文字。
Unicode伴隨著通用字元集的標準而發展,同時也以書本的形式[1]對外發表。Unicode至今仍在不斷增修,每個新版本都加入更多新的字元。目前最新的版本為2018年6月5日公布的11.0.0[2],已經收錄超過13萬個字元(第十萬個字元在2005年獲採納)。Unicode涵蓋的資料除了視覺上的字形、編碼方法、標準的字元編碼外,還包含了字元特性,如大小寫字母。

ZH
https://zh.wikipedia.org/wiki/Unicode
有一節略談漢字問題

漢字問題

在Unicode 5.0的99089個字元中,有71226個字元與漢字有關。它們的分布如下:
Block名稱開始碼位結束碼位字元數
CJK統一漢字4E009FBB20924
CJK統一漢字擴充A34004DB56582
CJK統一漢字擴充B200002A6D642711
CJK相容漢字F900FA2D302
CJK相容漢字FA30FA6A59
CJK相容漢字FA70FAD9106
CJK相容漢字2F8002FA1D542
Unicode早期版本中,CJK統一漢字區的範圍是0x4E00-0x9FA5,包含20902個漢字。目前版本的Unicode增加了22個字元,碼位是0x9FA6-0x9FBB。

EN
https://en.wikipedia.org/wiki/Unicode
資料較多

繁簡體中文日文韓文的Unicode字元範圍

http://ubuntu-rubyonrails.blogspot.com/2009/06/unicode.html

一、匹配Unicode字符的正則表達式
這裡是幾個主要非英文語系字符範圍(google上找到的):
2E80~33FFh:中日韓符號區。收容康熙字典部首、中日韓輔助部首、注音符號、日本假名、韓文音符,中日韓的符號、標點、帶圈或帶括符文數字、月份,以及日本的假名組合、單位、年號、月份、日期、時間等。
3400~4DFFh:中日韓認同表意文字擴充A區,總計收容6,582個中日韓漢字。
4E00~9FFFh:中日韓認同表意文字區,總計收容20,902個中日韓漢字。
A000~A4FFh:彝族文字區,收容中國南方彝族文字和字根。
AC00~D7FFh:韓文拼音組合字區,收容以韓文音符拼成的文字。
F900~FAFFh:中日韓兼容表意文字區,總計收容302個中日韓漢字。
FB00~FFFDh:文字表現形式區,收容組合拉丁文字、希伯來文、阿拉伯文、中日韓直式標點、小符號、半角符號、全角符號等。

二、利用漢字Unicode範圍來驗證是否為漢字的JavaScript函數



沒有留言: