顯示具有 unicode 標籤的文章。 顯示所有文章
顯示具有 unicode 標籤的文章。 顯示所有文章

2019年2月22日 星期五

破折號


2種破折號

U+2014及U+2015

用「造字程式」看到的點陣圖
U+2014:高度 2 點,左右各有4點空隙。
U+2015:高度 2 點,左右沒有空隙。

U+2014

U+2015


所以如果用U+2015則不需要延長一個破折號為200%,只要正常兩個就有連續的效果。

1. 字距用正常,沒有加大,應該是如此。
字距加大時
→第一個破折號另設字元樣式,改成無間距,第二個正常,就有連續的效果了。
2. 若考慮純文字檔,不建議用"延長一個破折號為200%",因為存成純文字時,只有一個破折號!這和破折號的用法是不一致的。


U+2500, 另一種破折號 

在教育部網站看到的破折號,嚴格來講應是畫表格的格線(製表格圖,─(U+2500))。
和U+2015看起來一樣(左右沒有空隙),但印象中某些字型方向會有錯誤。
U+2500:高度 2 點,左右沒有空隙。
unicode子集合--製表格圖

U+2500

問題

1. 某些字型橫書時方向可能不對
規則尚不清楚,應該看字型有沒有處理到此細節。

2.

2018年10月3日 星期三

Win10 微軟倉頡


如何讓Win10的微軟倉頡可以輸入unicode擴充B字集?

例如:𤔩(爪+國, U+24529)
要將輸出字集改為含擴充B
更改微軟倉頡輸出字集


輸入造字

用「`b」無法輸入造字, big-5碼
微軟注音上列方法可用

輸入標點符號

「ctrl+alt+,」

「ctrl+alt+,」出現圖表集,選取所要的標點符號。
3欄20個

常用符號快速輸入
句號      「ctrl+alt+,」「M」 
逗號      「ctrl+alt+,」「,」(<)   
頓號      「ctrl+alt+,」「'」(")
分號      「ctrl+alt+,」「;」(:) 
冒號      「ctrl+alt+,」「L」 : 
驚嘆號  「ctrl+alt+,」「K」 

左單引號      「ctrl+alt+,」「=」 
右單引號      「ctrl+alt+,」「\」 

左雙引號      「ctrl+alt+,」「0」(零) 
右雙引號      「ctrl+alt+,」「 -」
(負號) 

左篇名號      「ctrl+alt+,」「T」 , U+3008
右篇名號      「ctrl+alt+,」「Y」 , U+3009

左書名號      「ctrl+alt+,」「U」 , U+300A
右書名號      「ctrl+alt+,」「I」 , U+300B

左方頭括號      「ctrl+alt+,」「O」 【  , 實心
右方頭括號      「ctrl+alt+,」「P」 
注:空心〖〗

注: 

參見 Windows 10螢幕小鍵盤的標點符號表不見了


倉頡碼

另參見 新倉頡/倉頡輸入法如何輸入中文標點符號?
   除了快速鍵輸入,還有直接用倉頡碼輸入標點符號。
標點符號  名稱  倉頡碼  備註
。     句號        Z難日木 
     逗號        Z難日月 
     頓號        Z難日金 
     分號        Z難日土 
     冒號        Z難日竹 
     左單引號  Z難金木   ZXCD
     右單引號  Z難金水   ZXCE
     左雙引號  Z難金竹   ZXCH
     右雙引號  Z難金戈   ZXCI 
     左夾注號  Z難月水     為狐形括狐
     右夾注號  Z難月火     為狐形括狐
     問號        Z難日戈 
     驚嘆號     Z難日十 
      破折號     沒有          須連續兩個符號構成
     刪節號     Z難日中     須連續兩個符號構成   ZXAL
     左書名號  Z難月山 
     右書名號  Z難月女 
     左篇名號  Z難月卜 
     右篇名號  Z難金日 
     間隔號     Z難日水 
     連接號     Z難日卜       為一橫線
     連接號                       如同平躺的S
:繁體中文常用輸入法並無與中文破折號相對應按鍵。倉頡輸入法「ZXAY」會得出一個 Em dash「—」(U+2014)。


2018年7月11日 星期三

Windows 各版本對應 Unicode 版本(撰寫中)


隨想

生產力工具 for XP/2003可能就是含新細明體套件者
unicode版本差異,差異字碼區何在
不在0字面的CJK碰到華康早期版字型無字情況機會應很大

參考資料

  1. Windows 各版本對應 Unicode 版本
  2. 新細明體更新套件
  3. Unicode

Windows 各版本對應 Unicode 版本

Windows 版本
Unicode 版本
字數
2000 (2000/2)
2.0 (1997/7)
38,950
XP (2001/10)
2.0 (1997/7)
38,950
2003 (2003/4)
2.0 (1997/7)
38,950
生產力工具 for XP/2003 (2005/4)
3.1 (2001/3)
94,205
Vista (2006/11)
5.0 (2006/7)
99,089
2008 (2008/2)
5.0 (2006/7)
99,089
7 (2009/7)
5.1 (2008/4)
100,713
2008 R2 (2009/7)
5.1 (2008/4)
100,713
8 (2012/8)
5.2 (2009/10)
107,361
2012 (2012/8)
5.2 (2009/10)
107,361
8.1 (2013/10)
6.2 (2012/9)
110,182
2012 R2 (2013/10)
6.2 (2012/9)
110,182
10  (2014/9)
7.0  (2014/6)
113,021


















https://tlcheng.wordpress.com/2015/03/13/unicode-windows-各版本對應-unicode-版本/

新細明體更新套件

新細明體更新套件是微軟公司為Windows XP及Windows Server 2003的中文版用戶,可以使用表意文字補充平面的字元而製作的更新套件。它將系統字型新細明體更新為Unicode 3.1的標準。由於補充平面上的字元使用了32位元的編碼空間,所以更新只適用於Windows XP或以上的作業系統。

問題 

在發布後不久,該字型下載便被微軟自行移除。據稱移除該字型下載的原因之一是許多人認為字型變醜了,另一個原因則是安裝後無法徹底解除安裝(被修改的字型檔案不能自動還原)。因此,在安裝前請對原檔案(MingLiU.ttc)做好備份。

解決方案

先前提到此更新套件是針對 Windows XP/2003 的作業系統所做的系統自行修正,使用者可從 Windows 7 字形資料夾內取得 7.0 版本的新細明體字形。 微軟公司後來推出了可在Windows XP及Windows Server 2003執行的ISO 10646:2003支援套件。這套件包括了6.90版本的新細明體,細明體,HKSCS細明體,細明體-ExtB,HKSCS細明體-ExtB,和新細明體-ExtB字形,但不包括輸入法的更新。
https://zh.wikipedia.org/wiki/新細明體更新套件

Unicode

Unicode(中文:萬國碼、國際碼、統一碼、單一碼)是電腦科學領域裡的一項業界標準。它對世界上大部分的文字系統進行了整理、編碼,使得電腦可以用更為簡單的方式來呈現和處理文字。
Unicode伴隨著通用字元集的標準而發展,同時也以書本的形式[1]對外發表。Unicode至今仍在不斷增修,每個新版本都加入更多新的字元。目前最新的版本為2018年6月5日公布的11.0.0[2],已經收錄超過13萬個字元(第十萬個字元在2005年獲採納)。Unicode涵蓋的資料除了視覺上的字形、編碼方法、標準的字元編碼外,還包含了字元特性,如大小寫字母。

ZH
https://zh.wikipedia.org/wiki/Unicode
有一節略談漢字問題

漢字問題

在Unicode 5.0的99089個字元中,有71226個字元與漢字有關。它們的分布如下:
Block名稱開始碼位結束碼位字元數
CJK統一漢字4E009FBB20924
CJK統一漢字擴充A34004DB56582
CJK統一漢字擴充B200002A6D642711
CJK相容漢字F900FA2D302
CJK相容漢字FA30FA6A59
CJK相容漢字FA70FAD9106
CJK相容漢字2F8002FA1D542
Unicode早期版本中,CJK統一漢字區的範圍是0x4E00-0x9FA5,包含20902個漢字。目前版本的Unicode增加了22個字元,碼位是0x9FA6-0x9FBB。

EN
https://en.wikipedia.org/wiki/Unicode
資料較多

繁簡體中文日文韓文的Unicode字元範圍

http://ubuntu-rubyonrails.blogspot.com/2009/06/unicode.html

一、匹配Unicode字符的正則表達式
這裡是幾個主要非英文語系字符範圍(google上找到的):
2E80~33FFh:中日韓符號區。收容康熙字典部首、中日韓輔助部首、注音符號、日本假名、韓文音符,中日韓的符號、標點、帶圈或帶括符文數字、月份,以及日本的假名組合、單位、年號、月份、日期、時間等。
3400~4DFFh:中日韓認同表意文字擴充A區,總計收容6,582個中日韓漢字。
4E00~9FFFh:中日韓認同表意文字區,總計收容20,902個中日韓漢字。
A000~A4FFh:彝族文字區,收容中國南方彝族文字和字根。
AC00~D7FFh:韓文拼音組合字區,收容以韓文音符拼成的文字。
F900~FAFFh:中日韓兼容表意文字區,總計收容302個中日韓漢字。
FB00~FFFDh:文字表現形式區,收容組合拉丁文字、希伯來文、阿拉伯文、中日韓直式標點、小符號、半角符號、全角符號等。

二、利用漢字Unicode範圍來驗證是否為漢字的JavaScript函數