<b>BookWormInWorld: unicode</b>

顯示具有 unicode 標籤的文章。顯示所有文章

2019年2月22日星期五

2種破折號

U+2014及U+2015

用「造字程式」看到的點陣圖
U+2014：高度 2 點，左右各有4點空隙。
U+2015：高度 2 點，左右沒有空隙。

U+2014

U+2015

所以如果用U+2015則不需要延長一個破折號為200%，只要正常兩個就有連續的效果。
→
1. 字距用正常，沒有加大，應該是如此。
字距加大時
→第一個破折號另設字元樣式，改成無間距，第二個正常，就有連續的效果了。
2. 若考慮純文字檔，不建議用"延長一個破折號為200%"，因為存成純文字時，只有一個破折號！這和破折號的用法是不一致的。

U+2500, 另一種破折號

在教育部網站看到的破折號，嚴格來講應是畫表格的格線(製表格圖,─(U+2500))。
和U+2015看起來一樣（左右沒有空隙），但印象中某些字型方向會有錯誤。
U+2500：高度 2 點，左右沒有空隙。

unicode子集合--製表格圖

U+2500

問題

1. 某些字型橫書時方向可能不對
規則尚不清楚，應該看字型有沒有處理到此細節。

2.

2018年10月3日星期三

如何讓Win10的微軟倉頡可以輸入unicode擴充B字集？

例如：𤔩(爪+國, U+24529)
要將輸出字集改為含擴充B

更改微軟倉頡輸出字集

輸入造字

用「`b」無法輸入造字, big-5碼

微軟注音上列方法可用

輸入標點符號

「ctrl+alt+,」

「ctrl+alt+,」出現圖表集，選取所要的標點符號。

3欄20個

常用符號快速輸入

句號「ctrl+alt+,」「M」。

逗號「ctrl+alt+,」「,」(<) ，

頓號「ctrl+alt+,」「'」(") 、

分號「ctrl+alt+,」「;」(:) ；

冒號「ctrl+alt+,」「L」：

驚嘆號「ctrl+alt+,」「K」！

左單引號「ctrl+alt+,」「=」「
右單引號「ctrl+alt+,」「\」」

左雙引號「ctrl+alt+,」「0」(零) 『
右雙引號「ctrl+alt+,」「 -」(負號) 』

左篇名號「ctrl+alt+,」「T」〈, U+3008
右篇名號「ctrl+alt+,」「Y」〉, U+3009

左書名號「ctrl+alt+,」「U」《, U+300A

右書名號「ctrl+alt+,」「I」》, U+300B

左方頭括號「ctrl+alt+,」「O」 【 , 實心
右方頭括號「ctrl+alt+,」「P」】

注：空心〖〗

注:

參見 Windows 10螢幕小鍵盤的標點符號表不見了

倉頡碼

另參見 新倉頡/倉頡輸入法如何輸入中文標點符號？

除了快速鍵輸入，還有直接用倉頡碼輸入標點符號。

標點符號名稱倉頡碼備註

。句號 Z難日木

，逗號 Z難日月

、頓號 Z難日金

；分號 Z難日土

：冒號 Z難日竹

「左單引號 Z難金木 ZXCD

」右單引號 Z難金水 ZXCE

『左雙引號 Z難金竹 ZXCH

』右雙引號 Z難金戈 ZXCI

（左夾注號 Z難月水為狐形括狐

）右夾注號 Z難月火為狐形括狐

？問號 Z難日戈

！驚嘆號 Z難日十

─ 破折號沒有須連續兩個符號構成

… 刪節號 Z難日中須連續兩個符號構成 ZXAL

《左書名號 Z難月山

》右書名號 Z難月女

〈左篇名號 Z難月卜

〉右篇名號 Z難金日

．間隔號 Z難日水

— 連接號 Z難日卜為一橫線

～連接號如同平躺的S

注：繁體中文常用輸入法並無與中文破折號相對應按鍵。倉頡輸入法「ZXAY」會得出一個 Em dash「—」（U+2014）。

2018年7月11日星期三

隨想

生產力工具 for XP/2003可能就是含新細明體套件者
unicode版本差異，差異字碼區何在
不在0字面的CJK碰到華康早期版字型無字情況機會應很大

參考資料

Windows 各版本對應 Unicode 版本
新細明體更新套件
Unicode

Windows 各版本對應 Unicode 版本

Windows 版本	Unicode 版本	字數
2000 (2000/2)	2.0 (1997/7)	38,950
XP (2001/10)	2.0 (1997/7)	38,950
2003 (2003/4)	2.0 (1997/7)	38,950
生產力工具 for XP/2003 (2005/4)	3.1 (2001/3)	94,205
Vista (2006/11)	5.0 (2006/7)	99,089
2008 (2008/2)	5.0 (2006/7)	99,089
7 (2009/7)	5.1 (2008/4)	100,713
2008 R2 (2009/7)	5.1 (2008/4)	100,713
8 (2012/8)	5.2 (2009/10)	107,361
2012 (2012/8)	5.2 (2009/10)	107,361
8.1 (2013/10)	6.2 (2012/9)	110,182
2012 R2 (2013/10)	6.2 (2012/9)	110,182
10 (2014/9)	7.0 (2014/6)	113,021

https://tlcheng.wordpress.com/2015/03/13/unicode-windows-各版本對應-unicode-版本/

新細明體更新套件

新細明體更新套件是微軟公司為Windows XP及Windows Server 2003的中文版用戶，可以使用表意文字補充平面的字元而製作的更新套件。它將系統字型新細明體更新為Unicode 3.1的標準。由於補充平面上的字元使用了32位元的編碼空間，所以更新只適用於Windows XP或以上的作業系統。

問題

在發布後不久，該字型下載便被微軟自行移除。據稱移除該字型下載的原因之一是許多人認為字型變醜了，另一個原因則是安裝後無法徹底解除安裝（被修改的字型檔案不能自動還原）。因此，在安裝前請對原檔案（MingLiU.ttc）做好備份。

解決方案

先前提到此更新套件是針對 Windows XP/2003 的作業系統所做的系統自行修正，使用者可從 Windows 7 字形資料夾內取得 7.0 版本的新細明體字形。微軟公司後來推出了可在Windows XP及Windows Server 2003執行的ISO 10646:2003支援套件。這套件包括了6.90版本的新細明體，細明體，HKSCS細明體，細明體-ExtB，HKSCS細明體-ExtB，和新細明體-ExtB字形，但不包括輸入法的更新。
https://zh.wikipedia.org/wiki/新細明體更新套件

Unicode

Unicode（中文：萬國碼、國際碼、統一碼、單一碼）是電腦科學領域裡的一項業界標準。它對世界上大部分的文字系統進行了整理、編碼，使得電腦可以用更為簡單的方式來呈現和處理文字。

Unicode伴隨著通用字元集的標準而發展，同時也以書本的形式^[1]對外發表。Unicode至今仍在不斷增修，每個新版本都加入更多新的字元。目前最新的版本為2018年6月5日公布的11.0.0^[2]，已經收錄超過13萬個字元（第十萬個字元在2005年獲採納）。Unicode涵蓋的資料除了視覺上的字形、編碼方法、標準的字元編碼外，還包含了字元特性，如大小寫字母。

ＺＨ
https://zh.wikipedia.org/wiki/Unicode
有一節略談漢字問題

漢字問題

在Unicode 5.0的99089個字元中，有71226個字元與漢字有關。它們的分布如下：

Block名稱	開始碼位	結束碼位	字元數
CJK統一漢字	4E00	9FBB	20924
CJK統一漢字擴充A	3400	4DB5	6582
CJK統一漢字擴充B	20000	2A6D6	42711
CJK相容漢字	F900	FA2D	302
CJK相容漢字	FA30	FA6A	59
CJK相容漢字	FA70	FAD9	106
CJK相容漢字	2F800	2FA1D	542

Unicode早期版本中，CJK統一漢字區的範圍是0x4E00-0x9FA5，包含20902個漢字。目前版本的Unicode增加了22個字元，碼位是0x9FA6-0x9FBB。

ＥＮ
https://en.wikipedia.org/wiki/Unicode
資料較多

繁簡體中文日文韓文的Unicode字元範圍

http://ubuntu-rubyonrails.blogspot.com/2009/06/unicode.html

一、匹配Unicode字符的正則表達式
這裡是幾個主要非英文語系字符範圍(google上找到的):
2E80～33FFh：中日韓符號區。收容康熙字典部首、中日韓輔助部首、注音符號、日本假名、韓文音符，中日韓的符號、標點、帶圈或帶括符文數字、月份，以及日本的假名組合、單位、年號、月份、日期、時間等。
3400～4DFFh：中日韓認同表意文字擴充A區，總計收容6,582個中日韓漢字。
4E00～9FFFh：中日韓認同表意文字區，總計收容20,902個中日韓漢字。
A000～A4FFh：彝族文字區，收容中國南方彝族文字和字根。
AC00～D7FFh：韓文拼音組合字區，收容以韓文音符拼成的文字。
F900～FAFFh：中日韓兼容表意文字區，總計收容302個中日韓漢字。
FB00～FFFDh：文字表現形式區，收容組合拉丁文字、希伯來文、阿拉伯文、中日韓直式標點、小符號、半角符號、全角符號等。

二、利用漢字Unicode範圍來驗證是否為漢字的JavaScript函數

BookWormInWorld

網誌存檔

標籤

關於我自己

2019年2月22日星期五

破折號

2種破折號

U+2014及U+2015

U+2500, 另一種破折號

問題

2018年10月3日星期三

Win10 微軟倉頡

如何讓Win10的微軟倉頡可以輸入unicode擴充B字集？

輸入造字

輸入標點符號

「ctrl+alt+,」

倉頡碼

2018年7月11日星期三

Windows 各版本對應 Unicode 版本(撰寫中)

隨想

參考資料

Windows 各版本對應 Unicode 版本

新細明體更新套件

問題

解決方案

Unicode

漢字問題

繁簡體中文日文韓文的Unicode字元範圍

BookWormInWorld

網誌存檔

標籤

關於我自己

2019年2月22日 星期五

破折號

2種破折號

U+2014及U+2015

U+2500, 另一種破折號

問題

2018年10月3日 星期三

Win10 微軟倉頡

如何讓Win10的微軟倉頡可以輸入unicode擴充B字集？

輸入造字

輸入標點符號

「ctrl+alt+,」

倉頡碼

2018年7月11日 星期三

Windows 各版本對應 Unicode 版本(撰寫中)

隨想

參考資料

Windows 各版本對應 Unicode 版本

新細明體更新套件

問題

解決方案

Unicode

漢字問題

繁簡體中文日文韓文的Unicode字元範圍

2019年2月22日星期五

2018年10月3日星期三

2018年7月11日星期三