字形書體及筆順

字形差異

漢字具有多態性。同一個漢字，在不同的標準、不同的字體下，存在一定的差別。有些字形上的差別，通過 Unicode 的離散來實現。比如户 戶 戸三字，在 Unicode 裡被安排在了不同的碼位上，故而實現了分離。但是很多漢字的不同字形，卻共用 Unicode 碼位（這其實是 CJK 的初衷），那麽這個字到底應該依照哪個標準來拆分，便成了問題。

宇浩輸入法的規定是：

每個字都有一種標準拆法，字形標準取自：The Unicode Standard, Version 15.0。各地區優先級降序爲：GTHJKV，即陸、臺、港、日、韓、越。也就是説，如果存在大陸提交的標準，就依照大陸標準。如果大陸沒有提交標準，就按照臺灣標準。依此類推。
每個字都可能有若干兼容拆法，目的是兼容臺灣、香港、大陸古籍的字形標準。比如起 = 走己（大陸標準）和 起 = 走巳（臺灣標準）兼收。

書體之别

某些字根，即使在相同的規範下，也會楷體和宋體的不同而産生微小差異。這些差異往往會影響對於「散」「連」的判斷。我們主要以宋體爲準（也是 CJK 的書體）進行拆分，同時有以下考量。

散連認定

⼇作頭時的丶一，無論書體，一概視爲「散」。
✅ ❌
䒑作頭時的丷一是艹的草化，無論書體，一概視爲「連」。
✅ ❌
龷在字中時的艹一，無論書體，一概視爲「連」。
✅ ❌

康熙部首

「康熙部首」指《康熙字典》中使用的二百一十四個部首。由於字形演化，它們會和當代正字字形産生差異。

宇浩拆分採取的一般策略是：

如果此部首爲字根，則直接接歸併到相應的字根上。
如果此部首不爲字根，則按實際情況拆分。

這裏將字形差異和拆分方法舉例如下：

康熙·漢字	陸標	臺標	港標	日標	韓標
⼇·亠^[1]	亠	亠	亠	亠	亠
⾓·角	⺈用	⺈⺆土	⺈⺆土	⺈⺆土	⺈⺆土
靑·青	龶月	龶月	龶月	龶月	靑
⽻·羽	习习	习习	习习	习习	习习
⽾·耒	丰八	丿未	丿未	丿未	丿未
襾·覀^[2]	覀	覀	覀	覀	覀
⽏^[3]	十	十	十	十	十

筆順先後

標準選取

宇浩輸入法的筆順選取，依照大陸標準《GF 3003-1999 GB13000.1 字符集漢字字序（筆畫序）規範》。

同時，對於臺灣標準拆分，使用臺灣常用的筆順。

例

比如攀 = 木乂乂木手（大陸標準）和攀 = 乂乂木木手（臺灣標準）兼收。

陸臺

比如與 = ⺽丂丄八（大陸標準）和與 = 丂丿⺽一八（臺灣標準）兼收。

陸臺

包圍結構

左下包圍的字，一般先寫左側，再寫右側，除了以下幾例：

近 = ⿺辶斤 視作上下結構 ⿱斤辶.
亾 = ⿺𠃊人 視作上下結構 ⿱人𠃊.
吳 = ⿱⿺㇉口大 視作上下結構 ⿳口㇉大.

先中間後兩邊

當漢字中出現類似 EAE 或 EAƎ 這樣的包夾情況，其筆順會因爲地區産生差異。

大陸標準中，需分情況討論：

フ🈑、冫🈑、🈑匕、🈑言🈑、🈑コ：先中間後兩邊。
木🈑木、纟🈑纟、車🈑車、匕🈑匕、🈑ヨ、弓🈑弓及其他：從左往右書寫。

台灣標準中，一律先中間後兩邊。

局部筆順

宇浩拆分檢查全局筆順的同時也檢查局部筆順。

局部筆順最優化，指的是不被打斷的字根儘量多。這是爲了防止以下情況，一個字 A 有 X Y 兩個離散部分構成，X 部分拆 X1 X2，根少但不符合筆順。Y 部分，可以拆 Y1 Y2，符合筆順，且字根相交；或拆 Y3 Y4，不符合筆順，但字根分散。如果必須滿足整體符合筆順，則 Y 拆 Y1 Y2 雖然符合筆順，但由於 X 不符合筆順，A 整體依舊不符合筆順。那麽 Y 應該拆成 Y3 Y4，因爲能散不交。這樣一來，Y 作爲獨體字和 Y 作爲 A 的一部分時，拆分不一致，我們需要避免這種情況。這就是檢查局部筆順的原因。

僅在作頭時 ↩︎
日標覈上爲襾 ↩︎
母部 ↩︎

字形書體及筆順 ​

字形差異 ​

書體之别 ​

康熙部首 ​

筆順先後 ​

標準選取 ​

包圍結構 ​

先中間後兩邊 ​

局部筆順 ​