字形书体及笔顺
字形差异
汉字具有多态性。同一个汉字,在不同的标准、不同的字体下,存在一定的差别。有些字形上的差别,通过 Unicode 的离散来实现。比如户
戶
戸
三字,在 Unicode 里被安排在了不同的码位上,故而实现了分离。但是很多汉字的不同字形,却共用 Unicode 码位(这其实是 CJK 的初衷),那么这个字到底应该依照哪个标准来拆分,便成了问题。
宇浩输入法的规定是:
- 每个字都有一种标准拆法,字形标准取自:The Unicode Standard, Version 15.0。各地区优先级降序为:GTHJKV,即陆、台、港、日、韩、越。也就是说,如果存在大陆提交的标准,就依照大陆标准。如果大陆没有提交标准,就按照台湾标准。依此类推。
- 每个字都可能有若干兼容拆法,目的是兼容台湾、香港、大陆古籍的字形标准。比如
起
=走己
(大陆标准)和起
=走巳
(台湾标准)兼收。
书体之别
某些字根,即使在相同的规范下,也会楷体和宋体的不同而产生微小差异。这些差异往往会影响对于「散」「连」的判断。我们主要以宋体为准(也是 CJK 的书体)进行拆分,同时有以下考量。
散连认定
⼇
作头时的丶一
,无论书体,一概视为「散」。✅ ❌䒑
作头时的丷一
是艹
的草化,无论书体,一概视为「连」。✅ ❌龷
在字中时的艹一
,无论书体,一概视为「连」。✅ ❌
康熙部首
「康熙部首」指《康熙字典》中使用的二百一十四个部首。由于字形演化,它们会和当代正字字形产生差异。
宇浩拆分采取的一般策略是:
- 如果此部首为字根,则直接接归并到相应的字根上。
- 如果此部首不为字根,则按实际情况拆分。
这里将字形差异和拆分方法举例如下:
康熙·漢字 | 陸標 | 臺標 | 港標 | 日標 | 韓標 |
---|---|---|---|---|---|
⼇·亠[1] | 亠 | 亠 | 亠 | 亠 | 亠 |
⾓·角 | ⺈用 | ⺈⺆土 | ⺈⺆土 | ⺈⺆土 | ⺈⺆土 |
靑·青 | 龶月 | 龶月 | 龶月 | 龶月 | 靑 |
⽻·羽 | 习习 | 习习 | 习习 | 习习 | 习习 |
⽾·耒 | 丰八 | 丿未 | 丿未 | 丿未 | 丿未 |
襾·覀[2] | 覀 | 覀 | 覀 | 覀 | 覀 |
⽏[3] | 十 | 十 | 十 | 十 | 十 |
笔顺先后
标准选取
宇浩输入法的笔顺选取,依照大陆标准《GF 3003-1999 GB13000.1 字符集汉字字序(笔画序)规范》。
同时,对于台湾标准拆分,使用台湾常用的笔顺。
例
比如攀 = 木乂乂木手
(大陆标准)和攀 = 乂乂木木手
(台湾标准)兼收。
比如與 = ⺽丂丄八
(大陆标准)和與 = 丂丿⺽一八
(台湾标准)兼收。
包围结构
左下包围的字,一般先写左侧,再写右侧,除了以下几例:
近 = ⿺辶斤
视作上下结构⿱斤辶
.亾 = ⿺𠃊人
视作上下结构⿱人𠃊
.吳 = ⿱⿺㇉口大
视作上下结构⿳口㇉大
.
先中间后两边
当汉字中出现类似 EAE
或 EAƎ
这样的包夹情况,其笔顺会因为地区产生差异。
大陆标准中,需分情况讨论:
フ🈑
、冫🈑
、🈑匕
、🈑言🈑
、🈑コ
:先中间后两边。木🈑木
、纟🈑纟
、車🈑車
、匕🈑匕
、🈑ヨ
、弓🈑弓
及其他:从左往右书写。
台湾标准中,一律先中间后两边。
局部笔顺
宇浩拆分检查全局笔顺的同时也检查局部笔顺。
局部笔顺最优化,指的是不被打断的字根尽量多。这是为了防止以下情况,一个字 A 有 X Y 两个离散部分构成,X 部分拆 X1 X2,根少但不符合笔顺。Y 部分,可以拆 Y1 Y2,符合笔顺,且字根相交;或拆 Y3 Y4,不符合笔顺,但字根分散。如果必须满足整体符合笔顺,则 Y 拆 Y1 Y2 虽然符合笔顺,但由于 X 不符合笔顺,A 整体依旧不符合笔顺。那么 Y 应该拆成 Y3 Y4,因为能散不交。这样一来,Y 作为独体字和 Y 作为 A 的一部分时,拆分不一致,我们需要避免这种情况。这就是检查局部笔顺的原因。