Skip to content

宇浩輸入法

基本特點

宇浩輸入法是純字形輸入法,通過輸入漢字的部首和筆畫來輸入漢字,而不依賴漢字的具體讀音。也就是「會寫就會打」「看到即輸入」。這是如何做到的呢?答案是三個步驟:

  • 第一步,也是宇浩輸入法的核心:將每一個漢字拆成不超過四個部件(字根)。
  • 第二步,是將這些部件轉換成對應的英文字母。
  • 第三步,將編碼輸入到電腦中,對應的漢字就會自動彈出來。

舉個例子,這個字用宇浩輸入法怎麽輸入呢?

  • 第一步:將直觀地拆成四個部件:
  • 第二步:找到這四個部件對應的字母,分別是:K J W I。
  • 第三步:將這四個字母輸入到電腦中,這個字就會顯示出來。

宇浩輸入法具有以下的優點:

  • 字頻加權後的選重率極低,基本上一字一碼,碼到字出,極其適合盲打。
  • 繁簡字碼位分離,比如 不同編碼,繁體簡體混在一起打也極少選重。
  • 字形兼容大陸通規、大陸古籍通規[1]、臺灣正體、香港繁體四套標準,方便檢字。
  • 設有簡體、繁體兩套詞庫,字形涵蓋兩岸三地三套標準 [2]
  • 全面覆蓋 CJK 全字集 99000 多個漢字(更新至 CJK 擴 I 區),生僻字一網打盡。
  • 檢字方便,翻頁少。總共 99000 多個漢字,候選項最多的碼位上只有 18 個候選字。
  • 採用大字根、拆法直觀,不會將漢字拆得零碎。
  • 字根爲雙編碼,不分主副根,沒有結構碼。
  • 拆分時取一、二、三、末字根。全簡編碼一致、字詞編碼一致。
  • 拆字規範,規則優先級明確,兼顧「邏輯性」和「直觀性」。追求一字一拆、無歧義。
  • 兼顧手感,大碼只使用 25 鍵。星陳方案雙手互擊率超過 60%。

四大特點

繁簡通打 動靜低重 字根聚類 兼顧手感

assess

簡體和繁體

絕大多數輸入法,簡體字和對應的繁體字都佔用相同的碼位,導致輸入繁體時需要選重。比如五筆字型中, 兩個字的編碼都是TUJf。如果我想打繁體的「簡」,需要按一下選重鍵。因此,大多數輸入法在繁體文本下,不具備盲打的優勢,除非重新對碼表進行排序。

宇浩輸入法繁簡漢字分離,不存在共用碼位現象,故而使用一張碼表即可既打簡又打繁,不用擔心選重問題。你可以按照自己掌握每一個字的繁簡狀態,不需要軟件轉換,更不需要準備兩套碼表。可以像寫字一樣隨心所欲。

比如, 這兩個繁簡漢字,在宇浩輸入法中對應了不同的編碼。這是因爲宇浩輸入法的 字根繁簡分離。在很多輸入法中,由於繁簡字根位於同一個按鍵,你需要從候選欄中選擇繁體字還是簡體字。

以下視頻展示了使用宇浩單字全碼輸入繁簡混合版本的《洛神賦》的片段節選。可以看到,全文都沒有進行過選重。因此,宇浩輸入法特別適合任意文本空間下的盲打,以及古漢語輸入。

靜重和動重

宇浩輸入法支持繁簡通打,並不代表它犧牲了只打簡體只打繁體的性能。我們不妨看一看下面的數據:

  • 簡體文本:常用 1500 字全碼無重 [3]。常用 3000 字,全碼 10 組重碼,出簡後無重碼。常用 4500 字,全碼 55 組重碼,出簡後 2 組重碼。常用 6000 字,全碼 117 組重碼,出簡後 14 組重碼。字頻加權後,全碼下每萬字選重 5 次。

  • 繁體文本:常用 1500 字,全碼 1 組重碼,出簡後無重。常用 3000 字,全碼 24 組重碼,出簡後 4 組重碼。常用 4500 字,全碼 92 組重碼,出簡後 13 組重碼。常用 5700 字,全碼 152 組重碼,出簡後 36 組重碼。字頻加權後,全碼下每萬字選重 15 次。

  • 繁簡混合文本 [4]:前 1500 字,全碼 3 組重碼,出簡後無重。前 3000 字,全碼 13 組重碼,出簡後 3 組重碼。前 6000 字,全碼 131 組重碼,出簡後 16 組重碼。前 9000 字,全碼 365 組重碼,出簡後 92 組重碼。字頻加權後,全碼下每萬字選重 17 次。

要知道,宇浩輸入法只使用了 25 個按鍵,也就是説四碼的編碼空間只有其他 26 鍵輸入法的 85.5%。但是宇浩輸入法在常用繁簡漢字下選重率卻是同類輸入法中最低的。

打單和打詞

宇浩輸入法可以輸入單字也可以輸入詞語,各有優缺點。

單字輸入相比詞語輸入

詞語輸入缺點:

  • 單字輸入學習成本較低,學完單字就等於畢業。詞語輸入還要學習詞語編碼規則。
  • 單字輸入思維負擔小,不需要進行人工分詞,熟練後打字比較連貫。
  • 輸入單字和輸入詞語時,每個字的編碼是不同的,比如一簡字打單時只要輸入一碼,打詞時需要輸入兩碼。
  • 很多生僻詞、新詞、長詞可能不在詞庫中,過度依賴詞語輸入會造成「踩空」的問題,必須回改。
  • 詞語輸入的重碼率高於單字輸入1個數量級,確定性較差,失去了形碼的根本優勢。

詞語輸入優點:

  • 詞語輸入時,每四碼可以上屏至少兩字,即使存在選重的幾率,平均每個字的碼長不到2.0。相比之下,單字輸入的平均碼長上升到了3.1左右,且對空格的依賴很大。
  • 詞語輸入時,最多取每個字的前兩個字根,思維負擔小。相比之下,單字取碼常取到第三根,深入字的中央部分,思維負擔較大。

宇浩輸入法,單字輸入模式下(只考慮二簡)選重率約爲0.06%,詞語輸入模式下選重率約爲1.27%。一個比較好的狀態,應該是主要打單字,輔助打詞語,根據個人偏好,找到一個平衡點,讓綜合選重率達到0.30% 到 0.50% 左右。

因此,宇浩輸入法的最佳輸入體驗,是以字爲主,以詞爲輔,激進打字,謹慎打詞,從而達到較佳的確定性,做到完全關閉候選框輸入。

!-- ## 適合人群

評價一款輸入法,不能只看重碼率,因爲每一款輸入法都有自己的設計哲學目標用戶。有優點就必然有缺點,反之亦然。評價一款輸入法的維度,除卻重碼率,還有規則簡易度、字根複雜度、按鍵舒適度、平臺通用性等。這就是爲什麽拼音重碼高,但大多數人還是會使用拼音,因爲它的學習成本基本爲零。選擇學習輸入法,一定要符合自己的需求,要綜合考慮多方面因素,例如,是否願意背較多的字根,是否有打古文、繁體字需求等。

宇浩輸入法的最佳輸入體驗,是採用精簡詞庫(80000 詞左右,同時包括簡體、臺灣繁體、香港繁體、大陸繁體)並配合單字輸入,從而達到極致的確定性,做到完全關閉候選框輸入。以下爲宇浩輸入法最適合的人群:

  • 對繁體字和簡化字都有輸入需求,希望做到繁簡無縫切換,不依賴程序進行轉換的人(中文系學生、經常同兩岸三地人士打交道者、方言愛好者、漢字愛好者等);或
  • 日常主要輸入繁體文本的人(港澳臺用戶);或
  • 日常需要輸入簡體文本,偶爾需要輸入繁體文本和生僻字的人;或
  • 熱愛漢字,喜歡一筆一畫寫字的感覺,想要學習傳統漢字的人。 --

聚類和分區

宇浩輸入法的核心是對於漢字的拆分,其次是對於字根排布的設計。字根一共有 200 多個,但字母只有 26 個,因此,每個按鍵上都會有大約 10 個左右的字根。字根如何排布,直接決定了它的學習難度、維護難度、手感、連貫度等等。大體上:

  • 對相似字形進行聚類和分區的方案,比亂序排布的方案,學習更加便捷,維護成本更低。比如:「目且貝見」這些都有「目」形的字根,如果安排在一個按鍵上,那麽我們只要記住了其中的一個,就能立刻記住剩下的字根。
  • 亂序排布的方案,比對相似字形進行聚類和分區的方案,手感更優。這是因爲字根排布的設計中,最大的限制條件就是聚類。解除了這個限制,排布就更加自由,就能在手感上做到更好。
  • 三碼的方案,比四碼的方案,思維負擔更小。這是因爲四碼方案需要取到字的第三根,這個字根往往深入字的中部,思考起來需要更多時間。
  • 四碼的方案,比三碼的方案,重碼更低。這一點不言而喻。

每個人都有自己的偏好。爲了照顧不同人群的需求。宇浩輸入法有兩套官方字根排佈設計。大家可根據自己的偏好和以前的輸入習慣,選擇其中一個學習。由於這些設計都基於「宇浩拆分」,因此就算後面想試試其他的設計,也只用幾天就能適應。

宇浩·星陳

宇浩·星陳是官方字根排佈設計,採用了字根聚類同鍵排布模式(類似鄭碼、徐碼)。字形相似的字根會被聚攏在一道,排布在 25 個鍵位上。方案名取自《尚書大傳》之「明明上天,爛然星陳」。

由於大量字形相近的字根被放在了一個按鍵上,它對於初學者極爲友好,可以通過聯想記憶法,以「組」爲單位來記憶。比如:

  • 目且貝見日曰早都在 J 上。
  • 亦文(夂)亥(豕)亡方都在 T 上。

yustar

宇浩·光華

宇浩·光華是官方字根排佈設計,採用了字根首筆分區排布模式(類似五筆、真碼)。依據字根第一筆的筆畫,分佈在橫豎撇捺折五區中。其中橫區 6 鍵,豎區 5 鍵,撇區 6 鍵,捺區 4 鍵,折區 4 鍵。方案名取自《尚書大傳》之「日月光華,旦復旦兮」。

由於字根按照首筆筆畫進行分區,適合有五筆經驗的用戶。

宇浩輸入法宋體字根圖

兩個方案的區別,可參見以下表格。

特點宇浩·光華宇浩·星陳
使用最新版本宇浩拆分
支持到 CJK ext-I
兼容臺灣字形拆分
繁簡通打低極選重率 (0.2%)
字根雙編碼
附屬根比代表根多補一碼
大碼使用 Z 鍵
小碼使用 Z 鍵
相似字形字根同分區聚類
相似字形字根同大碼聚類
小碼使用拼音中的字母
小碼 85% 使用拼音首字母
雙手互擊率 60%
嚴格優化鍵位分佈
Z 鍵反查

第三方衍生

基於宇浩輸入法的拆分,部分用戶還創制了其他的衍生方案

吉旦餅

吉旦餅,是阿吉、王牌餅乾發起的一項衍生方案。它採用亂序字根設計、三碼定長、延遲頂字。「吉旦餅」這個名字,來自三名主要開發人:阿吉,forFudan,王牌餅乾。取義於 華夫餅 (wafel),其漢語翻譯應有「雞蛋餅」之義。

輸入三碼後,對應的三碼單字不會上屏,而是將此漢字暫留在預選區,等到第七碼的時候,才頂出第一字。每輸入四碼時,進入臨時四碼模式,可以選擇 Tab 上屏對應的四碼單字。因此可看作加強版的「五三頂」輸入法。

雞蛋餅不取第三字根,故而拆分起來更加簡單,思維壓力較小。三碼一字,也使得輸入的節奏非常舒服。

特點宇浩·星陳吉旦餅
使用最新版本宇浩拆分
支持到 CJK ext-I(四碼模式下)
兼容臺灣字形拆分
字根雙編碼
三碼方案
四碼方案(支持四碼加 Tab 鍵輸入)
單字派碼長~3.15~2.65
一簡二簡個數~600~50
繁簡通打低極選重率 (0.2%)(四碼模式下)
大碼使用 Z 鍵
小碼使用 Z 鍵
相似字形字根同大碼聚類
小碼使用拼音中的字母
小碼 85% 使用拼音首字母
雙手互擊率 60%
嚴格優化鍵位分佈
Z 鍵反查

卿雲爛兮

卿雲爛兮,是錢多多發起的一項衍生方案,特點是亂序、單編、消滅小碼。方案名取自《尚書大傳》之「卿雲爛兮,糺縵縵兮」。取碼規則共兩條:

  1. 依次取第一、二、三、末字根對應的編碼;
  2. 不足四碼時,輸入一個補碼,即末根讀音。

所以,根據字根數量,有以下幾種形式。設首根爲 A,次根爲 B,三根爲 C,末根爲 Z,讀音爲 p。

  1. 單根字:Zp
  2. 雙根字:AZp
  3. 三根字:ABZp
  4. 多根字:ABCZ

卿雲取碼歌訣

一二三末取字根 單根成字即自身
雙根便作首和末 三根首二同末存
字根表中找編碼 二十五鍵莫看岔
依次填入根字母 不足四碼加補碼
補碼就是末根音 以下法則心裡記
魚化v來衣作i 口補v外無特例

末根補碼規則舉例
v頻率最高的字根,補碼爲 v
v讀音爲 ㄩ 的,補碼爲 v魚魚雨禺予 月曰
i讀音爲 ㄧ 的,補碼爲 i一乙已乂弋亦衤 言羊用夭

字根是有限的,因此本方案依舊是純形方案,不是形音方案。

由於字根採用亂序設計,卿雲同時兼顧了極低的選重率、優秀的手感、和簡單的規則。其關鍵數據如下:

  • 簡體動態選重率 0.08%
  • 繁體動態選重率 0.08%
  • 繁簡混合動態選重率 0.135%
  • 全碼速度當量 1.27,簡碼速度當量 1.28
  • 單字平均雙手互擊率 65%,連續文本雙手互擊率 45%

鳴謝

本輸入法的設計製作主要借鑑了三個前輩輸入法的優點,在這裡向他們的作者表示極大的敬意和感謝。它們包括:

  • 鄭碼的大字根、雙編碼設計。通過「位碼」而非「結構碼」來挖掘首根的信息。
  • 徐碼對於繁簡通打的支持,以及小碼從拼音字母中選取的特點。使用音託不僅方便記憶,也可以達到更佳的離散。
  • 五筆字型字根分區排布、不使用 Z 鍵的特徵。分區排布方便對於字根的記憶,Z 鍵空出後利於手感,還能用於其他功能,方便各平臺通用。

在輸入法的製作過程中,不少夥伴提出了大量寶貴的意見和建議,幫助它不斷優化進步。特此致以極大的謝意。

  • 錢多多爲輸入法的推廣作出大量的努力。還繪製了黑體的字根圖、設計了輸入法的 Logo 和 Android 上的定製方案。可謂「首席藝術委員」。
  • 阿吉始終鼓勵作者開發一款新的輸入法,他的很多觀點和設計哲學同作者不謀而合,也堅定了宇浩輸入法講客觀、講實用的理念。他爲輸入法的字根規律性和易學性提出了大量建議,使折區字根的排布上了一個臺階。可謂「首席哲學委員」。
  • 宋天爲輸入法的規則的完善提出了大量意見和建議,找出了很多拆分上的不合理之處,尤其是在大字集的拆分上,他的建議至關重要,也使宇浩輸入法在常用字集內拆分無二義、規則無矛盾。可謂「首席拆分委員」。
  • 王牌餅乾不僅設計了非常好用的「宇浩三碼頂」方案,還爲 RIME 方案編寫了優秀的 Lua 代碼。可謂「首席技術委員」。

還有不少朋友爲輸入法的優化提出了寶貴的意見和建議,此處不一一致謝。

有聯爲證:

漢字十萬,豈宇浩獨收八九?
字根兩百,因諸君而改二三。

腳註


  1. 中華人民共和國國家標準《古籍印刷通用字規範字形表》(GB/Z 40637-2021):https://openstd.samr.gov.cn/bzgk/gb/newGbInfo?hcno=52E2DE28D439C1937EE09AE4B5AA615B ↩︎

  2. 兩岸三地三套標準包括:大陸簡體、大陸繁體、臺灣正體。另外,宇浩輸入法還兼容符合 OpenCC 用字標準的詞語。 ↩︎

  3. 「最常用漢字」的定義依賴於文本空間。關於本測評中所用的字頻數據的來源,請參閱此頁面↩︎

  4. 這裡的繁簡混合字頻來源於簡體字頻和繁體字頻。假設一個人一半時間打簡體,一半時間打繁體,那麽便適用於此數據。 ↩︎

宇浩输入法官网