補充16組一繁對多簡
《通用規範漢字表》附件1列出了52個繁體字和異體字可以不簡化的情況。除掉目前已經收錄的、異體字本身就是傳承字(無需轉換)、繁簡採用相同的正字標準(只轉換對應正字,不交叉轉換異體字,比如爐<->炉,鑪<->𬬻,不納入爐<->𬬻和鑪<->炉),有16組一繁對多簡尚未收錄。全部是簡體字中認定一個字在某些情況下是異體字,但繁體中並不將該字認定為異體字。 剋:表示訓斥、打人時,不簡化作「克」 吒:用於姓氏人名時不規範作「咤」 昇:用於姓氏人名時不簡化作「升」 椏:用於姓氏人名、地名、科技術語時類推簡化作「桠」,不簡化作「丫」 氾:用於姓氏人名時不規範作「泛」 甦:用於姓氏人名時不簡化作「苏」 甯:用於姓氏人名時不簡化作「宁」 祕:用於姓氏人名時不規範作「秘」 絜:用於姓氏人名時不簡化作「洁」 脩:解作乾肉時不規範作「修」 蒐:解作草名或春獵時不規範作「搜」 袷:用於「袷袢」時不規範作「夹」 逕:用於姓氏人名、地名時類推簡化作「迳」,不規範作「径」 釐:通「禧」時不簡化作「厘」 陞:用於姓氏人名時不簡化作「升」 颺:用於姓氏人名時類推簡化作「飏」,不規範作「扬」
#484, #492 已經躺很久了XD
#484, #492 已經躺很久了XD
如果不能 merge 的話我準備加到新的 StarCC 裏面
我纔反應過來是異體字轉換問題(捂臉
@ayaka14732 剛剛看了下 StarCC,發現居然是 py 模組。 不過看樣子構造不算複雜,可以用 Swift 重寫一遍的樣子。我回頭試試看。
@ayaka14732 剛剛看了下 StarCC,發現居然是 py 模組。 不過看樣子構造不算複雜,可以用 Swift 重寫一遍的樣子。我回頭試試看。
太好了!其實很簡單,就是「正向最長匹配」,我也希望 StarCC 有更多語言的實現
@ayaka14732 我主要是有倉庫潔癖而已,威注音輸入法目前剩下的唯一非 Swift 框架就是 OpenCC 了。 每次安全檢查查出一堆安全疑慮報告都是 OpenCC 的 cpp 內容。 不過,您這倉庫裡面沒有辭典,敢情是直接讀取尚未編譯的 txt? 如果是這樣的話,我得研究一下資料格式了。 (Swift 的資料格式最優解是 plist dictionary 與 sqlite,前者肥一些但是最省事。)
P.S.: StarCC 那邊可以考慮開放 Discussion 版面。在這邊哈啦可能有點不合適。
似乎應該同時修改 https://github.com/BYVoid/OpenCC/blob/master/data/scheme/ts_multi.txt,還可以加上解釋,類似 https://github.com/BYVoid/OpenCC/blob/master/data/scheme/st_multi.txt 的做法
@ShikiSuen 已添加解釋