opencc4j icon indicating copy to clipboard operation
opencc4j copied to clipboard

关于部分异体字实际占用两个字符的情况

Open taowater opened this issue 2 years ago • 1 comments

在实际使用库转换一些古籍文本时,有不少的文字转换失败,实际调试发现,有些异体字如𨦟,其占用两个char作为一个完整意义上的可见字符,而库中源码将字符串转为字符串数组的方式可能会将这种关联断掉,导致转换失败。实际自己的魔改实践发现,java.lang.String#codePointCount方法可以得到一个字符串中所含有的完整【字符】数量,例图二,我想请问您是否有打算兼容这种情况。 image image

taowater avatar Jul 26 '23 08:07 taowater

后续我有时候我看下这个问题。

发自我的iPhone

------------------ 原始邮件 ------------------ 发件人: Zhu56 @.> 发送时间: 2023年7月26日 16:08 收件人: houbb/opencc4j @.> 抄送: Subscribed @.***> 主题: Re: [houbb/opencc4j] 关于部分异体字实际占用两个字符的情况 (Issue #43)

在实际使用库转换一些古籍文本时,有不少的文字转换失败,实际调试发现,有些异体字如𨦟,其占用两个char作为一个完整意义上的可见字符,而库中源码将字符串转为字符串数组的方式可能会将这种关联断掉,导致转换失败。实际自己的魔改实践发现,java.lang.String#codePointCount方法可以得到一个字符串中所含有的完整【字符】数量,例图二,我想请问您是否有打算兼容这种情况。

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you are subscribed to this thread.Message ID: @.***>

houbb avatar Jul 26 '23 12:07 houbb