Kazuma TAKAOKA
Kazuma TAKAOKA
応答がおそくなってごめんなさい。 上記を kuromoji の extended モードでためしたところ、おなじように `sentence:\"関西 国際 空港\"` がつくられていました。 これがただしい挙動なのかはわからないのですが、Es 本体側あるいは使い方の問題なのかもしれません。 引き続き調査します。
The Sudachi dictionary adopts the same `国語研短単位` (NINJAL short unit words) system as UniDic for its part-of-speech system. Please refer to the UniDic manual for a detailed explanation. https://clrd.ninjal.ac.jp/unidic/UNIDIC_manual.pdf We...
@eiennohito I agree with you.
I expect to use DictionaryBuilder.java and UserDictionaryBuilder.java on the command line. Should I use a logger for them?
I've received requests to read the dictionary from the jar, and I know how to do it, but I haven't come up with a spec for the config file and...
I'll archive it now.
I assume you applied the `sudachi_part_of_speech` setting in the README, but I could not reproduce your results here. Please let us know your configuration file and the dictionaries you are...
8.13.2 の kuromoji でも同様の現象がおきているので状況は変わっていません。synonym token filter の挙動などをみると query parser の処理を追加する改良が必要なようです。 sudachi_split は手軽に A/C 単位の併用ができますが同義語展開とあわせると意図しない展開がおきがちで、A単位、C単位で別々に tokenizer を用意した方がよいとかんがえています。この問題の解決がむずかしいようなら sudachi_split は廃止するかもしれません。
Since there are only a few users, we had stopped publishing binary dictionaries for chikkar, please refer to the README of chikkar for how to build a dictionary for chikkar....
The source of the synonym dictionary is available at https://github.com/WorksApplications/SudachiDict/blob/develop/src/main/text/synonyms.txt This is updated together with the morphological dictionary.