yake icon indicating copy to clipboard operation
yake copied to clipboard

Negative or Zero YAKE score

Open justachetan opened this issue 6 years ago • 4 comments

What does a YAKE score that is negative or zero imply?

justachetan avatar Aug 19 '19 16:08 justachetan

I also have this doubt

BeHappyForMe avatar Jul 06 '20 07:07 BeHappyForMe

I think at least negative scores should not result? It seems that the keywords given a negative score are (correctly) highly relevant to the input text (in line with smaller-is-more-relevant ordering of YAKE results), but the negative values can overshoot greatly.

For example, for some Finnish text I'm getting the following:

$ yake -i textfile.txt -n 4 -l fi -v
keyword                                                           score
---------------------------------------------------------  ------------
morrow’n neljä eri sitoutumisen                            -459.937
taulukko                                                      0.0130214
lastensuojelun                                                0.013251
lastensuojelun sosiaalityöntekijöiden                         0.0137784
morrow’n sitoutumisen ulottuvuudet lastensuojelun             0.0174472
sitoutuminen                                                  0.0178739
sosiaalityöntekijöiden työhön sitoutuminen morrow’n           0.0179757
lastensuojelun sosiaalityöntekijöiden työhön                  0.0183498
työhön sitoutumisen                                           0.0186637
lastensuojelun sosiaalityöntekijöiden työhön sitoutuminen     0.022034

(The textfile.txt is crafted to give such an extreme value, on "real" texts I've encountered values from -38 to -0.7.)

One short text that gives a keyword with negative score (actually, as you see the text is taken from a YAKE output):

$ yake -ti '\
morrow’n neljä eri sitoutumisen -12.5494 \
morrow’n sitoutumisen ulottuvuudet lastensuojelun sosiaalityöntekijöiden lastensuojelun sosiaalityön 0.00730972 \
morrow’n sitoutumisen ulottuvuudet lastensuojelun sosiaalityöntekijöiden lastensuojelun 0.00732787'  \
-n 4 -l fi -v
keyword                                                                   score
-----------------------------------------------------------------  ------------
morrow’n neljä eri sitoutumisen                                    -0.827233
morrow’n sitoutumisen ulottuvuudet lastensuojelun                   0.000136636
sitoutumisen ulottuvuudet lastensuojelun sosiaalityöntekijöiden     0.000161529
ulottuvuudet lastensuojelun sosiaalityöntekijöiden lastensuojelun   0.000182362
lastensuojelun sosiaalityöntekijöiden lastensuojelun sosiaalityön   0.0003191
morrow’n sitoutumisen ulottuvuudet                                  0.000812311
ulottuvuudet lastensuojelun sosiaalityöntekijöiden                  0.00108006
sitoutumisen ulottuvuudet lastensuojelun                            0.00137194
lastensuojelun sosiaalityöntekijöiden lastensuojelun                0.0015469
sosiaalityöntekijöiden lastensuojelun sosiaalityön                  0.00189256

I've seen negative scores only with max_ngram_size >= 4. The negative scores can be a bit problematic when the keywords and scores are used in other programs.

juhoinkinen avatar Jan 28 '21 14:01 juhoinkinen

Is there some more input about this? How can zero or negative score be interpreted?

markdimi avatar Apr 16 '23 15:04 markdimi