Составить список недостающих слов из Викисловаря
Скрипты: https://github.com/grandsbor/opencorpora-junk/tree/master/wiktionary_import Описание скриптов: https://code.google.com/p/opencorpora/issues/detail?id=157#c46
Дамп Викисловаря можно взять тут: http://dumps.wikimedia.org/ruwiktionary/latest/
- Запустила скрипты.
- Добавила некоторые шаблоны для сущ-х, также создала новые шаблоны для прил-х и наречий.
- Посмотрела на всё глазами.
- Удалила те слова, которые не совпадают с тем, что есть в корпусе.
- Добавила пометы slng, infr, pltm и подобное.
Всего новых 1400 слов, ну там вообще много нормальных: стейк, дедлайн, аварийка, госуслуга и т. д. прил -- adjf.zip сущ -- nouns.zip наречия -- form_adv_unkn.txt
Нормален ли формат прил-х и наречий для автопереноса в словарь?
В каком виде генерировать глаголы и их формы (прич-я, деепр-я ), чтобы при импорте не потерялись связи?
Формат нормальный.
Кажется, проще потом расставить связи отдельно, имея список пар лемм.
Существительные залил
И наречия залил
Новые извлечённые существительные и наречия: adv_nouns_2020.zip (~ 150 штук). Просмотрены вручную, лишние удалены, поэтому айди в файлах не подряд.
Добавила некоторые шаблоны для сущ-х, также создала новые шаблоны для прил-х и наречий.
@Shimorina Настя, эти твои правки где-то сохранены? Будет жалко, если пропадут.
@Shimorina Настя, эти твои правки где-то сохранены? Будет жалко, если пропадут.
Да, они все есть в репозитории в scripts/wiktionary_import
Новые извлечённые существительные и наречия: adv_nouns_2020.zip (~ 150 штук). Просмотрены вручную, лишние удалены, поэтому айди в файлах не подряд.
и новые прилагательные: adj_2020.zip (~60 шт.)