doc2vec icon indicating copy to clipboard operation
doc2vec copied to clipboard

C++ implement of Tomas Mikolov's word/document embedding

Results 8 doc2vec issues
Sort by recently updated
recently updated
newest added

Is this implementation the distributed bag of words ('PV-DBOW') or the distributed memory ('PV-DM') model

您好,有几个疑问: 我make完之后,执行了train这个工程,然后程序就执行结束了,之后就没有任何的回馈信息了——就是每个doc的向量存储在哪儿的?如果我要计算与"苹果"这个词最近相似度的词的话,如果写测试代码?在train.cpp里面自己加进去?这样确实有点。。。 如何处理中文文档的?我显示出来是乱码的。

你好,我想使用你这个工具在ubuntu上训练维基百科的中文语料,目前我已经把维基百科中文下载下来并处理成纯文本了,接下来我要怎么做,能否指教一下。

你好,想问几个问题,训练语料每一行的第一列表示什么?比如_*23134。是每一个文档的语料作为一行吗?那相似文档的输出怎么是没有分过词的?

提几个建议: 1、这个使用还需要自己写代码,改成命令行不是更好吗? 2、makefile文件写得不够好,gtest库也不能保证每个人都装,而且编译的时候库的位置每个人不一样,会导致编译出错 3、使用文档说明也太少了,至少说下可以使用命令行啊,建议参考一下facebook、google开源项目的使用说明

两者都是将文档降维成向量,不知 doc2vec 的实际效果怎么样?