doc2vec
doc2vec copied to clipboard

→

Metadata

C++ implement of Tomas Mikolov's word/document embedding

Reame
Issues

Results 8 doc2vec issues

Sort by recently updated

PV-DBOW or PV-DM?

5

comment

Is this implementation the distributed bag of words ('PV-DBOW') or the distributed memory ('PV-DM') model

每个doc的向量如何获取？

1

comment

您好，有几个疑问：我make完之后，执行了train这个工程，然后程序就执行结束了，之后就没有任何的回馈信息了——就是每个doc的向量存储在哪儿的？如果我要计算与"苹果"这个词最近相似度的词的话，如果写测试代码？在train.cpp里面自己加进去？这样确实有点。。。如何处理中文文档的？我显示出来是乱码的。

训练方法

你好，我想使用你这个工具在ubuntu上训练维基百科的中文语料，目前我已经把维基百科中文下载下来并处理成纯文本了，接下来我要怎么做，能否指教一下。

几个问题

1

comment

你好，想问几个问题，训练语料每一行的第一列表示什么？比如_*23134。是每一个文档的语料作为一行吗？那相似文档的输出怎么是没有分过词的？

建议

提几个建议： 1、这个使用还需要自己写代码，改成命令行不是更好吗？ 2、makefile文件写得不够好，gtest库也不能保证每个人都装，而且编译的时候库的位置每个人不一样，会导致编译出错 3、使用文档说明也太少了，至少说下可以使用命令行啊，建议参考一下facebook、google开源项目的使用说明

汉字如何处理呀？急急急谢啦

5

comment

How to use

1

comment

doc2vec vs lda

1

comment

两者都是将文档降维成向量，不知 doc2vec 的实际效果怎么样？

About

C++ implement of Tomas Mikolov's word/document embedding

102

Stars

40

Forks

Watchers

Owner

← Metadata

102

Stars

40

Forks

Watchers

Owner

Metadata

C++ implement of Tomas Mikolov's word/document embedding