knows

Results 5 comments of knows

> 可以将数据先存入neo4j 你这个网站后台是连接到neo4j服务器的吗?

是否还可以考虑模型分层,bert12层直接分成12个模型,前面层数的模型的判断不了,就放进pool里面,集体调用后面的。而不是一个batch里面出现一个就一直往下走

> set的方式去重是存在性能问题。 > 可以改成字典树,比如前缀树的方式。 这个set对item_name去重可不可以直接去掉呢,因为 url那里已经去过一次重了,而url貌似正是'https://baike.baidu.com/item/'+item_name这种形式的

还有对value的replace("/n",'') ,有些节点最后还留有一个空格去不掉,这样在neo4j看起来一样,但是按name找不到,因为name后面实际上还有个空格,换成strip() 比较好。

> > > set的方式去重是存在性能问题。 > > > 可以改成字典树,比如前缀树的方式。 > > > > > > 这个set对item_name去重可不可以直接去掉呢,因为 url那里已经去过一次重了,而url貌似正是'[https://baike.baidu.com/item/'+item_name这种形式的](https://baike.baidu.com/item/'+item_name%E8%BF%99%E7%A7%8D%E5%BD%A2%E5%BC%8F%E7%9A%84) > > 不可以的,因为有重名现象,所以必须使用完整的URL作为去重 scrapy好像默认使用 scrapy.dupefilter.RFPDupeFilter 对 url进行去重了呀,应该不需要再自己去重了吧