在spark中速度很慢,cut能否增加多线程度模式?
您好,我在spark集群中使用了这个包,用了默认的cut,但是为发现并行度很低,只用到了很少度核心去跑。是这个默认的cut方式问题么?cut中是否可以加多线程呢?或者有没有能提高并行度的方法。感谢!
请问您是用的哪个版本的代码?最新发布的版本支持了多线程功能,如果机器资源支持,您可以试试开启更多线程。
我看到你们到代码上只有“pkuseg.test('input.txt', 'output.txt', nthread=20)” 这里有设置多线程,在pkuseg.cut里面没有看到有nthread的设置,请问如何在调用cut的时候设置多线程呢?感谢
您好,目前cut的接口暂时还没有支持多进程。我们目前提供了两种分词接口,一种是对单一字符串分词,也就是cut接口,一种是对文件分词,也就是test接口。考虑到文件输入容量比较大,所以我们仅在文件分词的接口里支持了多进程。如果您待分词的内容比较多,建议使用pkuseg.test,处理起来会比较高效
您好,经过测试,我们发现这个包效果确实比jieba好一些,我司也打算将其进行工业化部署。但是用的是cut的借口,并不能使用test。请问一下,近期你们有打算将cut新增多线程功能么?感谢
要是cut也能增加多线程功能,简直好用的不要不要