pkuseg-python icon indicating copy to clipboard operation
pkuseg-python copied to clipboard

在spark中速度很慢,cut能否增加多线程度模式?

Open xingyan-ai opened this issue 6 years ago • 5 comments

您好,我在spark集群中使用了这个包,用了默认的cut,但是为发现并行度很低,只用到了很少度核心去跑。是这个默认的cut方式问题么?cut中是否可以加多线程呢?或者有没有能提高并行度的方法。感谢!

xingyan-ai avatar Feb 21 '19 10:02 xingyan-ai

请问您是用的哪个版本的代码?最新发布的版本支持了多线程功能,如果机器资源支持,您可以试试开启更多线程。

jingjingxupku avatar Feb 22 '19 13:02 jingjingxupku

我看到你们到代码上只有“pkuseg.test('input.txt', 'output.txt', nthread=20)” 这里有设置多线程,在pkuseg.cut里面没有看到有nthread的设置,请问如何在调用cut的时候设置多线程呢?感谢

xingyan-ai avatar Feb 22 '19 13:02 xingyan-ai

您好,目前cut的接口暂时还没有支持多进程。我们目前提供了两种分词接口,一种是对单一字符串分词,也就是cut接口,一种是对文件分词,也就是test接口。考虑到文件输入容量比较大,所以我们仅在文件分词的接口里支持了多进程。如果您待分词的内容比较多,建议使用pkuseg.test,处理起来会比较高效

jingjingxupku avatar Feb 25 '19 02:02 jingjingxupku

您好,经过测试,我们发现这个包效果确实比jieba好一些,我司也打算将其进行工业化部署。但是用的是cut的借口,并不能使用test。请问一下,近期你们有打算将cut新增多线程功能么?感谢

xingyan-ai avatar Feb 25 '19 03:02 xingyan-ai

要是cut也能增加多线程功能,简直好用的不要不要

yJun-Chen avatar Jun 28 '19 07:06 yJun-Chen