BEILOP
BEILOP
另外,有时间的话我们也可以整理下事件领域的前沿工作者、知识整理者、分享者(比如您)以及他们的资源
是的,我在做金融事件抽取的工作,算是刚入门,最近想整理下篇章级抽取相关的东西写出来,您整理的资源帮助很大。 方便的话,可以微信交流,我微信号:qq781933206,或者我加您也可以。如果需要人手一起整理,我非常乐意加入。
> @dolphin-zs你能展示更多关于如何使用基于 DS 的方法来生成标记数据的细节吗?我目前正在研究新闻数据的事件提取,但我陷入了缺乏数据源的困境。我想实现论文中显示的方法来生成新闻域数据集。 您现在效果如何了,我也在做新闻领域事件抽取,希望可以交流
我该如何修改这里的模型为中文路径,我试了下,直接改为lp://CDLA/picodet_lcnet_x1_0_fgd_layout_cdla_infer/config是跑不通的
万分感谢,如果我想在自己数据上跑,除了修改train_data.json、dev_data.json、test_data.json等数据文件还需要修改哪些东西,有哪些步骤。另外,除了上述,我修改了all_50_schemas.
发现了,读的是cache的数据而不是data下的
第一次eval的时候时间比后面eval的时候长很多,但我还没debug出来是什么情况。好像大概和训练时长差不多长,情况如下: 我仅仅用了自己的16条训练数据和5条测试数据,都是短文本。给了200个epoch,第一次eval明显时间很长。
感谢,认真跟了一下,确实是train_loss较大的时候循环解码导致慢。因为数据量少,所以多学几个再打就不会出现这种情况。 但是我这里发现会出现loss为负的情况,p值、r值和目测效果先上升后下降,但代码没动,也没看出来有什么问题。 ``` global_steps 400 - lr: 0.00002889 loss: 0.10419422 ##--------------------- Dev -------------------------------------------------------------------------------- f1 = 0.3333333333388888 precision = 1.0 recall = 0.20000000000399998 global_steps 600 - lr: 0.00002667 loss: -2.53436604 ##---------------------...
我看苏神说是这个原因,1、mask_zero没处理好;2、同一样本的label中标签出现重复(即目标类别必须是去重过的,不能重复出现,如果开启了mask_zero,那么只能label=0能重复出现,其他也不能重复出现)。 我看了下自己的数据,确实有如下的例子:本专利所说空调,包含空调主体和滤网组件。所说滤网组件,包含滤网、滤芯等。 去抽包含关系的时候,那么标签就出现了重复,但是torch版大佬们实现的过于深奥,我还没看出来咋修改,明天看看苏神的这部分怎么调整。 好像就是xhw205提问的苏神hh,大佬实现了说一声,我学习一下