aiboys
aiboys
你好,很感谢你的工作。关于一篇论文《Robust scene Text recognition with automatic rectification》里面提到了得到tps的控制点 初始化时,有时候随机初始化时不work的,网络训练不会收敛。想问一下这个是什么情况呢?
OLA问题
Hi, 作者你好。 关于论文中OLA模块进行label assignment时,第三部分关于分层以及边界有以下疑问: 1)algorithm1 给出了高斯的生成方式,其中thr阈值是OBB的边界值,但是公式7)又对边界进行了shrink,所以thr需要在shrink之后的边界处取高斯值吗?不知道这么做的目的是什么呢?类似于FCOS的中心区域采样吗?其中Tiou=0.3是等效于缩放比例是吗? 2)如果上述我理解的没有问题,那么对椭圆两个半轴进行等比例缩放,如果面对很细长的物体是否会造成采样点过少的问题(?比如arxiv2022的[FCOS-R](https://arxiv.org/ftp/arxiv/papers/2111/2111.10780.pdf)的图示:  3)关于层级分配策略,想知道最终只用了三个层级进行匹配吗?根据stride1,stride2,stride3以及图像对角长度,或者对于FPN来说是只考虑p4,p5,p6? 另外,关于论文OWAM是通过类似autoassign的策略进行reweight,想知道OWAM因为是直接采用了回归loss在前期学习会不会不太稳定?因为噪声较多 期待作者的回复,谢谢
https://github.com/aim-uofa/AdelaiDet/blob/7bf9d871909810e5a619eb1a59a5cd5aadf0e1c8/adet/data/augmentation.py#L24 It seems like that there was something error with my annotations? But I have no idea with what is wrong with my own custom datasets' annotations
论文疑问
很感谢这篇很棒的论文! 但在阅读的时候有一些疑惑希望得到解答: (1)在对ATSS, PAA进行对比模糊anchor处理试验的时候,比如figure3,table2, 想问下这两者的模糊anchor定义是什么呢? OTA给了一个阈值0.9进行判断,但这两者不清楚; (2)想问下是否全文的sinkhorn算法涉及到的公示,Si求和的上界是不是应该等于m+1呢?比如eq.1. 期待解答,谢谢
Hi, 作者您好。我用该框架的[faster_rcnn_r50_fpn_1x_dota.py](https://github.com/dingjiansw101/AerialDetection/blob/master/configs/DOTA/faster_rcnn_r50_fpn_1x_dota.py)跑了DOTA V1.0的task2, 除了data文件,其余的配置比如模型、优化器等完全保持不变,没有做任何修改。下面是我的data config: ```python # train trainval = [] train = dict( type=dataset_type, ann_file=data_root + 'official_v10_train1024/train1024_v10.json', img_prefix=data_root + 'official_v10_train1024/images/', img_scale=(1024, 1024), img_norm_cfg=img_norm_cfg, size_divisor=32, flip_ratio=0.5, with_mask=True, with_crowd=True, with_label=True) trainval.append(train)...
作者你好, 请问当时你们有试验backbone换为r18吗? 我将你们官方的v2_attn_r50中的backbone替换为r18+FPN后,检测是正常的,但是识别全为0,但我直接用的是官方的代码(数据集换为我们自己的,r50+BiFPN是正常work的),所以不知道是不是backbone换小了就完全不行了呢?
作者你好, 在你们的ABCNet论文里面有一个对比warp图。然后(a)是说用TPS+STN做的,想问下这部分有代码吗?或者能详细介绍下解决思路吗?在论文里没有看到详细介绍,谢谢
Hi, Thanks for your paper. It has well reviewed the imbalance problems in object detection. But I am wondering if you would release your analysis scripts for your paper's images,...
你好, (1)文中对于channel的选择是将YCbCr三个部分分开作为图4输入进行选择,然后再concatenate(文中图2展示), 还是先concatenate成为192个通道feature map作为图4模块的输入进行整体选择呢(文章后续的实验细节这么描写)? 能解释一下是哪一种吗? (2)关于分割问题的上采样问题,因为文章的网络输入是W/8,H/8尺寸的,那么是不是要在后续进行上采样维持原分辨率呢? 还是通过reshape?似乎在文章没发现描述。 期待你的回答,对此表示十分感谢!!! (文章的idea十分有趣)