papers
papers copied to clipboard
Summarizing the papers I have read (Japanese)
## 論文概要 セマセグにおけるドメイン汎化を改善するために、ソース内スタイル Augmentation(ISSA)を提案。新しいMasked Noised Encoderをベースに意味的なレイアウトを保持したまま全体的な外観を変化可能。他のドメイン汎化技術と排他的でなく組み合わせられセマセグの性能を向上可能。  https://arxiv.org/abs/2210.10175 ## Code 未確認。
## 論文概要 従来の画像強調手法の多くは低照度条件に焦点を当てており、露出オーバーの画像に対応できなかった。そこであらゆる露出に対応した教師なしの画像強調手法を提案。擬似的なGT画像を生成しモデルを学習する。教師あり手法と同等レベルの結果が得られるとのこと。  https://arxiv.org/abs/2210.00712 ## Code https://github.com/vinairesearch/psenet-image-enhancement
## 論文概要 Depthの補完をコストボリュームベースで行う。パラメータ数は約軽量(1.8M)かつ、リアルタイム(30ms)で動作可能。性能もSOTA相当。軽量CNNと効率的なアップサンプリングモジュールのみで構成され、複雑なアーキテクチャを必要としない。  https://www.ecva.net/papers/eccv_2022/papers_ECCV/html/5688_ECCV_2022_paper.php ## Code https://github.com/kamse/CostDCNet
## 論文概要 偏光から得られる幾何学的情報を物理的な手がかりとして活用する6D物体ポーズ推定。RGBD入力のSoTAの性能を凌駕し、特に反射面や透明面などのテクスチャを持たない物体に対して有効。ちなみに学習型。  https://daoyig.github.io/PPPNet/ ## Code https://github.com/DaoyiG/polarimetric-pose-prediction
## 論文概要 従来の偏光情報からの法線(位相角)推定は正射影を仮定しているが、カメラの視野が広い場合は誤差が大きくなる。そこで透視投影のカメラに適用可能な位相角モデルを提案。より正確になった上に、今まで課題であった180°不定性の問題を1ショットで解決可能(数画素見る必要)。  https://arxiv.org/abs/2207.09629 ## Code https://github.com/gcchen97/ppa4p3d
## 論文概要 単眼Depth推定SoTAをAttentionを使い倒すことで達成。提案するSkip Attention Moduleは通常の畳み込みベースのスキップ接続とは異なり長距離依存性を持つデコーダ特徴を融合することができ、より正確な深度ラベルを導出可能。  https://arxiv.org/abs/2210.09071v1 ## Code https://github.com/ashutosh1807/pixelformer
## 論文概要 自己教師+マルチタスク学習(MTL)による単眼Depth推定+Panoptic Segmentation。かなり難しそうな問題設定だが、ロスのバランスの調整さえ頑張れば、どちらのタスクも効果的に学習が可能になるとのこと。  https://arxiv.org/abs/2210.07577 ## Code 未確認
## 論文概要 分類器の未知クラスのサンプルの扱いを正しく評価するために、ILSVRC2012データセットに対して、複雑さの異なる 3 つの新しい評価プロトコルを導入。実世界のシナリオに近い学習データとテストデータを提供するためにImageNetクラスのサブセットで構成。  https://arxiv.org/abs/2210.06789 ## Code 未確認
## 論文概要 認識タスク等にはデモザイク等のISP処理は(あまり)いらないのでバイパスするのが効率的、というのが通説になっているが、大規模データセットの多くがRGB画像で構成されているためRAW画像でDeepなモデルを学習することは困難。そこで大規模RAW画像データベースを公開(予定)。 このデータセットはInvertibleなNNを用いてISPパイプライン全体を反転することによって生成される。またRaw画像を直接使うよりも精度向上させるためにセンサ画素配列上に直接実装可能な低オーバーヘッドの画素内デモザイクを提案。アナログドメインで加算等を行い、データ帯域幅を削減することが可能。  https://arxiv.org/abs/2210.05451 ## Code 未確認
## 論文概要 ウェブから収集された顔画像データセットは(人種、照明、化粧等)著しく偏りがあり、ラベルノイズもあり、更にプライバシーの課題もある。そこでCGでデジタル顔をレンダリングし100万枚以上の顔認識用の合成データセットを導入し、上記課題を解決。  https://arxiv.org/abs/2210.02579 ## Code & Dataset https://github.com/microsoft/digiface1m