A Text Attention Network for
Spatial Deformation Robust Scene Text Image Super-resolution

概要

・ここでは低解像度の画像内のテキストの解像度と可読性を向上させることを目的としています
・CNNの利用によって、大幅な改善が達成されたものの、空間的に変形したテキスト、特に回転したテキストや曲線状のテキストに対して、高解像度にすることはとても困難です
・これは、現在のCNNを用いた手法が局所性に基づく演算を採用していることが、変形に対して有効でないためです
・本論文では、この問題を解決するために、CNNに基づく、Text ATTention network (TATT)を提案します
・まず、テキストの事前情報として、テキストのセマンティクスをテキスト認識モジュールで抽出します
・次に、グローバルアテンションメカニズムを活用した新しい変換器ベースのモジュールを設計し、テキスト再構成プロセスの前にテキストの意味的なガイダンスを発揮させます
・さらに、テキスト構造整合性損失を提案し、正規テキストと変形テキストの再構成に構造整合性を課すことで、視覚的な外観を洗練させます

GitHub - mjq11302010044/TATT: A Text Attention Network for Spatial Deformation Robust Scene Text Image Super-resolution (CVPR2022)

A Text Attention Network for Spatial Deformation Robust Scene Text Image Super-resolution (CVPR2022) - mjq11302010044/TATT