GUI Groundingを革新！Gaussian Rewardの威力

紹介論文
1. この論文を一言でまとめると
GUI Groundingとは？なぜGaussian Rewardなのか
GUI-G2アーキテクチャ：Gaussian Rewardの詳細解説
実験結果：GUI-G2はなぜ高性能なのか？
Gaussian Rewardの優位性：ロバスト性と汎用性
GUI-G2の応用：GUI Agent開発への展望
1. GUI-G2を実用的なGUI Agentに活かす
2. GUI Agent開発、今後の研究の方向性
まとめ：GUI-G2が描くGUI Groundingの未来

紹介論文

今回紹介する論文はGUI-G$^2$: Gaussian Reward Modeling for GUI Groundingという論文です。

https://arxiv.org/pdf/2507.15846v1.pdf

この論文を一言でまとめると

GUI-G2は、GUI Groundingを連続的な空間最適化問題として再定義し、Gaussian Rewardを用いて高精度なGUI Agentを実現します。既存手法の限界を克服し、ロバスト性と汎用性を向上させるGUI-G2の革新的なアプローチを解説します。

GUI Groundingとは？なぜGaussian Rewardなのか

GUI Grounding は、自然言語の指示に基づいてGUI要素を正確に特定し、操作を可能にする基盤技術です。自動GUIエージェントは、人間とコンピュータのインタラクションを革新し、多様なアプリケーションで自然言語によるインターフェース制御を実現します。

GUI Groundingの重要性

GUI Groundingは、自動GUIエージェントの中核を担い、自然言語による指示をインターフェース上の正確なピクセル座標にマッピングする重要な役割を果たします。この技術は、例えば以下のような場面で役立ちます。

音声アシスタントによるGUI操作
視覚障碍者向けのGUI支援
RPA（ロボティック・プロセス・オートメーション）

これらのアプリケーションにおいて、GUIを自然言語で操作できることは、アクセシビリティと効率性を飛躍的に向上させます。

既存手法の課題：二値報酬の限界

既存の強化学習アプローチは、GUI要素をヒット・ミス型のターゲットとして扱い、二値報酬（Binary Reward）を使用しています。二値報酬とは、ターゲット領域の内外で報酬が1または0に固定される方式のことです。しかし、この方式には以下のような問題点があります。

空間的な連続性を無視し、学習信号が疎になる
クリックの品質が要素の中心からの距離に応じて連続的に変化するという側面を無視
GUI要素が本質的に空間構造を持つ二次元領域であるという側面を無視

二値報酬システムは、予測がターゲット領域から1ピクセル外れるだけでも完全な失敗として同じゼロ報酬を与えるため、学習信号が非常に疎になってしまうのです。

Gaussian Rewardという解決策

本論文では、人間のクリック行動がターゲット要素の中心にGaussian分布を形成するという観察に基づき、Gaussian Rewardを導入します。 Gaussian Rewardは、GUI要素をインターフェース平面上の連続的なGaussian分布としてモデル化し、密な学習信号を提供するものです。

GUI Groundingを疎な二値分類から密な連続最適化に変換
よりロバストで効率的な学習を可能にする
従来の二値報酬システムが抱える問題を解決する

GUI-G2は、GUI Groundingを、離散的な二値信号から幾何学的に認識された連続的なフィードバックへと根本的に変革する、原則に基づいたアプローチなのです。

GUI-G2アーキテクチャ：Gaussian Rewardの詳細解説

GUI-G2は、GUI Groundingを連続的な空間最適化問題として捉え直し、高精度なGUI Agentの実現を目指す革新的なアプローチです。このセクションでは、GUI-G2のアーキテクチャを詳細に解説し、その核心となる要素を明らかにします。

GUI-G2の全体像：連続的な空間モデリング

GUI-G2は、GUIインタラクションを連続的な空間プロセスとしてモデル化します。これは、従来の二値報酬に基づくアプローチとは異なり、GUI要素間の関係性をより自然かつ詳細に捉えることを可能にします。GUI-G2のアーキテクチャは、以下の3つの主要な要素で構成されています。

Gaussian Point Rewards: 正確なローカリゼーションを促進
Gaussian Coverage Rewards: 空間的な整合性を評価
Adaptive Variance Mechanism: 要素のスケールに応じた報酬分布の調整

これらの要素が相互に作用することで、GUI-G2はGUI Groundingを疎な二値最適化から密な連続推論へと変換し、モデルがより高度な空間認識能力を獲得し、ロバストなインタラクション戦略を学習することを支援します。

Gaussian Point Rewards：正確なローカリゼーション

Gaussian Point Rewardsは、GUI要素の重心を中心とする指数関数的に減衰するGaussian分布を利用して、GUI要素の正確な位置特定をモデル化します。予測されたクリック位置が、ターゲット要素のGaussian分布とどれだけ一致しているかを測定することで、ローカリゼーションの精度を評価します。

予測されたクリック位置が正解の要素重心と完全に一致する場合、報酬は最大値1に達します。そして、クリック位置が重心から離れるにつれて、報酬は滑らかかつ指数関数的に減少します。この滑らかな減少は、モデルが正解からわずかに外れた場合でも、学習信号を受け取れることを意味します。これにより、GUI-G2は、より正確なローカリゼーションを効率的に学習できます。

数式で表すと、Gaussian Point Rewardは次のようになります。

R_point = N(μ_p; μ_gt, Σ_gt)

ここで、μ_pは予測されたバウンディングボックスの中心、μ_gtは正解のバウンディングボックスの中心、Σ_gtは正解のバウンディングボックスに関連付けられた共分散行列を表します。

Gaussian Coverage Rewards：空間的な整合性

Gaussian Coverage Rewardsは、予測されたクリック位置とターゲット要素の空間的な重なりを評価することで、GUIインタラクションにおける空間的な整合性をモデル化します。ユーザは、GUI要素の中心を正確にクリックするとは限りません。要素の境界内をクリックした場合でも、インタラクションは成功とみなされます。

Gaussian Coverage Rewardsは、この側面を考慮に入れるために、予測されたGaussian分布とターゲット要素のGaussian分布の間の空間的な重なりを測定します。この重なりは、Bhattacharyya係数を使用して定量化され、中心のずれとサイズ/形状の類似性の両方を考慮に入れます。

数式で表すと、Gaussian Coverage Rewardは次のようになります。

BC(Np, Ngt) = ∫√(N(x; μ_p, Σ_p) * N(x; μ_gt, Σ_gt)) dx

ここで、NpとNgtは、それぞれ予測と正解のGaussian分布を表します。

Adaptive Variance Mechanism：要素のスケールへの適応

GUI要素は、小さなアイコンからフルスクリーンのパネルまで、サイズが大きく異なります。固定された分散パラメータを使用すると、小さな要素が過小評価されたり、大きな要素が過大評価されたりする可能性があります。

GUI-G2は、この問題に対処するために、要素のサイズに基づいて報酬分布を動的に調整するAdaptive Variance Mechanismを導入します。このメカニズムは、要素のサイズを考慮することで、GUIコンポーネント全体で一貫した学習信号を保証します。この調整により、小さなアイコンのような精密なターゲティングを必要とする要素と、大きなボタンのようなより広い範囲でのインタラクションが可能な要素とのバランスを取ることができます。

Adaptive Variance Mechanismでは、Gaussian分布の分散（標準偏差の二乗）を要素の寸法に比例させます。数式で表すと、次のようになります。

σ_x = α * (x2 - x1)
σ_y = α * (y2 - y1)

ここで、σ_xとσ_yはそれぞれx軸とy軸方向の標準偏差、x1、y1、x2、y2は要素のバウンディングボックスの座標、αは要素サイズに対する標準偏差の相対的な影響を制御するスケーリング係数です。

この適応メカニズムは、Gaussian Point RewardsとGaussian Coverage Rewardsの両方に適用され、インターフェース階層全体で一貫した動作を保証します。

GUI-G2：空間的な相互作用を捉えるアーキテクチャ

GUI-G2は、Gaussian Point Rewards、Gaussian Coverage Rewards、Adaptive Variance Mechanismを組み合わせることで、GUIインタラクションにおける空間的な側面を包括的に捉えることができます。このアーキテクチャは、従来の二値報酬に基づくアプローチの限界を克服し、よりロバストで汎用的なGUI Groundingを可能にします。

次のセクションでは、GUI-G2の性能を評価するために行われた実験結果について詳しく見ていきます。

実験結果：GUI-G2はなぜ高性能なのか？

GUI-G2がなぜ高性能なのか？その秘密を解き明かすため、実験設定、使用データセット、評価指標を詳しく解説します。そして、既存手法との比較を通じて、GUI-G2が特にScreenSpot-Proにおいて、圧倒的な性能向上を達成していることを定量的に示します。

実験設定：再現性を高めるために

実験の再現性を高めるため、詳細な設定を以下にまとめました。

* **ベースモデル**：Qwen2.5-VL-7B-Instruct (Bai et al., 2025)を採用。
* **フレームワーク**：VLM-R1フレームワーク (Shen et al., 2025)をベースに構築。
* **計算リソース**：NVIDIA A100-80G GPUを8基使用し、大規模な計算に対応。
* **ハイパーパラメータ**：学習率（le-6）、グローバルバッチサイズ（8）、1回の指示あたりにサンプリングする応答数（8）、KLペナルティ（β = 0.04）など、重要なパラメータを丁寧に調整。
* **Gaussian Reward**：Gaussian Rewardのメカニズムを最大限に活かすため、α = 0.5に設定。
* **高速化**：Flash Attention 2 (Dao, 2023)とbfloat16精度を使用し、学習効率を向上。
* **推論**：温度0で決定論的な生成を使用し、結果の安定性を確保。
* **その他**：特に指定がない限り、νとγは1.0に設定。詳細なトレーニングの詳細は表7、トレーニングおよび推論プロンプトテンプレートは付録A.2に記載。

データセット：多様なGUIを網羅

GUI-G2の性能を正しく評価するため、多様なデータセットを使用しました。

* **トレーニングデータ**: Widget Captioning (Cheng et al., 2024)、UI RefExp (Bai et al., 2021)、ShowUI-web (Lin et al., 2024)、OmniAct (Kapoor et al., 2024)など、約10万件のGUI Groundingインスタンスをサンプリング。
* **評価ベンチマーク**: ScreenSpot (Cheng et al., 2024)、ScreenSpot-v2 (Wu et al., 2024)、ScreenSpot-Pro (Li et al., 2025)を使用。

ScreenSpot-Proは、高解像度のプロフェッショナル向けソフトウェアインターフェースを対象とした、より難易度の高いベンチマークです。

評価指標：Groundingの精度を測る

GUI Groundingの性能を評価するために、標準的なプロトコル (Cheng et al., 2024; Lin et al., 2024) に従い、予測された中心が正解のバウンディングボックス内にある場合に、予測を正しいと判断します。

実験結果：GUI-G2、圧倒的な性能

実験の結果、GUI-G2-7Bは以下の通り、優れた性能を発揮しました。

* **ScreenSpot**: 92.0%の精度を達成。
* **ScreenSpot-v2**: 93.3%という高い精度を記録。
* **ScreenSpot-Pro**: 47.5%と、特に高い改善率を示しました。

GUI-G2は、特にScreenSpot-Proにおいて、既存の強化学習ベースラインを大幅に上回る性能を達成しました。

特に注目すべきは、ScreenSpot-Proでの性能向上です。GUI-G2は、UI-TARS-72Bを9.4%も上回る大幅な改善を達成しました（47.5% vs. 38.1%）。しかも、GUI-G2は、UI-TARS-72Bよりも10分の1少ないパラメータ数でこの成果を達成しています。これは、Gaussian Rewardがより効率的な学習を可能にすることを示唆しています。

さらに、GUI-G2は、テキスト要素において64.7%の精度を達成。UI-TARS-72Bの50.9%と比較して、より高い空間精度が求められるタスクで特に有効であることが示されました。

表3は、さまざまなタスクカテゴリにおけるGUI-G2の性能を詳細に示しています。ぜひご覧ください。

GUI-G2: GAUSSIAN REWARD MODELING FOR GUI GROUNDING – Table 3

多様なインターフェースタイプでの一貫した性能向上は、GUI-G2のアプローチが汎用的であることを裏付けています。

性能向上の要因：Gaussian Rewardの力

GUI-G2がこれほどまでに高性能を発揮する要因は何でしょうか？

* 連続的なGaussian報酬：より効果的な最適化を可能にし、疎な二値報酬の課題を克服。
* ポイント報酬と空間範囲報酬：GUI要素をポイントターゲットとして扱うのではなく、正確なローカリゼーションと空間範囲の両方を明示的にモデル化。
* 適応分散メカニズム：さまざまなGUI要素のスケールに対応し、安定した学習を促進。

これらの要素が組み合わさることで、GUI-G2はGUI Groundingにおいて、これまでの手法を凌駕する性能を実現しているのです。

Gaussian Rewardの優位性：ロバスト性と汎用性

GUI-G2がもたらす真の革新は、その報酬設計にあります。従来のBinary Reward（二値報酬）の限界を克服し、Gaussian Reward（ガウシアン報酬）を採用することで、GUI Groundingにおけるロバスト性と汎用性を飛躍的に向上させているのです。ここでは、Gaussian Rewardがなぜ優れているのか、具体的な事例を交えながら解説します。

Binary Rewardの限界：スパースな学習信号

従来のGUI Grounding研究では、GUI要素をクリックできたか否かを0/1で評価するBinary Rewardが主流でした。しかし、このアプローチには根本的な問題があります。

* **学習信号の欠如**: ターゲット領域からわずかに外れた場合でも、全く同じ0という報酬が与えられます。これは、モデルが「どのように改善すれば良いか」を学習するための手がかりを奪ってしまうことを意味します。
* **不安定な学習**: 報酬が離散的であるため、学習プロセスが不安定になりやすく、モデルの性能が大きく変動する可能性があります。

GUI-G2の研究チームは、このBinary Rewardの課題を克服するために、画期的なアプローチを採用しました。

Gaussian Reward：滑らかな勾配と豊富な情報

GUI-G2では、GUI要素を単なる「当たり/外れ」のターゲットではなく、Gaussian分布としてモデル化します。これにより、以下のメリットが生まれます。

* **詳細な空間情報**: クリック位置がターゲットの中心に近いほど高い報酬が得られるため、モデルはより正確なローカリゼーションを学習できます。
* **安定した学習**: 報酬が連続的に変化するため、学習プロセスが安定し、モデルの性能が向上しやすくなります。
* **ロバスト性**: ノイズや変動に対して強く、さまざまなGUI環境に適応できます。

Fitts’ Lawとの関連
人間のクリック行動は、ターゲットのサイズと距離に応じて変化することが知られています（Fitts’ Law）。Gaussian Rewardは、この人間の行動特性を自然に反映しており、より人間らしいGUI Agentの実現に貢献します。

例えば、ボタンをクリックするタスクを考えてみましょう。Binary Rewardでは、ボタンの領域内をクリックすれば一律で報酬1が得られます。しかし、Gaussian Rewardでは、ボタンの中心に近いほど高い報酬が得られるため、モデルはより正確に中心を狙うように学習します。また、ボタンの端をクリックした場合でも、報酬が0になるわけではないため、「もう少し中心に近づければ良い」という改善の方向性を知ることができます。

GUI-G2のロバスト性と汎用性を支える要素

GUI-G2が優れたロバスト性と汎用性を実現している背景には、Gaussian Reward以外にも重要な要素があります。

* **Gaussian Point Rewards**: 正確なローカリゼーションをモデル化します。
* **Gaussian Coverage Rewards**: 空間的な重なりを評価し、クリック領域の適切さを評価します。
* **Adaptive Variance Mechanism**: GUI要素のサイズに応じて報酬分布を調整し、さまざまなGUI環境への適応力を高めます。

これらの要素が組み合わさることで、GUI-G2は従来のGUI Grounding手法を凌駕する性能を発揮しているのです。

実世界のGUI Groundingへの貢献

GUI-G2のロバスト性と汎用性は、実世界のGUI Groundingにおいて大きなメリットをもたらします。

* **多様なGUI環境への対応**: さまざまなデザインやレイアウトを持つGUI環境でも、安定した性能を発揮します。
* **ノイズに対する耐性**: ユーザーの不正確なクリックや、GUI要素の変動（例：アニメーション）に対しても、ロバストな動作を実現します。
* **高度なタスクへの対応**: 複雑なGUI操作を伴うタスクでも、正確なローカリゼーションと適切なクリック領域の選択により、高い成功率を達成します。

GUI-G2は、GUI Grounding技術をより実用的で信頼性の高いものにし、自動GUIエージェントの普及を加速させる可能性を秘めていると言えるでしょう。

GUI-G2の応用：GUI Agent開発への展望

GUI-G2の革新的なアーキテクチャは、単なる研究成果に留まらず、実用的なGUI Agent開発に大きな可能性を秘めています。ここでは、GUI-G2の知見をどのように応用し、GUI Agent開発の未来を切り開けるのか、具体的な展望と今後の研究の方向性を示唆します。

GUI-G2を実用的なGUI Agentに活かす

GUI-G2が提供する、よりロバストで汎用的なGUI Groundingのアプローチは、様々なGUI Agentの精度向上に貢献します。特に、以下の点が重要です。

* **既存アーキテクチャへの組み込みやすさ：** GUI-G2のGaussian Rewardは、既存のGUI Agentの報酬関数を置き換える形で容易に組み込むことが可能です。例えば、既存の強化学習ベースのAgentにおいて、二値報酬をGaussian Rewardに置き換えるだけで、性能向上が期待できます。
* **多様なGUIへの対応力：** Gaussian Rewardは、様々なGUIインターフェースタイプで効果を発揮します。Webアプリケーション、デスクトップアプリケーション、モバイルアプリケーションなど、様々な環境で動作するGUI Agentに適用可能です。
* **高解像度インターフェースへの強み：** GUI-G2は、高解像度のプロフェッショナルソフトウェアインターフェースで特に効果を発揮します。画像編集ソフトやCADソフトなど、複雑なUIを持つアプリケーションの自動操作において、その真価を発揮します。

具体的には、以下のようなGUI Agent開発への応用が考えられます。

* **テスト自動化：** GUI-G2を活用することで、ソフトウェアのGUIテストを自動化し、テスト工数を大幅に削減できます。複雑な操作手順も、自然言語で記述することで、GUI Agentが自動的に実行し、テスト結果をレポートします。
* **RPA（Robotic Process Automation）：** 企業の定型業務を自動化するRPAにおいても、GUI-G2は威力を発揮します。GUIベースのアプリケーション操作を自動化し、業務効率を大幅に向上させます。
* **アクセシビリティ支援：** GUI-G2は、視覚障碍者など、GUI操作が困難な人々を支援するGUI Agentの開発にも貢献できます。自然言語による指示でGUI操作を代行し、情報へのアクセスを容易にします。

GUI Agent開発、今後の研究の方向性

GUI-G2は、GUI Agent開発の可能性を広げる上で大きな一歩ですが、今後の研究によって、さらなる発展が期待されます。以下に、今後の研究の方向性を示唆します。

* **計算効率の向上：** GUI Agentが複雑なタスクをリアルタイムに処理するためには、計算効率の向上が不可欠です。モデル圧縮技術やハードウェアアクセラレーションなど、様々なアプローチが考えられます。
* **視覚意味推論の強化：** GUI AgentがGUI要素の意味をより深く理解するためには、視覚意味推論の強化が重要です。画像認識技術や自然言語処理技術を組み合わせることで、GUI要素の機能をより正確に把握できるようになります。
* **大規模データセットの構築：** GUI Agentの学習には、大量のデータが必要です。様々なGUIインターフェースを網羅した、大規模データセットの構築が急務です。
* **自己教師あり学習と転移学習：** 大規模データセットの構築にはコストがかかります。自己教師あり学習や転移学習を活用することで、少ないデータでも効果的な学習が可能になります。
* **より複雑なタスクへの挑戦：** GUI Agentがより高度なタスクを実行するためには、プランニング能力や推論能力の向上が必要です。強化学習と組み合わせることで、複雑なタスクを段階的に解決できるようになります。

読者の皆様の研究テーマや興味に応じて、これらの研究テーマをさらに深掘りすることも可能です。ぜひ、GUI-G2を参考に、GUI Agent開発の新たな可能性を追求してみてください。

GUI-G2は、GUI Groundingの未来を切り開くための重要な一歩です。この技術を基に、より賢く、より使いやすいGUI Agentが開発されることを期待しましょう。

まとめ：GUI-G2が描くGUI Groundingの未来

本記事では、GUI Groundingにおける革新的なアプローチであるGUI-G²について解説しました。GUI-G²は、従来の二値報酬に代わり、Gaussian Rewardを用いることで、よりロバストかつ汎用的なGUI Groundingを実現します。その影響と、GUI Agent開発の未来についてまとめます。

GUI-G2がGUI Groundingに与える影響

GUI-G²は、GUI Groundingを連続的な空間最適化タスクとして再定義しました。これは、GUI要素の空間的な特性をより忠実に捉え、より自然なインタラクションを可能にします。
GUI-G²は、GUI Groundingにおける報酬設計のための、より原則に基づいた効果的なアプローチを提供します。Gaussian Point RewardとGaussian Coverage Rewardの組み合わせにより、正確なローカリゼーションと空間的な整合性の両方を最適化します。
Gaussian Rewardは、従来の疎な二値報酬と比較して、よりロバストで汎用的な学習信号を提供します。これにより、GUI Agentは、多様なインターフェースやタスクに対して、より柔軟に対応できるようになります。
GUI-G²は、高解像度のプロフェッショナルソフトウェアインターフェースにおいて、最先端のモデルを上回り、最大24.7%の改善を達成しました。これは、GUI-G²が実用的なGUI Agent開発において、非常に有望な技術であることを示しています。

GUI Agent開発におけるGaussian Rewardの可能性

Gaussian Rewardは、GUI Agent開発のための有望な方向性を提供します。GUI-G²の成功は、報酬設計がGUI Groundingの性能に大きく影響することを示唆しており、今後の研究開発の重要な指針となります。
GUI-G²は、GUI Agentがより複雑で現実的なタスクを処理できるようにするための基盤を提供します。Gaussian Rewardを用いることで、GUI Agentは、ユーザの意図をより正確に理解し、多様な状況に適応したインタラクションを実現できます。
今後のGUI Agent開発においては、Gaussian Rewardの可能性を最大限に引き出すための研究が不可欠です。例えば、報酬の重み付けや分散の調整方法、異なるタスクや環境への適応性などを探求することで、GUI Agentの性能をさらに向上させることが期待されます。

読者へのメッセージ

GUI-G²は、GUI Groundingにおける重要な進歩を表しており、GUI Agent開発の将来に大きな影響を与える可能性があります。この分野の研究に参加し、GUI Agentの可能性を最大限に引き出すために、Gaussian Rewardとその他の革新的なアプローチを探求することを奨励します。あなたの貢献が、よりスマートで使いやすいGUI Agentの実現につながることを願っています。

GUI Agentは、私たちのデジタルライフをより豊かにする可能性を秘めています。GUI-G²のような革新的な技術を通じて、誰もが簡単にコンピュータを操作できる未来を目指し、共にGUI Agent開発のフロンティアを切り拓いていきましょう！