SWE-Flow：TDDでLLMを鍛えるデータ合成術

紹介論文
1. この論文を一言でまとめると
SWE-Flow：テスト駆動型データ合成の衝撃
ランタイム依存グラフ（RDG）で開発プロセスを可視化
SWE-Flow流データ合成：TDDタスクの自動生成
SWE-Flow-Bench：TDDに特化したLLM評価
実験結果：SWE-FlowデータによるLLM性能向上
SWE-Flowの限界と未来：さらなる進化へ
1. SWE-Flowの限界
2. 今後の展望

紹介論文

今回紹介する論文はSWE-Flow: Synthesizing Software Engineering Data in a Test-Driven Mannerという論文です。

https://arxiv.org/pdf/2506.09003v1.pdf

この論文を一言でまとめると

SWE-Flowは、テスト駆動開発（TDD）の原則に基づいてソフトウェアエンジニアリングデータを合成する革新的なフレームワークです。LLMの性能向上に貢献し、ソフトウェア開発の自動化を促進します。

SWE-Flow：テスト駆動型データ合成の衝撃

ソフトウェア開発の世界に、新たな風が吹き始めています。その名もSWE-Flow。これは、単なるツールではありません。テスト駆動開発（TDD）の原則を核とした、データ合成の革新的なフレームワークなのです。

### TDDの原則とは？

開発の初期段階でテストケースを記述し、そのテストをパスするようにコードを実装する。このTDDという手法が、SWE-Flowの根幹を支えています。なぜTDDが重要なのでしょうか？

TDDは、バグの早期発見、高品質なコードの生成、そしてソフトウェアの信頼性を向上させるための鍵なのです。

### 既存手法との違い

従来のソフトウェアエンジニアリングデータは、主に人間の手によるissue報告に依存していました。しかし、SWE-Flowは違います。ユニットテストから増分開発ステップを自動的に推論し、高レベルの要件をカプセル化するのです。

SWE-Flowは、TDDの原則を活用することで、開発タスクを明確な構造と目標で自動生成します。

### SWE-Flowの革新性

SWE-Flowは、以下の3つの点で、既存手法を大きく凌駕します。

1. スケーラビリティ：既存のデータフィルタリングの必要性を軽減し、どんなコードベースでも容易にTDD準拠のトレーニングデータを合成できます。
2. 検証可能性：データはユニットテストに基づいているため、生成されたコードは実行可能であり、検証可能です。
3. 設定可能性：関数呼び出しの複雑さに基づいて難易度を調整でき、LLMのトレーニングと評価に多様なレベルを提供します。

### なぜSWE-Flowが重要なのか？

SWE-Flowは、LLM（大規模言語モデル）のトレーニングデータセットを生成するための新しいアプローチを提供します。高品質で検証可能なデータセットは、LLMの性能を向上させ、ソフトウェア開発の自動化を促進する上で不可欠です。

SWE-Flowは、ソフトウェア開発の未来を切り拓く、革新的なデータ合成フレームワークなのです。

この革新的なフレームワークが、どのように開発プロセスを可視化し、データ合成を自動化するのか。次のセクションでは、SWE-Flowの中核技術であるランタイム依存グラフ（RDG）について詳しく解説します。

ランタイム依存グラフ（RDG）で開発プロセスを可視化

SWE-Flowの核心をなすのが、ランタイム依存グラフ（RDG: Runtime Dependency Graph）の構築です。RDGは、ソフトウェア開発における関数間の複雑な相互作用を正確に捉え、構造化された開発スケジュールを自動生成する基盤となります。従来の静的解析ツールでは困難だった、動的な依存関係の解析を可能にするRDGについて、その構築プロセスと活用方法を詳しく解説します。

RDG構築：関数間の「つながり」を捉える

RDGは、ユニットテストの実行時に観測される関数呼び出しの関係性をグラフ構造で表現したものです。具体的には、以下の手順で構築されます。

まず、プロジェクト内のすべてのユニットテストを特定します。
次に、SWE-Flowに組み込まれたカスタムフックプログラム（SWE-Flow-Trace）を用いて、これらのユニットテストを並行して実行します。
ユニットテストの実行中に関数呼び出しを監視し、呼び出し元と呼び出し先の関数間の関係性を記録します。
プロジェクト外部の関数（システムライブラリなど）の呼び出しを除外し、プロジェクト内の関数間の関係のみを保持します。
最後に、記録された関係を基に、RDGを構築します。

このプロセスにより、RDGは、ソースコードの静的な解析だけでは捉えきれない、実行時の動的な関数間の依存関係を正確に表現することができます。

従来の静的コード解析ツールは、関数の依存関係を解析する際に、コード全体の構造を解析する必要があります。しかし、動的に生成されるコードや、複雑な制御フローを持つコードでは、正確な解析が困難な場合があります。RDGは、実際にコードが実行された際の関数呼び出しを記録するため、より正確な依存関係を把握できます。

開発スケジュールの自動生成：RDGが導く「道筋」

構築されたRDGは、プロジェクト全体の開発スケジュールを自動生成するために活用されます。開発スケジュールは、コードベースを段階的に構築していくための「道筋」を示すものです。RDGに基づいて、以下の手順で開発スケジュールが生成されます。

RDGに含まれる関数を、それがカバーするコア機能ノード（CFN: Core Function Node）に基づいてグループ化します。
各グループを、CFNの数に基づいて昇順にソートします。
既に開発済みのCFNを持つグループを、先行するグループに統合します。

このプロセスにより、各ステップが前のステップの成果に基づいて構築される、段階的な開発プロセスが実現されます。各ステップでは、新しい関数を実装し、対応するユニットテストに合格させる必要があります。このプロセスを繰り返すことで、最終的にプロジェクト全体のコードベースが完成します。

RDGを活用した開発：実践的なTips

RDGは、LLMによるデータ合成だけでなく、ソフトウェア開発の現場でも様々なメリットをもたらします。

依存関係の可視化： RDGを可視化することで、コードの依存関係を直感的に理解できます。これにより、コードの構造を把握しやすくなり、リファクタリングや保守が容易になります。
ボトルネックの特定： RDGを分析することで、特定の関数に依存が集中している箇所や、複雑な依存関係を持つ箇所を特定できます。これらの箇所は、コードのボトルネックとなる可能性があり、改善の対象となります。
テスト戦略の改善： RDGに基づいて、テスト対象の関数を特定し、重点的にテストを行うことで、テスト戦略を効率化できます。また、依存関係の強い関数に対しては、より詳細なテストケースを作成することで、品質を向上させることができます。

RDGは、「設計図」として機能し、開発者やLLMが効率的にソフトウェアを構築するための強力なツールとなります。

RDGは、ソフトウェア開発の様々な段階で活用できる汎用性の高いツールです。設計、実装、テスト、保守など、あらゆるフェーズでその効果を発揮します。

SWE-Flow流データ合成：TDDタスクの自動生成

前のセクションでは、SWE-Flowがランタイム依存グラフ（RDG）を用いて開発プロセスを可視化し、自動で開発スケジュールを生成する仕組みを見てきました。しかし、実際にどのようにしてLLMを鍛えるためのデータが合成されるのでしょうか？
本セクションでは、SWE-Flowによるデータ合成の具体的な手順を解説します。まるで魔法のようにTDD（テスト駆動開発）タスクを自動生成するプロセスを、不完全なコードベース、要求仕様、リファレンスソリューション（差分）の生成という3つの要素から紐解いていきましょう。

1. 不完全なコードベースの生成：開発途中の“あるべき姿”を再現

SWE-Flowにおけるデータ合成の最初のステップは、不完全なコードベースの生成です。これは、まるで開発者がコーディングの途中で一息入れている状態を再現するかのよう。
具体的には、完全なコードベースから、これから実装すべき機能に対応する関数を意図的に削除します。この時、削除された関数は、LLMにとっての「空白」となり、創造性を発揮して埋めるべき場所となります。

しかし、ただ関数を削除するだけでは、LLMは文脈を失ってしまいます。そこで、SWE-Flowは削除された関数のdocstring（ドキュメンテーション文字列）を、LLMを用いて再生成します。このdocstringは、関数の目的や引数、返り値などを説明するもので、LLMがコードを生成する上での重要な手がかりとなります。

こうして生成された不完全なコードベースは、LLMにとって、まるで未完成のパズルのようなものです。残されたピース（既存のコード）と、docstringという設計図を頼りに、LLMは失われたピースを復元するタスクに挑みます。

2. 要求仕様の生成：ユニットテストが語るべきこと

次に、SWE-Flowは、LLMに与えるべき要求仕様を生成します。これは、これから実装すべき機能が「何をすべきか」を明確に定義するものです。SWE-Flowでは、この要求仕様を、対応するユニットテストから自動的に生成します。

ユニットテストは、本来、開発者がコードの動作を検証するために記述するものですが、SWE-Flowでは、これを逆手に取ります。ユニットテストは、関数が満たすべき条件や、期待される入出力などを具体的に記述しているため、LLMにとって、非常に質の高い要求仕様となります。

SWE-Flowは、ユニットテストの内容を解析し、自然言語による説明文に変換します。この説明文は、LLMに対する指示書となり、生成されるコードが満たすべき要件を明確に伝えます。

たとえば、あるユニットテストが「関数f(x)は、xが正の数の場合にxを2倍した値を返す」という条件を検証している場合、SWE-Flowは「関数f(x)は、xが正の数の場合にxを2倍した値を返すように実装してください」という要求仕様を生成します。

3. リファレンスソリューション（差分）の生成：模範解答という道しるべ

最後に、SWE-Flowは、LLMが生成すべきコードのリファレンスソリューションを生成します。これは、完全なコードベースと不完全なコードベースの差分であり、LLMが目指すべき最終的なコードの形を示します。

リファレンスソリューションは、LLMが生成したコードの正しさを検証するためだけでなく、LLMが学習するための模範解答としても機能します。LLMは、自身が生成したコードとリファレンスソリューションを比較することで、どこが間違っていたのか、どのように修正すれば良かったのかを学ぶことができます。

SWE-Flowは、このリファレンスソリューションを、Replace FormatとPatch Formatという2つの形式で提供します。Replace Formatは、特定の文字列を別の文字列で置き換える形式で、Patch Formatは、diffツールで生成されるパッチ形式です。これらの形式は、LLMがコードを生成する際の柔軟性を高め、様々な状況に対応できるようにします。

TDDタスクの自動生成：LLMを鍛えるための環境構築

SWE-Flowは、上記の3つの要素（不完全なコードベース、要求仕様、リファレンスソリューション）を組み合わせることで、LLMを鍛えるためのTDDタスクを自動的に生成します。これらのタスクは、LLMにとって、実践的なコーディングスキルを習得するための貴重な教材となります。

そして、これらのタスクは、完全に検証可能です。LLMが生成したコードは、ユニットテストによって自動的に検証され、その正しさが保証されます。これにより、SWE-Flowは、LLMに高品質なトレーニングデータを提供するだけでなく、その学習プロセスを客観的に評価することも可能にします。

次のセクションでは、SWE-Flowを用いて生成されたデータセットに基づいて、LLMの性能を評価するための専門ベンチマーク、SWE-Flow-Benchについて詳しく見ていきましょう。

SWE-Flow-Bench：TDDに特化したLLM評価

ソフトウェア開発における大規模言語モデル（LLM）の活用が進む中、その性能を客観的に評価するベンチマークの重要性が増しています。しかし、既存のベンチマークは現実世界の開発プロセスを十分に反映していないという課題がありました。そこで登場したのが、SWE-Flow-Benchです。

SWE-Flow-Benchは、テスト駆動開発（TDD）という開発手法に特化した、LLMの性能を評価するためのベンチマークです。TDDとは、まずテストケースを記述し、そのテストをパスするようにコードを実装していく開発手法のこと。この手法に特化することで、より現実の開発現場に近い状況でLLMの能力を測ることが可能になります。

SWE-Flow-Benchをより深く理解するために、その概要と、LLMの評価方法について詳しく解説していきましょう。

SWE-Flow-Benchの概要：現実的な開発タスクを再現

SWE-Flow-Benchは、SWE-Flowによって生成されたデータセットを用いて、LLMの性能を評価するために設計されました。具体的には、以下の特徴があります。

* 現実世界のプロジェクトから生成：オープンソースのGitHubプロジェクトから、実際の開発事例を基にデータセットを生成。
* TDDに基づいたタスク：開発タスクはTDDの原則に従い、テストケースからコードを生成する形式で提供。
* 多様なタスク：さまざまな難易度と種類のタスクを含み、LLMの汎用的な能力を評価。

このベンチマークは、16,061のトレーニングインスタンスと2,020のテストインスタンスで構成されており、LLMの学習と評価に十分なデータ量を提供します。

SWE-Flow-Benchを用いたLLMの評価方法：プロンプトと評価指標

SWE-Flow-Benchを用いたLLMの評価は、以下の手順で行われます。

1. タスクプロンプトの作成：LLMへの指示となるタスクプロンプトを作成します。このプロンプトは、以下の2つの要素で構成されます。

* システムプロンプト：LLMに、経験豊富なソフトウェアエンジニアとして振る舞うように指示します。基本的な開発タスクの遂行に必要な期待値を設定します。
* ユーザープロンプト：現在の開発タスクに直接関連するコードベースの関連ファイルと、タスクの詳細な説明を含めます。解決策の形式を明確にする指示も含まれます。

2. LLMによるコード生成：作成したタスクプロンプトをLLMに入力し、コードを生成させます。
3. コードの実行と評価：生成されたコードを実際のコードベースに適用し、ユニットテストを実行します。テストの成否に基づいて、LLMの性能を評価します。

LLMの性能は、主に以下の2つの評価指標を用いて評価されます。

* Pass Rate：生成されたコードがユニットテストに合格する割合。コードの正確性を評価する最も直接的な指標です。

“`
Pass Rate = (Σ isPass(taski)) / #tasks
“`

* isPass(taski)は、i番目のタスクがユニットテストに合格したかどうかを示す二値変数です。

* Efficiency Value：エージェント（LLM）がタスクを完了する効率を測定する指標。Pass Rateとタスク完了までの反復回数に基づいて計算されます。

“`
Efficiency Value = Pass Rate / log(Σ Iters(taski))
“`

* Iters(taski)は、エージェントがi番目のタスクを完了するまでに要した反復回数です。

既存のベンチマークとの違い：TDDへの特化

ソフトウェアエンジニアリングにおけるLLMの性能を評価するベンチマークは、SWE-Flow-Bench以外にも存在します。例えば、SWE-Bench (Jimenez et al., 2023) は、GitHubのissue解決を対象としたベンチマークですが、SWE-Flow-BenchはTDDに特化している点が大きく異なります。

SWE-Benchはパッチレベルの修正能力を評価するのに対し、SWE-Flow-Benchはより体系的にコード生成モデルの能力（アーキテクチャ設計、機能拡張、増分開発など）を評価できます。

また、Commit0-Bench (Zhao et al., 2024) は、すべてのユニットテストに合格する完全な実装を一度に生成する必要があるため、現実世界の開発プロセスとはかけ離れています。一方、SWE-Flow-Benchは、プロジェクトを複数の段階的なステップに分解し、最小限のテストケースでコード生成をガイドすることで、より現実的な評価を実現しています。

まとめ：SWE-Flow-BenchでLLMの真価を見極める

SWE-Flow-Benchは、TDDという現実的な開発手法に特化することで、LLMのソフトウェアエンジニアリング能力をより正確に評価できるベンチマークです。Pass RateとEfficiency Valueという明確な指標を用いることで、LLMの性能を客観的に比較し、改善点を見つけることができます。SWE-Flow-Benchは、LLMを活用したソフトウェア開発の未来を切り開くための重要なツールとなるでしょう。

実験結果：SWE-FlowデータによるLLM性能向上

SWE-Flowの真価は、実際にLLMをトレーニングし、その性能を評価することで明らかになります。このセクションでは、SWE-Flowで生成したデータセットを用いてファインチューニングしたLLMの実験結果を詳細に分析し、その有効性を検証します。

実験設定：Qwen2.5-Coder-32B-Instructのファインチューニング

今回の実験では、Qwen2.5-Coder-32B-Instructモデル（Hui et al., 2024）をベースラインとして、SWE-Flowで合成されたデータセットを用いてファインチューニングを行いました。このモデルは、比較的小規模ながらも、コーディングタスクにおいて優れた性能を発揮することで知られています。

評価方法：SWE-Flow-Bench（Lite）による客観的評価

ファインチューニング後のモデルの性能は、SWE-Flow-Bench（Lite）ベンチマークを用いて評価しました。このベンチマークは、テスト駆動開発（TDD）の原則に基づいた、現実的なソフトウェアエンジニアリングタスクで構成されており、LLMのコーディング能力を客観的に評価できます。評価指標としては、Pass Rate（ユニットテストに合格する割合）を使用しました。

実験結果：大幅な性能向上を実証

実験の結果、SWE-FlowデータでファインチューニングされたSF-Coder-32B-Instructモデルは、ベースラインモデルと比較して、著しい性能向上を示しました。具体的には、以下の点が確認されました。

Pass Rateの向上：SF-Coder-32B-Instructは、Replace FormatとPatch Formatの両方において、高いPass Rateを達成しました。
既存モデルを凌駕：SF-Coder-32B-Instructは、他の主要なLLMと比較して、一貫して優れた性能を発揮しました。

以下の表は、論文に掲載されているSWE-Flow-Bench（Lite）における主要なLLMのPass Rateの比較です。

Table 5. Evaluation results of language models on SWE-Flow-Bench (Lite).

表からわかるように、SF-Coder-32B-Instructは、特にReplace Formatにおいて、既存のLLMを大きく上回る性能を示しています。この結果は、SWE-Flowで生成されたデータセットが、LLMのソフトウェアエンジニアリング能力を効果的に向上させることを示唆しています。

なぜSWE-Flowは効果的なのか？

SWE-Flowが生成するデータセットが効果的な理由は、以下の3点に集約されます。

TDDに基づいた高品質なデータ：ユニットテストによって検証されたデータのみを使用するため、ノイズが少なく、LLMが学習すべきパターンが明確。
現実的な開発シナリオの再現：実際のソフトウェア開発における増分的な開発プロセスを模倣しているため、LLMがより実践的なスキルを習得可能。
多様なタスクの網羅：様々なソフトウェアエンジニアリングタスクをカバーしているため、LLMが汎用的な能力を身につけることができる。

まとめ：SWE-FlowはLLMの可能性を拓く

実験結果から、SWE-FlowはLLMのソフトウェアエンジニアリング能力を向上させるための強力なツールであることが示されました。特に、現実的な開発シナリオを再現し、高品質なデータセットを生成できる点が、その有効性の鍵となっています。

SWE-Flowの限界と未来：さらなる進化へ

SWE-Flowは、LLMを活用したソフトウェア開発の自動化に大きな可能性を示す一方で、いくつかの限界も抱えています。しかし、それらは同時に、今後の進化の方向性を示唆するものでもあります。

SWE-Flowの限界

非同期処理とマルチプロセスへの対応: 現状では、非同期処理やマルチプロセス環境における関数間の依存関係を正確に追跡することが困難です。

今後の展望

SWE-Flowの進化は、ソフトウェア開発の未来を大きく変える可能性を秘めています。特に注目すべきは、以下の3つの方向性です。

より複雑なデータ合成: 複数の開発タスクを組み合わせることで、より現実的で複雑な開発シナリオを生成し、LLMの対応能力を高めることができます。
強化学習への応用: SWE-Flowで生成されたデータは検証可能であるため、LLMの強化学習における報酬関数として活用できます。これにより、LLMは試行錯誤を通じて、より効率的なコード生成を学習できます。
事前学習への活用: 大量の検証済みソフトウェアエンジニアリングデータを生成し、LLMの事前学習に活用することで、LLMの基礎的なコーディング能力を向上させることができます。

SWE-Flowはまだ発展途上の技術ですが、その可能性は計り知れません。今後の研究開発によって、ソフトウェア開発の自動化がさらに進み、開発者の生産性向上に大きく貢献することが期待されます。