Python×CodeQL: セキュリティ診断を自動化

はじめに：Pythonセキュリティ診断の重要性とCodeQLの活用
CodeQLとは：静的解析による脆弱性検出の仕組み
CodeQL環境構築：Pythonコード分析の準備
CodeQLによるPythonコード分析：脆弱性検出の基本
カスタムルールの作成：組織独自のセキュリティ要件を反映
CI/CDパイプラインへの統合：継続的セキュリティ診断の実践

はじめに：Pythonセキュリティ診断の重要性とCodeQLの活用

Pythonは汎用性が高く、Webアプリケーションからデータ分析、機械学習まで幅広く利用されています。しかし、その人気ゆえにセキュリティリスクも増大しており、脆弱性対策は不可欠です。OWASP Top 10に挙げられるSQLインジェクションやクロスサイトスクリプティング（XSS）などの脆弱性は、Pythonアプリケーションを狙った攻撃の代表例です。サプライチェーン攻撃の増加も無視できず、悪意のあるコードが埋め込まれたPythonパッケージがシステムに侵入する事例も発生しています。

これらのリスクに対処するには、脆弱性の早期発見と対策が重要です。手動コードレビューは時間と労力がかかり、見落としのリスクも伴います。そこで、CodeQLのような静的解析ツールが注目されています。CodeQLはコードをデータベースのように扱い、脆弱性のパターンを効率的に検出します。開発の初期段階で脆弱性を発見できれば、修正コストを大幅に削減し、安全なアプリケーション開発を実現できます。

例えば、ユーザからの入力を適切に処理せずにSQLクエリに組み込むと、SQLインジェクションの脆弱性が生まれます。攻撃者はこの脆弱性を利用してデータベースを不正に操作し、個人情報の漏洩やデータ改ざんを引き起こす可能性があります。また、Webサイトに悪意のあるスクリプトを埋め込むクロスサイトスクリプティング（XSS）攻撃では、ユーザが偽のログインページに誘導され、IDやパスワードが盗まれるといった被害が発生する可能性があります。

脆弱性を放置することは、情報漏洩、サービス停止、金銭的損失など、企業にとって深刻な損害につながります。CodeQLを導入し、自動化されたセキュリティ診断を行うことで、これらのリスクを低減し、セキュアな開発プロセスを構築することが重要です。この記事では、CodeQLを用いたPythonコードのセキュリティ診断を自動化する方法を解説します。OWASP Top 10などの情報を参考に、自社のPythonアプリケーションに潜むリスクを把握し、CodeQLによる対策を検討しましょう。

CodeQLとは：静的解析による脆弱性検出の仕組み

このセクションでは、CodeQLの概要、動作原理、そしてその利点について解説します。静的解析による脆弱性検出の仕組みを理解することで、なぜCodeQLがセキュリティ診断に非常に役立つのかを把握できるでしょう。

CodeQLの概要

CodeQLは、GitHubが開発したセマンティックコード解析エンジンです。ソースコードをデータベースのように扱い、SQLに似たクエリ言語を用いて脆弱性を検出します。コードを単なるテキストとしてではなく、構造化されたデータとして分析できるため、従来の静的解析ツールでは見つけにくい複雑な脆弱性も検出可能です。

CodeQLは、C/C++、C#、Java、JavaScript/TypeScript、Python、Go、Rubyなど、多様なプログラミング言語をサポートしています。そのため、様々なプロジェクトで利用できる汎用性の高いツールと言えるでしょう。

CodeQLの動作原理

CodeQLの動作は、大きく以下の3つのステップに分けられます。

データベースの作成: CodeQL CLI（コマンドラインインターフェース）を使用して、解析対象のソースコードからデータベースを作成します。このデータベースには、コードの構文構造やデータフローなど、様々な情報が格納されます。
クエリの記述: CodeQLのクエリ言語（QLL）を用いて、脆弱性のパターンを記述します。QLLはSQLに似た宣言的な言語であり、コードの特性に基づいて脆弱性を定義できます。
クエリの実行: 作成したデータベースに対してクエリを実行し、脆弱性のある箇所を検出します。検出された箇所は、ソースコード上の位置情報とともに報告されます。

静的解析は、プログラムを実行せずにソースコードを解析する手法です。CodeQLは、単にコードのパターンを照合するだけでなく、コードの意味を解析することで、より高度な脆弱性検出を実現します。例えば、SQLインジェクションやクロスサイトスクリプティング（XSS）など、データの流れを追跡する必要がある脆弱性の検出に非常に有効です。

CodeQLの利点

CodeQLには、従来の静的解析ツールと比較して、以下のような多くの利点があります。

セマンティックな脆弱性の検出: 従来のSASTツールでは検出が難しい、コードの意味に基づいた脆弱性を検出できます。
根本原因の特定: 脆弱性の根本原因を特定しやすく、効果的な対策を講じることができます。
カスタムルールの作成: 組織独自のセキュリティ要件に対応するためのカスタムルールを作成できます。特定のパターンや関数呼び出しを検出するカスタムクエリを作成し、組織のセキュリティポリシーをCodeQLに反映させることが可能です。
CI/CDパイプラインへの統合: CI/CDパイプラインに統合することで、継続的なセキュリティ診断が可能になります。コード変更のたびに自動で脆弱性診断を実行し、早期にセキュリティリスクを特定できます。
GitHubとの連携: GitHub Advanced Securityの一部として提供されており、GitHubとの連携が容易です。CodeQLで検出された脆弱性は、GitHubのセキュリティアラートとして表示され、Issueとして追跡できます。

これらの利点により、CodeQLは、より安全なソフトウェア開発を実現するための強力なツールとなります。

CodeQL環境構築：Pythonコード分析の準備

このセクションでは、CodeQLを使ってPythonコードのセキュリティ分析を行うための環境構築手順を解説します。具体的には、CodeQL CLI (Command Line Interface) のインストール、分析対象となるPythonコードのデータベース作成、そしてVS Code拡張機能の導入について説明します。これらの手順を完了することで、CodeQLを用いたPythonコードの脆弱性分析を開始する準備が整います。

1. CodeQL CLIのインストール

CodeQL CLIは、CodeQLの各種機能を利用するためのコマンドラインツールです。以下の手順でインストールします。

CodeQL CLIのダウンロード: GitHubのCodeQLリポジトリ (https://github.com/github/codeql-cli-binaries/releases) から、ご自身のOSに合った最新版のCodeQL CLIをダウンロードしてください。
ファイルの解凍: ダウンロードしたzipファイルを任意のディレクトリに解凍します。例えば、/opt/codeql-cliなどが考えられます。
パスの設定: 解凍したディレクトリにあるcodeql実行ファイルにパスを通します。これにより、ターミナルからcodeqlコマンドを直接実行できるようになります。bashを利用している場合は、.bashrcまたは.zshrcに以下の行を追加し、ターミナルを再起動してください。
```
export PATH="/opt/codeql-cli:$PATH"
```
(`/opt/codeql-cli`は、解凍したディレクトリに合わせて変更してください。)
バージョン確認: ターミナルでcodeql versionコマンドを実行し、CodeQL CLIのバージョンが表示されることを確認します。これにより、インストールが正常に完了したことが確認できます。

2. データベースの作成

CodeQLは、解析対象のコードをデータベースとして扱います。以下の手順でPythonコードのデータベースを作成します。

プロジェクトディレクトリへ移動: ターミナルで、解析対象のPythonプロジェクトのルートディレクトリに移動します。
データベース作成コマンドの実行: 以下のコマンドを実行して、データベースを作成します。
```
codeql database create --language=python --source-root=. codeql-database
```
- --language=python: 解析対象の言語をPythonに指定します。
- --source-root=.: 現在のディレクトリをソースコードのルートディレクトリとして指定します。
- codeql-database: 作成されるデータベースのディレクトリ名を指定します。任意の名前で構いません。
このコマンドを実行すると、CodeQLはPythonプロジェクトのソースコードを解析し、codeql-databaseディレクトリ内にデータベースを作成します。データベースの作成には、プロジェクトの規模に応じて時間がかかる場合があります。

3. VS Code拡張機能の導入

VS Code拡張機能を導入することで、VS Code上でCodeQLのクエリ作成、実行、結果の確認などが容易になります。以下の手順でインストールします。

拡張機能 Marketplaceを開く: VS Codeのサイドバーにある拡張機能アイコンをクリックするか、Ctrl+Shift+X (Windows/Linux) または Cmd+Shift+X (macOS) を押して、拡張機能 Marketplaceを開きます。
CodeQL拡張機能を検索: 検索バーに「CodeQL」と入力し、GitHub製の「CodeQL」拡張機能を検索します。
インストール: 「CodeQL」拡張機能のページで「Install」ボタンをクリックして、拡張機能をインストールします。
VS Codeの再起動: インストール後、VS Codeを再起動します。

拡張機能が正常にインストールされると、VS CodeのステータスバーにCodeQLのアイコンが表示されます。また、コマンドパレット (Ctrl+Shift+P または Cmd+Shift+P) から、CodeQL関連のコマンドを実行できるようになります。

環境構築のTips

CodeQL Workspace: CodeQL Workspaceを設定することで、カスタムクエリの管理や実行が容易になります。VS Codeの設定で、codeQL.workspacePath を設定することで、workspaceを指定できます。
Python仮想環境: Pythonの仮想環境を利用することで、プロジェクトごとに異なる依存関係を分離し、安定した解析環境を構築できます。データベース作成前に仮想環境をアクティブにしておくことを推奨します。

環境構築が完了したら、次のステップとして、CodeQLによるPythonコード分析に進みましょう。基本的なクエリの実行方法を学び、脆弱性検出に挑戦します。

CodeQLによるPythonコード分析：脆弱性検出の基本

このセクションでは、CodeQLを用いてPythonコードの脆弱性を検出するための基本的なクエリ作成と実行方法を解説します。SQL Injectionとクロスサイトスクリプティング（XSS）のサンプルコードを用いて、それぞれの脆弱性を検出するクエリを作成し、CodeQLの基本的な使い方を習得しましょう。

CodeQLクエリの基本構造

CodeQLのクエリは、QLL（CodeQL Query Language）という専用の言語で記述します。QLLはSQLに似た構文を持ち、コードをデータベースのように扱うことで、特定のパターンや条件に合致する箇所を抽出できます。基本的なクエリの構造は以下の通りです。

import python

from [抽出対象の要素の型] as [変数名]
where [抽出条件]
select [表示する要素], [追加情報]

import python: PythonのCodeQLライブラリをインポートします。これにより、Pythonのコード要素（クラス、関数、変数など）をQLLで扱えるようになります。
from: 抽出対象となるコード要素の型と、その要素を指す変数名を宣言します。例えば、from Function as fは、関数（Function）を変数fとして扱うことを意味します。
where: 抽出する要素の条件を指定します。例えば、where f.getName() = "eval"は、名前が”eval”である関数のみを抽出する条件となります。
select: 抽出された要素と、追加で表示したい情報を指定します。例えば、select f, f.getFile().getPath()は、関数fとその関数が定義されているファイルのパスを表示します。

サンプルコードと脆弱性検出クエリ

以下に、具体的なサンプルコードと、それに対する脆弱性検出クエリの例を示します。

1. SQL Injection

脆弱なサンプルコード:

import sqlite3

def get_user(username):
 conn = sqlite3.connect('users.db')
 cursor = conn.cursor()
 query = "SELECT * FROM users WHERE username = '" + username + "'"
 cursor.execute(query)
 result = cursor.fetchone()
 conn.close()
 return result

username = input("Enter username: ")
user = get_user(username)
print(user)

このコードは、ユーザからの入力を直接SQLクエリに組み込んでいるため、SQL Injectionの脆弱性があります。例えば、usernameに' OR '1'='1のような値を入力すると、すべてのユーザ情報が取得されてしまいます。

修正後の安全なコード:

import sqlite3

def get_user(username):
 conn = sqlite3.connect('users.db')
 cursor = conn.cursor()
 query = "SELECT * FROM users WHERE username = ?"
 cursor.execute(query, (username,))
 result = cursor.fetchone()
 conn.close()
 return result

username = input("Enter username: ")
user = get_user(username)
print(user)

CodeQLクエリ:

import python

from Function as f, Call as call
where f.getName() = "execute" and
 call.getCallee() = f and
 call.getArgument(0).getValue().regexpMatch(".*\+.*")
select call, "SQL Injection vulnerability"

このクエリは、execute関数を呼び出しており、引数に文字列結合（+）を使用している箇所を検出します。これはSQL Injectionの典型的なパターンです。

2. クロスサイトスクリプティング (XSS)

脆弱なサンプルコード:

from flask import Flask, request, render_template_string

app = Flask(__name__)

@app.route('/')
def index():
 name = request.args.get('name', 'World')
 template = f"<h1>Hello, {name}!</h1>"
 return render_template_string(template)

if __name__ == '__main__':
 app.run(debug=True)

このコードは、URLパラメータnameの値をエスケープせずにHTMLに出力しているため、XSSの脆弱性があります。例えば、/?name=<script>alert('XSS')</script>のようなURLにアクセスすると、アラートが表示されます。

修正後の安全なコード:

from flask import Flask, request, render_template

app = Flask(__name__)

@app.route('/')
def index():
 name = request.args.get('name', 'World')
 return render_template('index.html', name=name)

if __name__ == '__main__':
 app.run(debug=True)

index.html:

<h1>Hello, {{ name }}!</h1>

CodeQLクエリ:

import python

from Function as f, Call as call
where f.getName() = "render_template_string" and
 call.getCallee() = f and
 call.getArgument(0).getValue().regexpMatch(".*<.*")
select call, "XSS vulnerability"

このクエリは、render_template_string関数を呼び出しており、引数にHTMLタグ（<）が含まれている箇所を検出します。これはXSSの典型的なパターンです。

クエリの実行と結果の確認

作成したクエリは、VS CodeのCodeQL拡張機能またはCodeQL CLIを用いて実行できます。VS Code拡張機能を使用する場合は、クエリファイル（.ql）を開き、右クリックして「CodeQL: Run Query」を選択します。CodeQL CLIを使用する場合は、以下のコマンドを実行します。

codeql query run [クエリファイル名].ql --database [データベースのパス]

クエリの実行結果は、VS Codeの「Problems」パネルまたはCLIの標準出力に表示されます。結果には、脆弱性のある箇所と、その場所を示すファイル名と行番号が含まれます。これらの情報を元に、コードを修正し、脆弱性を解消します。

CodeQLの活用

CodeQLは、上記のような基本的な脆弱性だけでなく、より複雑な脆弱性も検出できます。CodeQLの公式ドキュメントやコミュニティの情報を参考に、様々なクエリを試してみましょう。また、組織独自のセキュリティ要件に合わせて、カスタムルールを作成することも可能です。CodeQLを効果的に活用することで、セキュアなPythonアプリケーション開発を実現できます。

カスタムルールの作成：組織独自のセキュリティ要件を反映

組織のセキュリティポリシーは、業界標準だけではカバーしきれない独自のルールや要件を持つことがよくあります。CodeQLの真価は、まさにこの点にあります。CodeQLのカスタムルールを作成することで、組織特有のセキュリティ要件を反映した、より精度の高い脆弱性診断を実現できます。

カスタムクエリ作成のステップ

カスタムルール（クエリ）を作成するプロセスは、以下のステップで進めます。

セキュリティ要件の明確化: どのような脆弱性を検出し、どのようなコーディングパターンを禁止したいのか、具体的な要件を定義します。例えば、「特定の認証ライブラリの使用を必須とする」「特定のAPIの使用を禁止する」といった要件が考えられます。
QLLコードの記述: CodeQLのクエリ言語であるQLLを用いて、定義した要件を表現するクエリを記述します。QLLはSQLに似た構文を持ち、コードをデータベースのように検索できます。
クエリのテスト: 作成したクエリをテストコードに対して実行し、意図した通りに動作するか検証します。誤検出や検出漏れがないか、十分なテストが必要です。
メタデータの記述: クエリの重要度、精度、セキュリティ上の重大度などのメタデータを記述します。これにより、検出された脆弱性の優先順位付けや、対応の判断が容易になります。

カスタムクエリの例

以下に、カスタムクエリの具体的な例をいくつか示します。

特定の認証方式の強制: 古い認証方式の利用を禁止し、より安全な認証方式（例：OAuth 2.0）の使用を強制するルール。

import python

from Call c, Module m
where c.getTarget().hasQualifiedName("flask.Flask.route") and
 not c.getArgument("methods").(List).getElements().(StringLiteral).getValue() = "POST"
select c, "このエンドポイントはPOSTメソッドを許可していません。"

特定のライブラリのバージョン制限: 脆弱性のある古いバージョンのライブラリの使用を禁止し、最新バージョンへのアップデートを促すルール。

import python

from Import i, Module m
where i.getModule().hasQualifiedName("requests") and
 i.getVersion() = "2.20.0"
select i, "requestsライブラリのバージョン2.20.0は脆弱性があります。最新バージョンにアップデートしてください。"

特定のAPIの使用禁止: 安全でないAPI関数の使用を禁止し、より安全な代替関数への移行を推奨するルール。

import python

from Call c
where c.getTarget().hasQualifiedName("os.system")
select c, "os.system関数の使用はセキュリティリスクがあります。代替関数を使用してください。"

カスタムクエリ作成のヒント

CodeQLライブラリの活用: CodeQLには、様々な言語に対応した豊富なライブラリが用意されています。これらのライブラリを活用することで、効率的にクエリを作成できます。
既存クエリの参考: CodeQLの公式ドキュメントやコミュニティで公開されている既存のクエリを参考に、カスタムクエリを作成することも有効です。
クエリの共有: 作成したカスタムクエリを組織内で共有し、ナレッジの共有と標準化を図りましょう。

カスタムルールを作成することで、組織のセキュリティポリシーをCodeQLに反映させ、より安全な開発プロセスを構築できます。

CI/CDパイプラインへの統合：継続的セキュリティ診断の実践

CodeQLをCI/CDパイプラインに統合することで、開発プロセス全体を通して継続的なセキュリティ診断を実現できます。特にGitHub Actionsとの連携は非常にスムーズです。具体的な手順としては、まずGitHub Actionsのワークフローファイル（.github/workflows/以下）に、CodeQL CLIのセットアップ、データベースの作成、そしてCodeQL分析の実行ステップを追加します。

例えば、以下のようなYAMLコードをワークフローに組み込むことで、プッシュやプルリクエストのたびに自動で脆弱性診断が実行されます。

steps:
 - name: Checkout code
 uses: actions/checkout@v3

 - name: Initialize CodeQL
 uses: github/codeql-action/init@v2
 with:
 languages: python

 - name: Autobuild
 uses: github/codeql-action/autobuild@v2

 - name: Perform CodeQL Analysis
 uses: github/codeql-action/analyze@v2

分析結果はSARIF形式で出力され、GitHubのCode Scanning機能で可視化されます。これにより、開発者はコード変更のたびに脆弱性の有無を容易に確認でき、セキュリティチームは継続的なリスク監視が可能になります。早期に脆弱性を特定し、対応することで、セキュアな開発ライフサイクルを実現しましょう。