Python×DuckDBで爆速データ分析！

Python×DuckDBで爆速データ分析！SQLパワーでデータ処理を劇的に効率化

Python×DuckDBで爆速データ分析！SQLパワーでデータ処理を劇的に効率化

データ分析の世界に革命を起こすDuckDB。Pythonとの連携で、その真価を最大限に発揮し、データ処理速度を劇的に向上させます。この記事では、設定不要ですぐに使えるDuckDBの魅力と、具体的なコード例を通じてPythonスキルをレベルアップする方法を解説します。大規模データ分析でストレスを感じているあなた、SQLの知識をPythonで活かしたいあなた、必見です！

なぜDuckDBがPythonデータ分析の救世主なのか？

「Pythonでのデータ分析、もっとサクサクできないの？」

従来のPythonデータ分析では、Pandasがよく使われますが、大規模なデータセットを扱う際には処理速度が課題でした。そこで登場するのがDuckDB。カラム指向ストレージとベクトル化されたクエリ実行により、Pandasをはるかに凌ぐ圧倒的なスピードでデータ処理を実現します。

例えるなら…

Pandas: 街乗りが得意なコンパクトカー
DuckDB: 高速道路を爆走するスポーツカー

扱うデータの規模や処理内容によって最適なツールを選ぶことが重要です。

DuckDBの5つの利点：データ分析を加速する理由

爆速: Pandasでは時間がかかっていた処理もあっという間に完了。ストレスフリーな分析が可能です。
設定不要: インストールしたらすぐに使い始められます。面倒な設定は一切不要です。
SQL: 普段使っているSQLの知識をそのまま活かせます。Pandasの複雑な構文を覚える必要はありません。
多様なデータ形式: CSV、Parquet、JSONなど、様々な形式のデータを直接読み込めます。
Pandas DataFrame連携: Pandas DataFrameに対してSQLクエリを実行できます。PandasとDuckDBの良いとこ取りが可能です。

こんな人にオススメ

大規模データセットを扱うデータ分析者
Pandasの処理速度に不満を感じている人
SQLに慣れている人
手軽に高速なデータ分析環境を構築したい人

導入は一瞬！Python×DuckDB 環境構築

DuckDBをPythonで使い始めるのは、想像以上に簡単です。まるで魔法のように数ステップで環境構築が完了し、すぐにデータ分析の世界へ飛び込むことができます。

1. pipで簡単インストール

ターミナルまたはコマンドプロンプトを開き、以下のコマンドを実行します。

pip install duckdb pandas

2. Pythonスクリプトでimport

PythonスクリプトまたはJupyter NotebookでDuckDBをimportします。

import duckdb
import pandas as pd

3. データベースに接続

DuckDBには、以下の2つの接続方法があります。

インメモリデータベース: データは一時的にメモリ上に保存されます。

con = duckdb.connect(database=':memory:')

ファイルベースデータベース: データはファイルに保存されます。

con = duckdb.connect(database='mydb.duckdb')

mydb.duckdbは好きなファイル名に変更できます。ファイルが存在しない場合は自動的に作成されます。

4. CSVファイルを読み込んでみる

import duckdb

con = duckdb.connect(database=':memory:')
try:
 con.execute("""CREATE TABLE my_table AS SELECT * FROM read_csv_auto('my_data.csv')""")
 result = con.execute("SELECT * FROM my_table LIMIT 5").fetchdf()
 print(result)
except Exception as e:
 print(f"Error: {e}")
finally:
 con.close()

my_data.csvはあなたのCSVファイル名に置き換えてください。このコードを実行すると、CSVファイルの内容がDuckDBに読み込まれ、最初の5行が表示されます。

Pandas超え？DuckDB 基本操作を徹底比較

DuckDBの真価は、その手軽さと爆速なデータ処理能力にあります。ここでは、基本的なデータ操作をPandasと比較しながら解説します。

データ読み込み：多様な形式に即対応

import duckdb

con = duckdb.connect(database=':memory:')

try:
 # CSVファイルを読み込む
 df_duckdb = con.sql("SELECT * FROM read_csv_auto('data.csv')")

 print(df_duckdb.fetchdf())
except Exception as e:
 print(f"Error: {e}")
finally:
 con.close()

データ加工：SQLの力を最大限に

import duckdb

con = duckdb.connect(database=':memory:')
try:
 con.execute("CREATE TABLE items AS SELECT * FROM read_csv_auto('items.csv')")

 # 在庫が10個以上の商品名を取得
 result = con.execute("SELECT name FROM items WHERE stock >= 10").fetchdf()

 print(result)
except Exception as e):
 print(f"Error: {e}")
finally:
 con.close()

データ集計：GROUP BYで高速集計

import duckdb

con = duckdb.connect(database=':memory:')
try:
 con.execute("CREATE TABLE sales AS SELECT * FROM read_csv_auto('sales.csv')")

 # 商品カテゴリごとの売上合計を計算
 result = con.execute("SELECT category, SUM(price) AS total_sales FROM sales GROUP BY category").fetchdf()

 print(result)
except Exception as e):
 print(f"Error: {e}")
finally:
 con.close()

Pandas DataFrameとの連携：柔軟なデータ分析

import duckdb
import pandas as pd

# Pandas DataFrameを作成
data = {'name': ['Alice', 'Bob', 'Charlie'], 'age': [25, 30, 35]}
df_pandas = pd.DataFrame(data)

con = duckdb.connect(database=':memory:')

# DataFrameをDuckDBに登録
con.register('df', df_pandas)

# SQLクエリを実行
result = con.execute("SELECT name FROM df WHERE age > 28").fetchdf()

print(result)
con.close()

SQLパワー炸裂！Pythonで高度なデータ分析

DuckDBの真骨頂はSQLクエリ実行機能です。PythonからDuckDBにSQLクエリを送信し、結果をDataFrameとして受け取ることで、複雑なデータ操作や集計処理も効率的に記述できます。

import duckdb
import pandas as pd

con = duckdb.connect(database=':memory:')

df = pd.read_csv('data.csv')
con.register('data', df)

try:
 result = con.execute("""
 SELECT
 category,
 AVG(price) AS average_price,
 SUM(quantity) AS total_quantity
 FROM data
 GROUP BY category
 ORDER BY average_price DESC
 """).fetchdf()

 print(result)
except Exception as e):
 print(f"Error: {e}")
finally:
 con.close()

高度なデータ分析テクニック