Pythonデータ分析：実践ガイド

Pythonデータ分析入門：データ分析を始めるなら、なぜPythonなのか？
1. なぜPythonがデータ分析に最適なのか？：5つの理由
2. データ分析をPythonで始めるためのステップ
データ分析必須ライブラリ：Pandas, NumPy, Matplotlib, Seaborn
データの前処理：Pandasでデータを綺麗にする
データの可視化：MatplotlibとSeabornでデータを見える化する
実践！データ分析プロジェクト：顧客分析を例に

Pythonデータ分析入門：データ分析を始めるなら、なぜPythonなのか？

データ分析の世界へようこそ！もしあなたがデータ分析をこれから始めようと考えているなら、Pythonは最高の選択肢の一つです。なぜでしょうか？それは、Pythonがデータ分析に必要なツール、コミュニティ、そして柔軟性を兼ね備えているからです。この記事では、Pythonがデータ分析に最適な理由と、具体的な学習ステップを解説します。

なぜPythonがデータ分析に最適なのか？：5つの理由

豊富なライブラリ: Pythonには、データ分析を強力にサポートするライブラリが豊富に存在します。Pandas, NumPy, Matplotlib, Seabornといったライブラリは、データ分析の四天王とも呼ばれ、データの操作、数値計算、可視化を効率的に行えます。
- Pandas: Excelのような表形式のデータをPythonで扱うためのライブラリ。データの読み込み、加工、集計、結合などが容易に行えます。
- NumPy: 高度な数値計算を高速に行うためのライブラリ。科学技術計算の基盤として広く利用されています。
- Matplotlib: グラフ描画ライブラリ。折れ線グラフ、棒グラフ、散布図など、様々な種類のグラフを作成できます。
- Seaborn: Matplotlibをより使いやすく、美しいグラフを作成できるライブラリ。統計的なグラフを簡単に作成できます。
シンプルで分かりやすい文法: Pythonは、英語に近いシンプルな文法で記述できるため、プログラミング初心者でも比較的簡単に習得できます。コードが読みやすく、理解しやすいので、データ分析に集中できます。
大規模データ処理: Pythonは、大規模なデータセットの処理にも対応できます。データ量が増えても、効率的に分析を進めることが可能です。Daskなどのライブラリを使用することで、さらに大規模なデータを分散処理することもできます。
活発なコミュニティ: Pythonは世界中で広く使われているため、オンライン上には膨大な情報があります。わからないことがあっても、検索すればすぐに解決策が見つかるでしょう。また、活発なコミュニティも存在し、質問や情報交換を通じてスキルアップを図ることができます。Stack OverflowやteratailなどのQ&Aサイト、PyConなどのカンファレンスが代表例です。
AI・機械学習との連携: Pythonは、AIや機械学習の分野でも広く利用されています。データ分析で得られた知見を、AIモデルの開発に活かすことも可能です。Scikit-learn, TensorFlow, PyTorchなどのライブラリを使用することで、機械学習モデルの構築、評価、改善を効率的に行うことができます。

データ分析をPythonで始めるためのステップ

Pythonのインストール: まずはPythonをインストールしましょう。Anacondaディストリビューションをインストールするのがおすすめです。Anacondaには、データ分析に必要なライブラリが bundledされているため、個別にインストールする手間が省けます。
基本文法の学習: Pythonの基本文法を学びましょう。変数、データ型、制御構造、関数など、プログラミングの基礎を理解することが重要です。ProgateやCodecademyなどのオンライン学習サービスを利用するのがおすすめです。
ライブラリの使い方を学ぶ: Pandas, NumPy, Matplotlib, Seabornの使い方を学びましょう。公式ドキュメントやチュートリアル、書籍などを参考に、実際にコードを書きながら学ぶのが効果的です。
データセットを使った分析: 公開されているデータセットを使って、実際にデータ分析を行ってみましょう。Kaggleなどのプラットフォームで公開されているデータセットは、実践的なスキルを磨くのに最適です。
実践プロジェクト: 顧客分析、売上予測、異常検知など、具体的なテーマを設定し、データ分析プロジェクトに挑戦してみましょう。実践的な経験を積むことで、データ分析スキルは飛躍的に向上します。

データ分析を始めるなら、Pythonを選んで間違いありません。Pythonの豊富なライブラリ、シンプルな文法、大規模データ処理能力、活発なコミュニティ、そしてAI・機械学習との親和性は、あなたのデータ分析の旅を強力にサポートしてくれるでしょう。さあ、Pythonを手に、データ分析の世界へ飛び込みましょう！

データ分析必須ライブラリ：Pandas, NumPy, Matplotlib, Seaborn

データ分析の世界に足を踏み入れる上で、Pythonは強力な味方となります。その中でも、特に重要な役割を果たすのが、Pandas, NumPy, Matplotlib, Seabornという4つのライブラリです。これらのライブラリを使いこなすことで、データの操作、分析、可視化を効率的に行うことができます。ここでは、これらのライブラリの概要、インストール方法、基本的な使い方を解説します。

ライブラリ概要：それぞれの役割

まずは、それぞれのライブラリがどのような役割を担っているのかを見ていきましょう。

Pandas: データ分析の縁の下の力持ち。表形式のデータを扱うのに特化しており、データの読み込み、加工、集計、結合など、データ分析におけるあらゆる操作を簡単に行うことができます。ExcelのようなスプレッドシートをPython上で扱うイメージです。
- 例：CSVファイルからデータを読み込み、特定の条件でデータを抽出したり、複数のデータを結合したりする。
NumPy: 数値計算のスペシャリスト。高速な配列演算機能を提供し、科学技術計算の基盤として広く利用されています。Pandasと組み合わせて、データ分析の効率を大幅に向上させることができます。
- 例：大量の数値データに対して、平均値や標準偏差を計算したり、行列演算を行ったりする。
Matplotlib: グラフ描画の基本。折れ線グラフ、棒グラフ、散布図、ヒストグラムなど、様々な種類のグラフを作成することができます。データの可視化を通じて、データの特徴や傾向を把握するのに役立ちます。
- 例：売上データを折れ線グラフで表示したり、商品の種類ごとの販売数を棒グラフで表示したりする。
Seaborn: Matplotlibの進化版。より洗練されたデザインで、統計的なグラフを簡単に作成することができます。データ間の関係性を視覚的に表現するのに優れており、データ分析の結果を効果的に伝えることができます。
- 例：複数の変数間の相関関係をヒートマップで表示したり、データの分布を箱ひげ図で表示したりする。

インストール：準備を整えよう

これらのライブラリを使うには、まずインストールが必要です。以下のコマンドをターミナルまたはコマンドプロンプトで実行してください。

pip install pandas numpy matplotlib seaborn

基本的な使い方：コードで体験

それぞれのライブラリの基本的な使い方を、サンプルコードを通して見ていきましょう。

Pandas：データフレームを作ってみよう

import pandas as pd

# データを作成
data = {'名前': ['田中', '佐藤', '鈴木'],
        '年齢': [25, 30, 28],
        '職業': ['エンジニア', '教師', '営業']}

# データフレームを作成
df = pd.DataFrame(data)

# データフレームを表示
print(df)

このコードを実行すると、以下のような表形式のデータが表示されます。

   名前  年齢      職業
0  田中  25  エンジニア
1  佐藤  30      教師
2  鈴木  28      営業

NumPy：配列を操作してみよう

import numpy as np

# 配列を作成
arr = np.array([1, 2, 3, 4, 5])

# 配列の各要素を2倍にする
arr_doubled = arr * 2

# 結果を表示
print(arr_doubled)

このコードを実行すると、各要素が2倍になった配列が表示されます。

[ 2  4  6  8 10]

Matplotlib：グラフを描いてみよう

import matplotlib.pyplot as plt

# データ
x = [1, 2, 3, 4, 5]
y = [2, 4, 6, 8, 10]

# 折れ線グラフを描画
plt.plot(x, y)

# グラフのタイトルと軸ラベルを設定
plt.title('折れ線グラフの例')
plt.xlabel('X軸')
plt.ylabel('Y軸')

# グラフを表示
plt.show()

このコードを実行すると、折れ線グラフが表示されます。

Seaborn：散布図を描いてみよう

import seaborn as sns
import matplotlib.pyplot as plt # SeabornはMatplotlibに依存するため、こちらもimport

# データ
x = [1, 2, 3, 4, 5]
y = [2, 4, 6, 8, 10]

# 散布図を描画
sns.scatterplot(x=x, y=y)

# グラフのタイトルを設定
plt.title('Seabornを使った散布図の例')

# グラフを表示
plt.show()

このコードを実行すると、散布図が表示されます。Seabornを使うと、Matplotlibよりも簡単に、より洗練されたグラフを作成できます。

まとめ：ライブラリを使いこなしてデータ分析を始めよう

Pandas, NumPy, Matplotlib, Seabornは、データ分析を行う上で非常に強力なツールです。これらのライブラリを使いこなすことで、データの操作、分析、可視化を効率的に行うことができます。ぜひ、サンプルコードを参考に、これらのライブラリを使ってデータ分析に挑戦してみてください。もしAnacondaをインストールしていれば、これらのライブラリはすでにインストールされているはずです。

データの前処理：Pandasでデータを綺麗にする

データ分析の現場でよく言われる言葉があります。それは「ゴミを入れたら、ゴミしか出てこない」。どんなに高度な分析手法を使っても、データ自体が汚れていては、正しい結果は得られません。そこで重要になるのが、データの前処理です。データの前処理は、分析結果の信頼性を高めるための重要なステップです。

このセクションでは、データ分析の精度を大きく左右する前処理について、PythonのPandasライブラリを用いて実践的に解説します。具体的なデータセットを例に、欠損値、データ型、異常値といったデータの汚れを綺麗にする方法をステップごとに見ていきましょう。データの前処理をマスターすることで、より正確で意味のある分析結果を得ることができます。

なぜデータの前処理が重要なのか？

データの前処理は、まるで料理の下ごしらえ。食材（データ）を綺麗に洗い、不要な部分を取り除くことで、素材本来の味（データの価値）を引き出すことができます。具体的には、以下のようなメリットがあります。

分析の精度向上: 欠損値や異常値を取り除くことで、統計モデルや機械学習モデルの性能が向上します。モデルがより正確なパターンを学習できるようになります。
可視化の品質向上: データのばらつきを抑え、分布を整えることで、グラフが見やすくなり、データの構造をより深く理解できます。より直感的にデータの特徴を捉えることができます。
効率的なデータ分析: 不正なデータを事前に取り除くことで、分析にかかる時間と労力を削減できます。無駄な計算を省き、効率的な分析が可能になります。

Pandasで実践！データ前処理の基本

Pandasは、Pythonでデータ分析を行う上で欠かせないライブラリです。データフレームという強力なデータ構造を提供し、データの読み込み、加工、集計、可視化など、データ分析に必要な様々な操作を簡単に行うことができます。

ここでは、Pandasを使ってデータの前処理を行うための基本的なテクニックを解説します。

1. 欠損値処理：データの抜け穴を埋める

データセットには、欠損値（Missing Value）が含まれていることがよくあります。欠損値は、データが欠落している状態を表し、分析結果に悪影響を及ぼす可能性があります。Pandasでは、isnull()やfillna()などのメソッドを使って、欠損値を簡単に処理できます。

例：欠損値の確認と補完

import pandas as pd
import numpy as np

# サンプルデータを作成
data = {'名前': ['Alice', 'Bob', 'Charlie', 'David', 'Emily'],
        '年齢': [25, 30, np.nan, 35, 28],
        '職業': ['エンジニア', '教師', '医者', np.nan, 'プログラマー']}
df = pd.DataFrame(data)

# 欠損値の確認
print(df.isnull().sum())

# 年齢の欠損値を平均値で補完
age_mean = df['年齢'].mean()
df['年齢'].fillna(age_mean, inplace=True)

# 職業の欠損値を最頻値で補完
occupation_mode = df['職業'].mode()[0]
df['職業'].fillna(occupation_mode, inplace=True)

print(df)

isnull().sum()で各列の欠損値の数を確認し、fillna()で欠損値を補完しています。inplace=Trueは、元のデータフレームを直接変更するオプションです。

補完方法の選択: 欠損値の補完方法は、データの種類や分布によって適切に選択する必要があります。平均値、中央値、最頻値の他に、線形補間や機械学習モデルを用いた予測値で補完する方法もあります。例えば、時系列データの場合は、線形補間が有効な場合があります。

2. データ型変換：データの表現形式を整える

データ型が適切でない場合、計算が正しく行われなかったり、メモリを無駄に消費したりする可能性があります。Pandasでは、astype()メソッドを使って、データ型を簡単に変換できます。

例：データ型の変換

# 数値型に変換
df['年齢'] = df['年齢'].astype(int)

# カテゴリ型に変換
df['職業'] = df['職業'].astype('category')

print(df.dtypes)

astype()に変換したいデータ型を指定することで、列のデータ型を変換できます。

よく使うデータ型: int（整数）、float（浮動小数点数）、str（文字列）、datetime（日付）、category（カテゴリ）などがあります。例えば、日付を表す文字列をdatetime型に変換することで、日付に基づいた集計や分析が可能になります。

3. 異常値処理：データのノイズを取り除く

異常値（Outlier）は、他の値から大きく外れた値であり、分析結果に歪みをもたらす可能性があります。異常値を特定し、適切な方法で処理することで、より正確な分析結果を得ることができます。

例：四分位範囲（IQR）を用いた異常値の除去

# 四分位範囲（IQR）を計算
Q1 = df['年齢'].quantile(0.25)
Q3 = df['年齢'].quantile(0.75)
IQR = Q3 - Q1

# 異常値の範囲を定義
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# 異常値を除外
df = df[(df['年齢'] >= lower_bound) & (df['年齢'] <= upper_bound)]

print(df)

四分位範囲（IQR）は、データの25%点（Q1）と75%点（Q3）の差であり、データのばらつきを表します。IQRに1.5を掛けた値をQ1から引いた値と、Q3に足した値をそれぞれ下限値と上限値とし、この範囲外の値を異常値として除去します。

異常値の処理方法: 異常値の処理方法は、データの性質や分析の目的に応じて異なります。削除、他の値で置き換え、またはそのまま保持する場合もあります。データの専門家や分析の目的と相談して、最適な方法を選択しましょう。例えば、測定誤差による異常値であれば削除、ビジネス上の特別なイベントによる異常値であれば保持するなど、状況に応じた判断が重要です。

まとめ：データ前処理は分析の成功の鍵

このセクションでは、Pandasを用いたデータの前処理の基本的なテクニックを解説しました。データの前処理は、データ分析の精度を向上させるために不可欠なステップです。今回紹介したテクニックを参考に、日々のデータ分析業務で実践してみてください。データが綺麗になれば、見えてくる景色も変わってくるはずです。データの前処理を丁寧に行うことで、分析結果の信頼性を高め、より良い意思決定に繋げることができます。

次のステップ: 次のセクションでは、MatplotlibとSeabornを用いて、データを可視化する方法を学びます。データの前処理で綺麗になったデータを、グラフで表現することで、データの構造やパターンをより深く理解することができます。データ可視化は、分析結果を効果的に伝えるための重要なスキルです。

データの可視化：MatplotlibとSeabornでデータを見える化する

データ分析において、可視化は非常に重要な役割を果たします。なぜなら、数値の羅列だけでは見えにくいデータの傾向やパターンを、視覚的に理解しやすくしてくれるからです。可視化を通じて、データが持つストーリーを読み解き、効果的な意思決定につなげることができます。また、可視化は、分析結果を他者に伝えるための強力なツールでもあります。本セクションでは、Pythonの代表的な可視化ライブラリであるMatplotlibとSeabornを用いて、データを見える化するテクニックを解説します。

グラフの種類と使い分け

一口に可視化と言っても、データの種類や分析の目的に応じて適切なグラフを選択する必要があります。ここでは、よく使われるグラフの種類と、それぞれの使い分けについて解説します。グラフの選択を誤ると、誤った解釈を招く可能性があるため、注意が必要です。

折れ線グラフ: 時系列データの推移を把握するのに適しています。例えば、株価の変動や気温の変化などを可視化する際に役立ちます。時間軸に沿ったデータの変化を捉えるのに適しています。
棒グラフ: カテゴリごとの値を比較するのに適しています。例えば、商品の売上高やアンケートの回答結果などを比較する際に役立ちます。カテゴリ間の大小関係を明確に示したい場合に有効です。
散布図: 2つの変数間の関係性を把握するのに適しています。例えば、身長と体重の関係や広告費用と売上の関係などを可視化する際に役立ちます。相関関係の有無や、データの分布パターンを把握するのに役立ちます。
ヒストグラム: データの分布を把握するのに適しています。例えば、テストの点数分布や年齢層の分布などを可視化する際に役立ちます。データの中心傾向やばらつき具合を把握するのに適しています。
箱ひげ図: データの分布に加え、中央値や四分位範囲、外れ値などを把握するのに適しています。複数のグループ間でデータの分布を比較する際にも役立ちます。グループ間の比較や、外れ値の有無を確認するのに便利です。
ヒートマップ: 複数の変数間の相関関係を把握するのに適しています。例えば、アンケートの回答項目間の相関関係や、商品の購買データにおける相関関係などを可視化する際に役立ちます。変数間の関係性の強さを視覚的に把握するのに役立ちます。

MatplotlibとSeaborn：それぞれの特徴と使い分け

Pythonには、様々な可視化ライブラリが存在しますが、中でもMatplotlibとSeabornはよく利用されます。それぞれの特徴と使い分けについて見ていきましょう。

Matplotlib: グラフの基本となるライブラリで、細かいカスタマイズが可能です。グラフの種類も豊富で、あらゆる可視化に対応できます。ただし、コード量が多くなりがちなのが難点です。Matplotlibは、可視化の基礎を理解する上で重要なライブラリです。
Seaborn: Matplotlibをベースにした、より高度な可視化ライブラリです。統計的なグラフを簡単に、そして美しく作成することができます。例えば、回帰プロットやバイオリンプロットなど、Matplotlibでは少し手間のかかるグラフも簡単に作成できます。Seabornは、より洗練されたグラフを効率的に作成したい場合に適しています。

基本的には、Seabornを使うことで、より洗練されたグラフを効率的に作成できます。Matplotlibは、Seabornで表現できない特殊なグラフを作成したい場合や、グラフの細かい部分までカスタマイズしたい場合に利用すると良いでしょう。可視化の目的に応じて、適切なライブラリを選択することが重要です。

効果的な可視化のテクニック

グラフを作成するだけでなく、効果的に情報を伝えるためには、いくつかのテクニックが必要です。これらのテクニックを駆使することで、グラフの表現力を高め、より深い洞察を得ることができます。

色の活用: 適切なカラーパレットを使用することで、グラフの見やすさを向上させ、特定の情報を強調することができます。例えば、重要な要素に目立つ色を使用したり、類似した要素には同系色を使用したりすると効果的です。色の選択は、グラフの印象を大きく左右するため、慎重に行う必要があります。
ラベル: 軸ラベル、タイトル、凡例を適切に設定することで、グラフの内容を明確に伝えることができます。単位や説明を省略せずに記述し、誰が見ても理解できるように心がけましょう。ラベルは、グラフの理解を助けるための重要な要素です。
スタイルの調整: グリッド線、背景色、フォントなどを調整することで、グラフの見やすさを向上させることができます。例えば、背景色を薄いグレーにしたり、フォントサイズを調整したりすると、グラフがより見やすくなります。スタイルの調整は、グラフの印象を大きく変えることができます。

実践例：Seabornで散布図を作成する

実際にSeabornを使って散布図を作成してみましょう。ここでは、サンプルデータとして、ある商品の「広告費用」と「売上」のデータを使用します。

まず、必要なライブラリをインポートします。

import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

# サンプルデータの作成
data = {
    'ad_cost': [100, 200, 300, 400, 500],
    'sales': [500, 700, 900, 1100, 1300]
}
df = pd.DataFrame(data)

# 散布図の作成
sns.scatterplot(x='ad_cost', y='sales', data=df)

# タイトルと軸ラベルの設定
plt.title('広告費用と売上の関係')
plt.xlabel('広告費用')
plt.ylabel('売上')

# グラフの表示
plt.show()

このコードを実行すると、広告費用と売上の関係を表す散布図が表示されます。散布図を見ることで、広告費用と売上には正の相関関係があることがわかります。この情報は、マーケティング戦略の立案に役立ちます。

まとめ

本セクションでは、MatplotlibとSeabornを用いたデータ可視化のテクニックについて解説しました。グラフの種類と使い分け、MatplotlibとSeabornそれぞれの特徴、そして効果的な可視化のテクニックを理解することで、データ分析の結果をより効果的に伝えることができるようになります。ぜひ、様々なデータセットを使って、可視化のスキルを磨いてください。データ可視化は、データ分析の成果を最大化するための重要なスキルです。

実践！データ分析プロジェクト：顧客分析を例に

データ分析の知識を、机上の空論で終わらせていませんか？このセクションでは、学んだPythonとライブラリ（Pandas, NumPy, Matplotlib, Seaborn）を総動員し、実際のデータセットを用いた顧客分析プロジェクトに挑戦します。分析の目的設定から結果の解釈まで、一連の流れを体験することで、実践的なスキルを飛躍的に向上させましょう。このプロジェクトを通じて、データ分析の実践的なスキルを習得し、ビジネスの課題解決に役立てることができます。

1. 分析の目的を定める：何を知りたいのか？

まず、なぜ顧客分析を行うのか、目的を明確に定義します。例えば、以下のような目的が考えられます。

優良顧客を特定し、ロイヤリティを高める施策を打ちたい
解約リスクの高い顧客を予測し、事前に防止策を講じたい
顧客の属性に基づき、最適なマーケティング戦略を立案したい

目的が明確であれば、必要なデータや分析手法が自ずと見えてきます。今回は例として、「顧客セグメントを特定し、それぞれのセグメントに合わせた販促戦略を立案する」という目的を設定しましょう。この目的を達成するために、どのようなデータが必要で、どのような分析手法が有効なのかを検討します。

2. データセットの準備：顧客データを探す

次に、分析に必要な顧客データを準備します。理想的なのは、以下の情報を含むデータセットです。

顧客属性: 年齢、性別、居住地、職業など
購買履歴: 購入商品、購入金額、購入頻度、最終購入日など
行動ログ: Webサイト閲覧履歴、メール開封率、アプリ利用状況など

自社データがない場合は、Kaggleなどのプラットフォームで公開されている無料のデータセットを活用することも可能です。今回は、架空のオンラインストアの顧客データセットを使用することにします。データセットは、CSV形式で提供されていると仮定します。データセットの準備は、分析の成否を左右する重要なステップです。

3. いざ分析！Pythonコードで顧客を理解する

Pandasを使ってデータを読み込み、前処理を行います（欠損値処理、データ型変換など）。次に、記述統計量の算出や可視化を行い、データの全体像を把握します。

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# データ読み込み
df = pd.read_csv('customer_data.csv')

# 欠損値の確認
print(df.isnull().sum())

# 年齢層別の顧客数
sns.histplot(df['age'])
plt.show()

# 購買金額と年齢の散布図
sns.scatterplot(x='age', y='purchase_amount', data=df)
plt.show()

注意: 上記のコードを実行する前に、customer_data.csvファイルがコードを実行するディレクトリに存在することを確認してください。もしファイルが存在しない場合は、Kaggleなどからダウンロードするか、この後の手順でサンプルデータを作成してください。

さらに、顧客をセグメントに分けるために、クラスタリング（K-means法など）を行います。

from sklearn.cluster import KMeans

# サンプルデータの作成（ファイル読み込みの代替）
data = {'age': [20, 30, 40, 50, 60, 25, 35, 45, 55, 65],
        'purchase_amount': [100, 200, 300, 400, 500, 150, 250, 350, 450, 550]}
df = pd.DataFrame(data)

# 特徴量の選択（例：購買金額、年齢）
X = df[['purchase_amount', 'age']]

# クラスタリングの実行
kmeans = KMeans(n_clusters=3, random_state=0, n_init = 'auto') # FutureWarning: The default value of `n_init` will change from 10 to 'auto' in version 1.4. Set the value of `n_init` explicitly to suppress the warning
df['cluster'] = kmeans.fit_predict(X)

# クラスタごとの特徴
print(df.groupby('cluster').mean())

解説: 上記のコードでは、まずKMeansクラスタリングを行うために、sklearn.clusterモジュールからKMeansクラスをインポートしています。次に、クラスタリングに使用する特徴量として、purchase_amount（購買金額）とage（年齢）を選択し、Xに格納しています。KMeansクラスのインスタンスを作成し、クラスタ数を3に設定しています。random_stateは、乱数のシードを設定することで、結果の再現性を高めます。

警告: KMeansの実行時に n_init パラメータに関する警告が表示される可能性があります。これは、将来のバージョンで n_init のデフォルト値が変更されるためです。警告を抑制するためには、n_init の値を明示的に設定することを推奨します。n_init='auto'とすることで警告を回避しつつ、自動で適切な値を選択させることもできます。