Badini Kurdish STT：Wav2Vec2とWhisperの性能比較

紹介論文

今回紹介する論文はWhich one Performs Better? Wav2Vec or Whisper? Applying both in Badini
Kurdish Speech to Text (BKSTT)という論文です。

https://arxiv.org/pdf/2508.09957v1.pdf

この論文を一言でまとめると

Badini Kurdishの音声テキスト変換（STT）において、Wav2Vec2とWhisperの性能を比較。データセット構築からモデル評価まで、詳細な実験結果と考察を共有し、低リソース言語における音声認識の可能性を探ります。

はじめに：低リソース言語と音声認識の課題

音声認識技術（STT）は、私たちの日常生活に欠かせないものとなりつつあります。しかし、その恩恵を十分に受けられるのは、ごく一部の言語に限られているのが現状です。多くの言語でSTTシステムが利用可能ですが、その品質には大きな差があり、特に低リソース言語においては、十分な精度が得られないという課題があります。

クルド語もまた、その一つです。クルド語は、処理の観点から見て低リソース言語とみなされており、特に今回焦点を当てるBadini（バディニ）方言は、約200万人の話者がいるにも関わらず、STT技術の恩恵を十分に受けていません。Badini方言に対応した高品質なSTTシステムは、Badini語を話す人々がモバイルやコンピューターなどの情報技術を利用する上で大きな助けとなり、彼らの方言のグローバルな可視性を高めることにも繋がります。

本研究では、この課題を解決するため、Badini方言の音声データに基づいて言語モデルを作成し、その性能を詳細に評価することを目的としています。具体的には、Wav2Vec2とWhisperという2つの最先端のSTTフレームワークを用いてモデルを構築し、その精度や読みやすさなどを比較検討します。

人間と機械のコミュニケーションがますます重要になる現代において、本研究は、低リソース言語におけるSTT技術の発展に貢献し、Badini語を話す人々の情報アクセスを支援することを目指します。本稿では、Badini方言のSTTにおけるWav2Vec2とWhisperの性能比較を通じて、低リソース言語での音声認識の現状と課題、そして今後の可能性について考察します。

研究背景：Badini Kurdishと音声認識

このセクションでは、Badini Kurdishの概要、STT（Speech-to-Text）の重要性、そして関連研究について解説します。また、本研究で用いるWav2Vec2とWhisperの基本構造と、言語モデルへの応用についても説明します。

Badini Kurdishの概要

Badini Kurdishは、主にイラクのクルディスタン地域、特にドホーク県で話されているクルド語の方言です。話者数は約150万から170万人と推定されています。しかし、残念ながら、現在多くの自然言語処理（NLP）タスク、特にSTTを行う上で必要なリソースが十分に揃っていません。この状況が、本研究の出発点となっています。

STTの重要性

STT技術は、現代社会においてますます重要な役割を果たしています。会議の議事録作成、音声アシスタント、字幕生成など、幅広いアプリケーションで利用されています。Badini Kurdishのような低リソース言語においても、STT技術の発展は、情報へのアクセスを容易にし、コミュニケーションのバリアを取り除く上で非常に重要です。

Wav2Vec2とWhisperの基本構造

本研究では、Wav2Vec2とWhisperという2つの代表的なモデルを用いて実験を行います。

Wav2Vec2

Wav2Vec2は、Facebook AI Researchによって開発された自己教師あり学習モデルです。音声データを入力として、潜在的な特徴量を学習し、それを元に音素認識を行います。Connectionist Temporal Classification（CTC）アルゴリズムを使用することで、音声とテキストのアライメントを効率的に行えます。

Whisper

Whisperは、OpenAIによって開発されたTransformerベースのモデルです。68万時間にも及ぶ大規模な音声データセットで学習されており、多言語に対応しています。特に、リソースの少ない言語でも比較的高い精度を実現できる点が魅力です。
Whisperは、Byte Pair Encoding（BPE）というサブワード分割手法を用いており、未知語への対応能力が高いという特徴も持っています。

言語モデルへの応用

Wav2Vec2とWhisperは、どちらも言語モデルとして応用することができます。学習済みのモデルをBadini Kurdishのデータで微調整（Fine-tuning）することで、よりBadini Kurdishに特化したSTTシステムを構築することが可能です。

本研究では、これらのモデルをBadini Kurdishの音声データで学習させ、その性能を詳細に比較することで、Badini KurdishにおけるSTTの可能性を探ります。

研究方法：データセット構築とモデル開発

このセクションでは、Badini Kurdishの音声テキスト変換（STT）モデルを構築するために行った、データ収集からモデル評価までの詳細な手順を解説します。低リソース言語における音声認識の課題を克服し、より高精度なモデルを開発するための取り組みを紹介します。

データ収集

まず、Badini Kurdishの音声データを収集しました。目標は、約10〜20時間の音声データを集めることです。このデータセットは、クルド語NLPのデータ拡張に貢献することを目的としており、公開可能なテキストコレクションを選びました。

ナレーターの選定も重要なポイントです。流暢なネイティブスピーカーだけでなく、非ネイティブスピーカーも採用し、多様な発音をカバーできるようにしました。選定されたナレーターには、同じサンプルストーリーを読んでもらい、発音の正確さや明瞭さを評価しました。録音環境の騒音レベルもチェックし、高品質なデータ収集に努めました。

データの前処理

収集した音声データは、そのままではモデルの学習に使用できません。そこで、Adobe Audition（2022）を用いて、以下の前処理を行いました。

録音されたオーディオファイルをAdobe Auditionにインポート
タイムライン上で処理対象のオーディオを選択し、ノイズサンプルを抽出
抽出したノイズプロファイルを適用してノイズを低減し、音声以外の不要なサウンドを削除
必要に応じて、音声強調処理を行い、よりクリアな音声に

これらの処理により、モデルが学習しやすい高品質な音声データを作成しました。

モデル開発

モデル開発には、Hugging Face Transformersライブラリで公開されている事前学習済みモデルを利用しました。具体的には、以下の2つの最先端多言語音声認識アーキテクチャを使用しました。

Wav2Vec2-XLSR-53
Whisper-small

これらのモデルは、Transformerアーキテクチャに基づいており、多言語の音声認識に優れた性能を発揮します。計算資源としては、Google Colab Proを使用し、Tesla（T4）GPUを活用することで、効率的な学習を実現しました。

Wav2Vec2モデルでは、Badini語の特性に合わせて、カスタム語彙を作成しました。一方、Whisperモデルでは、Byte Pair Encoding（BPE）トクナイザーを使用し、テキスト中の特殊な要素を管理しました。

モデルの微調整

事前学習済みモデルをそのまま使用するのではなく、Badini Kurdishのデータセットで微調整（fine-tuning）を行うことで、特定の言語やタスクに最適化しました。Wav2Vec2とWhisperそれぞれに対して、学習率やバッチサイズなどのハイパーパラメータを調整し、最適な設定を見つけました。

学習の際には、過学習を防ぐために、weight decayなどの正則化手法を適用しました。また、計算コストを削減するために、gradient accumulationやgradient checkpointingなどのテクニックも活用しました。

評価方法

モデルの性能評価には、以下の標準的なSTT評価指標を用いました。

Word Error Rate（WER）：単語誤り率
Character Error Rate（CER）：文字誤り率

これらの指標を計算するために、モデルの予測結果と正解のテキストデータ（参照トランスクリプション）を比較しました。モデルの出力と参照トランスクリプション間のずれを考慮し、パディングトークンを挿入するなどの工夫も行いました。

以上の手順を経て、Badini KurdishのSTTモデルを開発し、その性能を評価しました。次章では、実験結果とその考察について詳しく解説します。

実験結果と考察：Wav2Vec2 vs Whisper

本セクションでは、Badini Kurdishの音声認識におけるWav2Vec2とWhisperの性能を詳細に比較し、それぞれのモデルの特性を明らかにします。精度、読みやすさ、エラー率などの評価指標を用いて、各モデルの強みと弱みを分析します。

データセットの詳細

今回の実験では、以下のデータセットを使用しました。

* 8冊の絵本から抽出した78の物語
* 6人のBadiniナレーター（女性5人、男性1人）による録音
* 対象年齢：6歳から12歳の子供
* 元データ：12冊の絵本からの111のBadiniフィクションストーリー

Wav2Vec2の性能

Wav2Vec2は、以下の点で優れた性能を示しました。

* Badiniデータセットとの高いアライメント
* 低いWER（Word Error Rate）およびCER（Character Error Rate）値
* 安定したトレーニングの軌跡

これらの結果から、Badini Kurdishの音声認識において、Wav2Vec2はより適切で正確なソリューションであると言えます。

Whisperの性能

Whisperは、すべての評価指標において、Wav2Vec2と比較して性能が劣る結果となりました。

モデルの比較分析

実験を通して、以下の点に着目しました。

* ネイティブナレーションによるトレーニングが、必ずしも高精度なモデルを生成するとは限らない
* 非ネイティブスピーカーは、流暢さに課題があるものの、より明確な発音を心がける傾向がある
* 非ネイティブスピーカーの丁寧な発音が、結果的にモデルの学習に良い影響を与えた

ネイティブスピーカーは、発音に慣れているため、無意識のうちに発音を省略してしまうことがあります。一方、非ネイティブスピーカーは、一つ一つの単語を意識して発音するため、結果的にモデルの学習に役立つことがあります。

この結果は、音声認識モデルのトレーニングにおいて、データの多様性と発音の明瞭さが重要であることを示唆しています。低リソース言語においては、必ずしもネイティブスピーカーのデータのみに頼るのではなく、非ネイティブスピーカーのデータも活用することで、よりロバストなモデルを構築できる可能性があります。

今後は、データセットの拡張と、さまざまなアクセントを考慮したモデル開発に取り組むことで、Badini Kurdishの音声認識技術のさらなる発展を目指します。

結論と今後の展望：Badini KurdishのSTTの未来

本研究では、低リソース言語であるBadini Kurdishにおける音声テキスト変換（STT）において、Wav2Vec2とWhisperという2つの主要なフレームワークの性能を比較検討しました。ネイティブおよび非ネイティブスピーカーによるストーリーナレーションから収集した17時間以上の音声データを用いて、詳細な実験を行い、各モデルの特性と性能を明らかにしました。

今後の研究の方向性

今後の研究では、以下の点に注力していく予定です。

データセットの拡張： より多様なBadini語話者のアクセントを網羅するために、データセットを拡充します。これには、異なる地域や年齢層の話者からのデータを収集することが含まれます。
Webベースアプリケーションの開発： ユーザーが音声データをアップロードし、モデルを再トレーニングできるWebアプリケーションを開発し、データセットの多様性と量を増やします。
自動修正モジュールの導入： 転写の際に頻繁に発生するエラーを自動的に修正するモジュールを組み込み、STTシステムの精度を向上させます。
他のSTTモデルの検討： Wav2Vec2やWhisper以外の最新のSTTモデルをBadini Kurdishに適用し、性能を比較検討します。