音声認識

論文要約

SageLM徹底解説: 音声判断LLMの最前線

紹介論文今回紹介する論文はSageLM: A Multi-aspect and Explainable Large Language Model for Speech Judgementという論文です。 この論文を一言でまとめるとSageL...
論文要約

音声認識エラーが言語発達研究を歪める?ベイズ補正で解決!

紹介論文今回紹介する論文はClassification errors distort findings in automated speech processing: examples and solutions from child-de...
論文要約

AuriStream:音声認識を変えるコクリア表現とは?

紹介論文今回紹介する論文はRepresenting Speech Through Autoregressive Prediction of Cochlear Tokensという論文です。 この論文を一言でまとめるとAuriStreamは、人...
論文要約

Badini Kurdish STT:Wav2Vec2とWhisperの性能比較

紹介論文今回紹介する論文はWhich one Performs Better? Wav2Vec or Whisper? Applying both in Badini Kurdish Speech to Text (BKSTT)という論文で...
論文要約

SPGISpeech 2.0:金融音声認識を革新するデータセット

紹介論文今回紹介する論文はSPGISpeech 2.0: Transcribed multi-speaker financial audio for speaker-tagged transcriptionという論文です。 この論文を一言で...
論文要約

DeSTA2.5-Audio解説:自己生成で進化する音声AI

紹介論文今回紹介する論文はDeSTA2.5-Audio: Toward General-Purpose Large Audio Language Model with Self-Generated Cross-Modal Alignment...
論文要約

ベンガル語ASR比較:WhisperとWav2Vec-BERT

紹介論文今回紹介する論文はAdaptability of ASR Models on Low-Resource Language: A Comparative Study of Whisper and Wav2Vec-BERT on Ban...
論文要約

RETURNN: ニューラルネット 開発の新潮流

紹介論文今回紹介する論文はRETURNN as a Generic Flexible Neural Toolkit with Application to Translation and Speech Recognitionという論文です。...
論文要約

中国語音声認識の最前線:Transformerで精度向上!

紹介論文今回紹介する論文はA Comparison of Modeling Units in Sequence-to-Sequence Speech Recognition with the Transformer on Mandarin ...
論文要約

AIで幼児の音声発達を分析!多言語音声データと自己教師あり学習

紹介論文今回紹介する論文はEmploying self-supervised learning models for cross-linguistic child speech maturity classificationという論文です。...