非グレゴリオ暦とLLM：日本語暦の壁

紹介論文
1. この論文を一言でまとめると
はじめに：暦とAI、文化の架け橋
研究概要：LLMは日本語暦を理解できるのか？
実験設定：4つのタスクでLLMを徹底検証
実験結果：LLMの得意と苦手
考察：LLMはなぜ日本語暦が苦手なのか？
まとめ：文化多様性に対応したAIの未来へ

紹介論文

今回紹介する論文はCan Language Models Handle a Non-Gregorian Calendar?という論文です。

https://arxiv.org/pdf/2509.04432v1.pdf

この論文を一言でまとめると

LLMは文化的背景に根ざした暦を理解できるのか？日本語暦を題材に、LLMの限界と今後の課題を解説。文化多様性に対応したAI開発の重要性を探ります。

はじめに：暦とAI、文化の架け橋

暦、それは単なる日付を記録するツールではありません。文化、宗教、社会生活と深く結びつき、人々の生活リズム、行事、記憶、価値観に影響を与える、文化そのものと言えるでしょう。世界には、グレゴリオ暦だけでなく、イスラム暦、ユダヤ暦、そして日本独自の和暦など、様々な暦体系が存在し、時間の概念もまた、文化によって異なります。

AIが真に世界を理解し、人々と自然なコミュニケーションを実現するためには、多種多様な文化の暦を理解することが不可欠です。多言語、多文化に対応することで、AIはより高度なタスクを実行できるようになり、文化的なニュアンスを理解することで、人間とより自然なコミュニケーションを行うことができるようになります。

本記事では、日本で使われている和暦を例に、AIが文化特有の暦を扱うことの難しさを解説します。和暦は、元号と数字で年を表し、日本の歴史や文化と深く結びついています。現代の日本でも、公式文書や日常生活で和暦が使われており、私たちの生活に深く根ざしています。

近年、AI、特にLLM（大規模言語モデル）の進化は目覚ましいものがありますが、果たしてLLMは和暦をどの程度理解できるのでしょうか？　LLMは、事実知識と推論能力の両面から、和暦を正確に扱えるのでしょうか？　本記事では、LLMが和暦を扱う上での課題を明らかにし、文化多様性に対応したAI開発の必要性を強調します。

この探求を通じて、AIの未来が、単なる技術的な進歩だけでなく、文化の理解にかかっていることを、読者の皆様と共に考えていきたいと思います。

研究概要：LLMは日本語暦を理解できるのか？

AIが世界を理解するためには、文化的な背景に根ざした暦を理解することが不可欠です。しかし、従来のAI研究は、グレゴリオ暦に偏重しており、他の暦体系、特に文化と深く結びついた暦への対応が不十分でした。

本記事では、Mutsumi Sasaki氏らの論文「Can Language Models Handle a Non-Gregorian Calendar?」（arXiv:2509.04432）に基づき、日本語暦（和暦）を扱うLLMの能力を検証し、その課題を明らかにします。この研究は、LLMが事実知識と推論能力の両面から、和暦をどの程度理解できるのかを評価することを目的としています。

研究の背景

従来のAI研究はグレゴリオ暦中心で、非グレゴリオ暦への対応は手薄だった。
近年、文化的な視点をAIに取り込む重要性が認識され始めている。
暦のような文化に根ざした時間表現は、AIにとって重要な課題である。

研究の目的

LLMが日本語暦をどの程度正確に扱えるのかを評価する。
LLMの、事実知識と推論能力の両面から検証する。
英語中心のLLMと日本語中心のLLMを比較し、文化による違いを分析する。

研究のアプローチ

研究チームは、LLMの能力を測るために、日本語暦に関する以下の4つのタスクを設計しました。

グレゴリオ暦との変換：グレゴリオ暦と和暦を相互に変換する能力を評価します。
暦の計算：和暦を用いた日付計算（例：〇〇年の10年後は？など）を行う能力を評価します。
生年特定：日本の人物の生年を和暦またはグレゴリオ暦で特定する能力を評価します。
暦の整合性：和暦とグレゴリオ暦で矛盾なく生年を特定できるかを評価します。

これらのタスクを用いて、複数のLLMで実験を行い、その性能を詳細に分析しました。特に、英語中心のLLMと日本語中心のLLMの性能を比較することで、文化的な違いがLLMの暦理解に与える影響を検証しています。

研究の意義

本研究は、これまで見過ごされてきた非グレゴリオ暦というAIの課題に光を当て、文化多様性に対応したAI開発の必要性を喚起するものです。また、今後のAI研究の方向性を示唆する上で、重要な意義を持つと考えられます。

次項では、これらのタスクがどのように設定され、どのようなモデルが使用されたのか、詳細な実験設定について解説していきます。

実験設定：4つのタスクでLLMを徹底検証

本セクションでは、LLM（Large Language Model）が日本語暦をどの程度理解できるのかを検証するために設計された、4つの主要なタスクについて詳しく解説します。これらのタスクは、LLMの知識、推論能力、そして異なる暦体系間での整合性を評価することを目的としています。それぞれのタスクは、LLMが抱える課題を特定し、文化多様性に対応したAI開発への道筋を示すための重要なステップとなります。

タスク1：グレゴリオ暦との変換

このタスクでは、LLMにグレゴリオ暦（西暦）と和暦を相互に変換させます。例えば、「西暦1804年は、和暦では文化1年です。西暦1992年は、和暦では何年ですか？」といった形式で、LLMに和暦を答えさせます。逆に、「和暦の文嘉1年は、西暦何年ですか？」のように、和暦から西暦への変換も行います。このタスクを通じて、LLMが暦の基本的な知識をどの程度持っているかを評価します。

タスク2：暦の計算

このタスクでは、LLMに和暦を用いた日付計算を行わせます。具体的には、「明治40年の10年後は何年ですか？」や「天保14年3月8日の10年後は何年ですか？」といった問題をLLMに解かせます。このタスクの重要な点は、時代（元号）を跨いだ計算が含まれることです。これにより、LLMが単に日付を足し引きするだけでなく、元号の変更といった歴史的なイベントを考慮に入れた推論ができるかを評価します。

タスク3：生年特定

このタスクでは、日本の歴史上の人物や現代の著名人の生年を、和暦またはグレゴリオ暦でLLMに特定させます。例えば、「日本の暦によると、徳川家康は天文11年に生まれました。日本の暦によると、浅田真央はいつ生まれましたか？」といった形式で質問します。このタスクは、LLMが歴史的な知識をどの程度持っているか、また、その知識を暦体系と関連付けて正確に表現できるかを評価します。

タスク4：暦の整合性

このタスクでは、LLMが和暦とグレゴリオ暦の間で、矛盾なく生年を特定できるかを評価します。つまり、同じ人物の生年を、和暦とグレゴリオ暦の両方で質問し、LLMが整合性の取れた回答を生成できるかを検証します。このタスクは、LLMが異なる暦体系を単に変換するだけでなく、それらを整合的に扱えるかを評価する上で重要です。

使用モデルと評価指標

これらのタスクには、英語中心のLLM（LLaMA-2-7B, LLaMA-2-13B, Mistral-7B, LLaMA3-8B）と、日本語中心のLLM（LLM-JP-3-13B, Sarashina2-13B, Swallow-13B, Swallow-MS-7B, LLaMA3-Swallow-8B）を使用します。
日本語中心のLLMには日本語で、英語中心のLLMには英語でプロンプトを与えます。

LLMの性能は、以下の評価指標を用いて定量的に評価します。

完全一致率（Full Match）：正解と完全に一致した場合の割合
ニアマッチ率（Near Match）：暦の計算タスクで、1年以内の誤差の場合の割合
時代一致率（Era Match）：暦の計算タスクで、正しい時代（元号）を答えられた場合の割合
許容誤差率（Tolerance Match）：生年特定タスクで、3年以内の誤差の場合の割合

これらのタスクと評価指標を通じて、LLMが日本語暦をどの程度理解し、扱えるのかを徹底的に検証します。

実験結果：LLMの得意と苦手

前のセクションでは、LLMが日本語暦を理解するために設定された4つのタスクについて説明しました。このセクションでは、実際の実験結果を詳細に見ていきましょう。LLMは、単純な変換は得意とする一方で、複雑な計算や時代を跨いだ推論は苦手とすることが明らかになりました。また、日本語を中心に学習させたLLMであっても、まだ課題が残る現状についても解説します。

暦変換タスク：日本語中心LLMはほぼ完璧

グレゴリオ暦と和暦の相互変換タスクでは、日本語中心のLLMが圧倒的な強さを見せました。ほぼ完璧な精度で変換が可能であり、基本的な暦の知識は十分に備わっていることが伺えます。一方、英語中心のLLMは、モデルや対象とする時代によって精度が大きく異なり、全体的に精度は高くありません。しかし、一部の英語モデル（LLaMA3.1-8Bなど）は、高い精度を示す場合もあり、学習データやモデルの構造によって性能に差が出ることがわかります。

暦計算タスク：時代を跨ぐと途端に苦手

和暦での日付計算タスクでは、全てのモデルが初期の時代（明治から大正、大正から昭和など）への変換で苦戦しました。特に、1868年の明治から1912年の大正への移行は、LLMにとって大きな壁となっているようです。これは、学習データにおける初期の時代の情報が少ないことや、時代を跨いだ推論が難しいことが原因として考えられます。しかし、日本語中心のLLMは、最近の時代（平成から令和、昭和から平成など）への変換では高い精度を示し、時代による難易度の違いが浮き彫りになりました。興味深いことに、ニアマッチ率（1年以内の誤差）で見ると、英語中心のLLMも一定の性能を示すことがわかりました。これは、英語中心のLLMも暦の基本的な概念は理解しているものの、正確な計算や時代を跨いだ推論が苦手であることを示唆しています。

生年特定タスク：和暦での表現に苦戦

日本の人物の生年を和暦またはグレゴリオ暦で特定するタスクでは、英語中心のLLMは和暦での生年特定が極端に苦手であることが判明しました。これは、英語中心のLLMが日本語の情報を十分に学習できていないことや、和暦の知識が不足していることが原因と考えられます。日本語中心のLLMは、日本語のプロンプトを用いた場合に moderate な成功を収めましたが、それでもグレゴリオ暦の方が精度が高いという結果になりました。このことから、日本語中心のLLMであっても、和暦に関する知識はまだ十分ではないことが示唆されます。

暦整合性タスク：モデルによって結果にばらつき

和暦とグレゴリオ暦で矛盾なく生年を特定できるかを評価するタスクでは、グレゴリオ暦から和暦への変換の整合性が低いことがわかりました。つまり、グレゴリオ暦で正しく生年を特定できたとしても、そこから和暦に変換した結果が必ずしも正しいとは限らないということです。しかし、一部の日本語中心のLLM（Sarashina2-13BやSwallow-13Bなど）は、80%以上の整合性を示すことができました。これは、モデルによって和暦の知識や推論能力に差があることを示しています。

LLMが得意なこと・苦手なこと

これらの実験結果から、LLMが得意なことと苦手なことが明確になりました。

得意なこと
- 単純な暦変換（日本語中心のLLM）
- 時代の順序の理解（多くのモデル）
苦手なこと
- 複雑な暦計算
- 時代を跨いだ推論
- 異なる暦体系の整合性維持
- 和暦での生年特定（英語中心のLLM）

なぜLLMは日本語暦が苦手なのか？

LLMが日本語暦を苦手とする原因については、次のセクションで詳しく考察します。データ不足、知識不足、推論能力不足など、様々な要因が考えられますが、これらの課題を克服することで、より高度なAIの開発に繋がるはずです。

考察：LLMはなぜ日本語暦が苦手なのか？

LLM（Large Language Models）が日本語暦を扱う上で直面する課題は、単なる技術的な問題に留まりません。その背景には、データ不足、知識不足、推論能力不足といった複数の要因が複雑に絡み合っていると考えられます。さらに、暦が文化と深く結びついているという特性が、AIに文化特有の知識を組み込むことの難しさを浮き彫りにしています。

データ不足：学習データの偏り

LLMの学習データは、インターネット上のテキストが中心です。しかし、日本語暦に関する情報は、グレゴリオ暦に比べて圧倒的に少ないのが現状です。特に、時代を跨いだ日付計算や、歴史的な出来事と和暦を結びつけるような、高度な推論を必要とするタスクにおいては、データ不足が深刻なボトルネックとなります。

知識不足：暦のルールと文化的背景

LLMは、表面的なパターンを学習することには長けていますが、暦の背後にあるルールや文化的な背景知識を十分に理解しているとは言えません。例えば、元号が変わるタイミングや、和暦とグレゴリオ暦の対応関係など、複雑なルールを正確に把握する必要があります。

推論能力不足：知識の組み合わせと応用

LLMは、学習した知識を組み合わせて推論する能力がまだ発展途上です。例えば、ある人物の生年から、その人が生きていた時代を推論したり、ある出来事が起こった年を和暦で表現したりするなど、複数の知識を組み合わせた応用的な推論は、LLMにとって大きなハードルとなります。

文化的な背景知識の欠如：暦と文化の深いつながり

暦は、単なる日付の記録ではなく、文化、宗教、社会生活と深く結びついています。例えば、節句や祭りの日付は、和暦に基づいて決められることが多く、これらの行事に参加するためには、和暦の知識が不可欠です。LLMが暦を正しく扱うためには、文化的な背景知識を理解することが不可欠です。

言語の壁：多言語対応の課題

英語中心のLLMは、日本語の情報を十分に学習できていないため、和暦を扱うことが困難です。一方、日本語のLLMでも、英語の知識と和暦の知識が十分に結びついていない可能性があります。多言語に対応したAIを開発するためには、言語間の知識の橋渡しが重要な課題となります。

日付の断片化は、時間推論のボトルネックになる

これらの要因が複合的に絡み合い、LLMが日本語暦を苦手とする現状を作り出しています。文化特有の知識をAIに組み込むことは、非常に難しい課題ですが、AIがより人間らしい知能を獲得するためには、避けて通れない道と言えるでしょう。

まとめ：文化多様性に対応したAIの未来へ

本記事では、LLM（大規模言語モデル）が日本語暦をどの程度理解できるのかを検証した研究「Can Language Models Handle a Non-Gregorian Calendar?」を基に、AIの現状と課題を見てきました。LLMは、単純な暦変換は得意とする一方で、複雑な計算や時代を跨いだ推論は苦手であり、日本語中心のLLMであっても、課題が残ることが明らかになりました。

今後の展望：AIは文化を理解できるか？

LLMが文化特有の暦を理解することは、AIの進化において重要な課題です。なぜなら、暦は単なる日付の情報ではなく、文化、歴史、社会と深く結びついているからです。AIが様々な文化の暦を理解し、適切に扱えるようになることで、以下のような未来が期待できます。

* より人間らしいコミュニケーション：AIが文化的な背景を理解することで、人間とより自然で共感的なコミュニケーションが可能になります。
* 多様な文化への対応：AIが多言語、多文化に対応することで、グローバルな社会でより役立つ存在になります。
* 高度なタスクの実行：AIが文化的なニュアンスを理解することで、翻訳、コンテンツ生成、意思決定など、より高度なタスクを実行できるようになります。

文化多様性に対応したAI開発に向けて

文化多様性に対応したAIを開発するためには、以下のような取り組みが必要です。

* より多くの学習データを用意する：様々な文化の暦に関するデータを収集し、AIに学習させる必要があります。
* 文化的な知識をAIに組み込むための新しい手法を開発する：文化的な背景知識をAIが理解できるような表現方法や学習方法を開発する必要があります。
* 多言語、多文化に対応したAIを開発する：単一の文化に偏らず、様々な文化に対応できるAIを開発する必要があります。