AI・機械学習 方策反復法と価値反復法の違い 方策反復法と価値反復法の違い 動的計画法には、強化学習の文脈でよく使われる方策反復法と価値反復法という2つのアプローチがあります。どちらも最適な方策を見つけることを目指しますが、そのアプローチや計算の進め方に違いがあります。 基本概念 状態... 2024.11.26 AI・機械学習IT・プログラミング
AI・機械学習 ベルマン方程式とは?~導出と具体例~ ベルマン方程式は、強化学習や動的計画法で使われる数理モデルで、「最適な行動を選ぶための指針」を提供します。特に、長期的な報酬を最大化するために、各状態で取るべき最適な行動を求めるために利用されます。 ベルマン方程式とは? ベルマン方程式は、... 2024.11.12 AI・機械学習IT・プログラミング
AI・機械学習 迷路で理解する動的計画法と方策反復法 動的計画法とは 動的計画法(Dynamic Programming, DP)は、問題を部分問題に分解して解く手法です。強化学習では、状態ごとに最適な価値を計算し、その情報をもとに最適な方策(Policy)を決定します。特に、エージェントがど... 2024.11.12 AI・機械学習IT・プログラミング
AI・機械学習 機械学習の種類を理解する 機械学習の種類 機械学習は、コンピュータがデータから学習し、パターンを見つけて意思決定を行うための技術です。機械学習は大きく 教師あり学習、教師なし学習、強化学習 の3つに分類されます。この記事ではそれぞれの学習の特徴や適用する問題を見てい... 2024.10.16 AI・機械学習IT・プログラミング
AI・機械学習 単語ベクトルのエンベッディング:局所表現と分散表現 自然言語処理(NLP)において、単語の表現方法はモデルの性能に大きな影響を与えます。以前は、単語を「局所表現」で表す方法が一般的でしたが、現在では「分散表現」として単語ベクトル(Word Embedding)を利用することが標準となっていま... 2024.10.16 AI・機械学習IT・プログラミング
AI・機械学習 自然言語処理の重要技術Transformerについて Transformerとは Transformerは、自然言語処理(NLP)や他の機械学習タスクにおいて非常に重要なモデルの一種です。2017年にVaswaniらによって提案されたこのモデルは、機械翻訳などのタスクで広く使われ、従来のRNN... 2024.10.16 AI・機械学習IT・プログラミング
AI・機械学習 TransformerをGNN(グラフニューラルネットワーク)の観点から考えてみる 前回の記事ではTransformerについて概要を解説しました。 今回は、このTransformerをGNNの観点からとらえてみたいと思います。 グラフニューラルネットワーク(GNN)とは GNNは、グラフ構造データを学習するために設計され... 2024.10.16 AI・機械学習IT・プログラミング
AI・機械学習 グラフニューラルネットワーク(GNN)とは グラフニューラルネットワークとは グラフニューラルネットワーク(GNN, Graph Neural Network)は、グラフデータに対して適用できるディープラーニングモデルです。グラフデータはノード(頂点)とエッジ(辺)で構成されており、... 2024.10.16 AI・機械学習IT・プログラミング
AI・機械学習 強化学習とは? 強化学習とは 強化学習 (Reinforcement Learning) とは、エージェント(学習者)が環境の中で試行錯誤を繰り返しながら、最適な行動を学習する機械学習の一分野です。エージェントは「行動 → 環境からのフィードバック(報酬)... 2024.10.16 AI・機械学習IT・プログラミング
AI・機械学習 強化学習の基本問題 バンディット問題とは? バンディット問題とは バンディット問題 (Multi-Armed Bandit Problem) とは、強化学習の基本的な課題の1つで、限られた資源をどう配分すれば最大の報酬を得られるかを学ぶ問題です。「バンディット」とは、カジノのスロット... 2024.10.16 AI・機械学習IT・プログラミング