MLでの強化学習:どのように機能するか、モデルとタイプの学習
公開: 2021-06-11目次
強化学習とは何ですか?
強化学習とは、適切な機械学習モデルを通じて適切な意思決定を行うプロセスを指します。 これは、機械学習方法をトレーニングするプロセスに基づいています。 これはフィードバックベースの機械学習手法であり、エージェントは自分の過ちを観察してアクションを実行することにより、環境内での動作を学習します。
強化学習は、相互作用とフィードバックを介した学習方法を適用します。 強化学習で使用される用語のいくつかは次のとおりです。
- エージェント:報酬を受け取るためにアクションを実行するのは、学習者または意思決定者です。
- 環境:これは、エージェントが将来のタスクを学習して実行するシナリオです。
- アクション:エージェントによって実行されるアクション。
- 状態:現状
- ポリシー:エージェントの意思決定機能。これにより、エージェントは現在の状態に基づいて将来のアクションを決定します。
- 報酬:各アクションを実行するために環境からエージェントに提供されるリターン。
- 価値:報酬と比較すると、割引付きの長期的な期待収益です。
- 値関数:状態の値、つまりリターンの合計額を示します。
- 関数近似器:トレーニング例から関数を誘導します。
環境のモデル:推論を予測するために実際の環境を模倣するモデルです。 - モデルベースの方法:鉄筋ベースのモデルを解くために使用されます。
- Q値またはアクション値:値と同様ですが、追加のパラメーターは現在のアクションと同様に見なされます。
- マルコフ決定過程:逐次決定問題の確率モデル。
- 動的計画法:順次決定問題を解くためのメソッドのクラス。
強化学習は主に、ソフトウェアエージェントが環境内でどのように行動を起こすかという事実に関係しています。 ニューラルネットワークに基づく学習は、複雑な目的を達成することを可能にします。
強化学習はどのように機能しますか?
強化学習の例を以下に示し、強化学習がどのように機能するかを示します。
- 猫はどんな形の言語も理解しないので、猫とコミュニケーションをとるには別の戦略に従う必要があります。
- 猫がさまざまな行動をとる状況が生まれます。 それが望ましい方法であるならば、猫は魚で報われます。 したがって、猫はその状況に直面したときはいつでも同じように行動し、報酬としてより多くの餌を期待します。
- シナリオは、前向きな経験から学ぶプロセスを定義します。
- 最後に、猫はまた、否定的な経験を通して何をしてはいけないかを学びます。
これは次の説明につながります
- 猫は環境にさらされるとエージェントとして機能します。 上記の例では、家は環境です。 状態は、座っている猫や歩いている猫のようなものかもしれません。
- エージェントは、座った状態から歩いた状態に移動するように、ある状態から別の状態に移行することによってアクションを実行します。
- アクションは、エージェントの反応です。 ポリシーには、将来の状態でより良い結果を期待しながら、特定の状態でアクションを選択する方法が含まれています。
- 状態の遷移は、報酬またはペナルティを提供する可能性があります。
強化学習で注意すべき点がいくつかあります
- モデルを開始する入力の初期状態を提供する必要があります。
- 多くの可能な出力は、特定の問題に対するさまざまな解決策を通じて生成されます。
- RLメソッドのトレーニングは入力に基づいています。 出力の生成後、モデルはモデルに報酬を与えるかどうかを決定します。 したがって、モデルはトレーニングを受け続けます。
- モデルは継続的に学習を続けます。
- 問題の最善の解決策は、受け取る最大の報酬に基づいて決定されます。
強化学習アルゴリズム
強化学習法を実装するには、3つのアプローチがあります。
1.価値ベース
値ベースの方法では、値関数V(s)を最大化します。 政策の下では、現状の長期的な回復が期待されています。 SARSAとQラーニングは、価値ベースのアルゴリズムの一部です。 価値ベースのアプローチは、継続的な環境をモデル化できないため、非常に安定しています。 どちらのアルゴリズムも実装は簡単ですが、見えない状態の値を推定することはできませんでした。
2.ポリシーベース
このタイプの方法には、すべてのアクションの実行を通じて最大の報酬を返すのに役立つポリシーの開発が含まれます。
ポリシーベースの方法には2つのタイプがあります。
- 決定論的:これは、どの状態でもポリシーが同じアクションを生成することを意味します。
- 確率論的:方程式によって定義されるすべてのアクションの確率が存在します
n {a \ s)= P \ A、= a \ S、= S]
ポリシーベースのアルゴリズムは、モンテカルロポリシー勾配(REINFORCE)と決定論的ポリシー勾配(DPG)です。 学習のポリシーベースのアプローチは、分散が大きいため不安定になります。
「アクタークリティカル」アルゴリズムは、価値ベースのアプローチとポリシーベースのアプローチの両方を組み合わせて開発されています。 バリュー関数(批評家)とポリシー(アクター)の両方のパラメーター化により、トレーニングデータを効果的に使用することで安定した収束が可能になります。
3.モデルベース
環境ごとに仮想モデルが作成され、エージェントはそのモデルに基づいて学習します。 モデル構築には、状態のサンプリング、アクションの実行、および報酬の観察のステップが含まれます。 環境内の各状態で、モデルは将来の状態と期待される報酬を予測します。 RLベースのモデルが利用できるため、エージェントはアクションを計画できます。 エージェントは、計画のプロセスがポリシーの見積もりと織り交ぜられていることを学習することができます。
強化学習は、未知の環境でエージェントを探索することで目標を達成することを目的としています。 RLの仮説は、目標は報酬の最大化として説明できると述べています。 エージェントは、アクションの形で状態の摂動を通じて最大の報酬を引き出すことができなければなりません。 RLアルゴリズムは、モデルベースとモデルフリーに大きく分類できます。
補強における学習モデル
1.マルコフ決定過程
マルコフ決定過程で使用されるパラメータのセットは次のとおりです。
アクションのセット-A
状態のセット-S
報酬-R
ポリシー-n
値-V
マルコフ決定過程は、強化学習の解をマッピングするための数学的アプローチです。
2.Q学習
このプロセスは、どのアクションを続行するかを通知する情報をエージェントに提供します。 これは、モデルフリーアプローチの形式です。 Q値は更新を続け、状態「s」でアクション「a」を実行する値を示します。
強化学習と教師あり学習の違い
教師あり学習は機械学習のプロセスであり、監督者は知識を学習アルゴリズムに提供する必要があります。 スーパーバイザーの主な機能には、画像やオーディオクリップなどのトレーニングデータの収集が含まれます。
一方、RLでは、トレーニングデータセットには主に一連の状況とアクションが含まれています。 機械学習における強化学習は、いかなる形の監督も必要としません。 また、強化学習と深層学習の組み合わせにより、サブフィールドの深層強化学習が生成されます。
RLと教師あり学習の主な違いを以下に示します。
強化学習 | 教師あり学習 |
決定は順番に行われます。 プロセスの出力は、現在の入力の状態によって異なります。 次の入力は、前の入力の出力などに依存します。 | 決定は、最初の入力またはプロセスの開始時に供給される入力で行われます。 |
決定は依存しています。 したがって、ラベル付けは一連の依存する決定に対して行われます。 | 決定は互いに独立しています。 したがって、すべての決定のラベル付けが行われます。 |
環境との相互作用はRLで発生します。 | 環境との相互作用はありません。 このプロセスは、既存のデータセットで機能します。 |
RLの意思決定プロセスは、人間の脳の意思決定プロセスに似ています。 | 意思決定プロセスは、ガイドの監督下で人間の脳が下す決定に似ています。 |
ラベル付けされたデータセットはありません。 | ラベル付きデータセット。 |
ラーニングエージェントには、事前のトレーニングは必要ありません。 | 以前のトレーニングは、出力予測のために提供されています。 |
RLは、人間の相互作用が蔓延しているAIで最もよくサポートされます。 | 教師あり学習は、主にアプリケーションまたはインタラクティブなソフトウェアシステムで操作されます。 |
例:チェスゲーム | 例:オブジェクト認識 |
補強の種類
強化学習には2つのタイプがあります
1.ポジティブ
積極的な強化学習は、特定の行動から生成されたイベントとして定義されます。 これは、学習の強度と頻度を高めるため、エージェントにプラスの影響を与えます。 その結果、パフォーマンスが最大化されます。 したがって、変更は長期間持続します。 ただし、状態の過度の最適化は、学習の結果に影響を与える可能性があります。 したがって、強化学習はあまり多くないはずです。
積極的な強化の利点は次のとおりです。
- パフォーマンスの最大化。
- 変化は長期間持続しました。
2.ネガティブ
負の強化は、負の状態の状況下で行動が強化されるときに定義されます。 パフォーマンスの最低基準は、負の強化によって定義されます
負の強化学習の利点は次のとおりです。
- 行動を増やします。
- パフォーマンスの最低基準に反抗する
強化学習のデメリット
- 最小限の動作を満たすのに十分なだけを提供します。
強化学習の課題
強化学習は、モデルの監視を必要としませんが、教師なし学習の一種ではありません。 ただし、これは機械学習の別の部分です。
強化学習に関連するいくつかの課題は次のとおりです。
- シミュレーション環境の準備。 これは、実行するタスクによって異なります。 現実的なシミュレーターの作成は困難な作業です。 モデルは、毎分、環境の重要な詳細を把握する必要があります。
- 機能と報酬のデザインの関与は非常に重要です。
- 学習速度はパラメータの影響を受ける可能性があります。
- モデルのトレーニング環境への転送。
- ニューラルネットワークとの唯一の通信は報酬とペナルティのシステムを介するため、ニューラルネットワークを介してエージェントを制御することは別の課題です。 時々、これは壊滅的な忘却、すなわち新しい知識を得ている間に古い知識の削除をもたらすかもしれません。
- 極小値に到達することは、強化学習の課題です。
- 実際の環境の条件下では、部分的な観察が存在する可能性があります。
- 強化学習の適用は規制されるべきです。 RLの量が多すぎると、状態が過負荷になります。 これにより、結果が減少する可能性があります。
- 実際の環境は非定常です。
補強の適用
- 産業用自動化のためのロボット工学の分野。
- RLは、ビジネスの戦略的計画に使用できます。
- RLは、機械学習アルゴリズムを含むデータ処理技術で使用できます。
- 要件に応じて、学生向けのトレーニング資料のカスタム準備に使用できます。
- RLは、航空機の制御やロボットの動作に適用できます。
大規模な環境では、次の状況で鉄筋を適用できます
- 環境の既知のモデルに対して分析ソリューションが利用できない場合。
- 環境のシミュレーションモデルのみが提供されている場合。
- 環境と相互作用するデータを収集する方法が1つしかない場合。
強化学習の用途は何ですか?
- 強化学習は、アクションが必要な状況を特定するのに役立ちます。
- RLを適用すると、どのアクションが最高の報酬を生み出しているかを知るのに役立ちます。
- RLの有用性は、エージェントに報酬機能を提供することにあります。
- 最後に、RLは、より大きな報酬につながる方法を特定するのに役立ちます。
結論
RLはすべての状況に適用できるわけではありません。 その使用法には一定の制限があります。
- 十分なデータが利用できるため、RL法ではなく教師あり学習アプローチを使用できます。
- RLの計算は、特に大規模な環境が考慮される場合、非常に時間がかかります。
機械学習について詳しく知りたい場合は、IIIT-BとupGradの機械学習とAIのエグゼクティブPGプログラムをご覧ください。このプログラムは、働く専門家向けに設計されており、450時間以上の厳格なトレーニング、30以上のケーススタディと課題、IIITを提供しています。 -B卒業生のステータス、5つ以上の実践的なキャップストーンプロジェクト、トップ企業との雇用支援。
機械学習の仕事の将来はどのようになりますか?
機械学習の採用は、今日、さまざまな業界で急速に増加しています。 金融および投資セクターからエンターテインメント、メディア、自動車、ヘルスケア、ゲームに至るまで、今日AIと機械学習を採用していない業界を見つけるのは困難です。 その結果、機械学習の仕事の範囲は、他の多くのテクノロジーの仕事よりも大幅に高くなります。 Gartnerからの報告によると、2022年の終わりまでに、推定230万の機械学習とAIの仕事が市場に出回るでしょう。 さらに、この分野の専門家に提供される報酬も大幅に高くなると予想され、初任給は年間9ルピーの範囲です。
AIクラウドとは何ですか?
AIクラウドは、組織が最近採用し始めた比較的新しい概念です。 この概念は、人工知能とクラウドコンピューティングを組み合わせたものであり、2つの要因によって推進されます。 AIソフトウェアとツールは、人工知能の採用においてますます重要な役割を果たしているクラウドコンピューティングに、新しく強化された付加価値を提供しています。 AIクラウドは、さまざまなプロジェクトやワークロードによって同時に活用される特定のユースケース向けの共有インフラストラクチャで構成されています。 AIクラウドの最大の利点は、AIハードウェアとオープンソースソフトウェアをうまく組み合わせて、ハイブリッドクラウドセットアップで顧客(企業)にAISaaSを提供できることです。
強化学習アルゴリズムはどこで使用されていますか?
強化学習アルゴリズムには、ビジネス戦略計画、産業プロセス自動化のためのロボット工学、航空機制御とロボット運動制御、機械学習、学生向けのカスタムトレーニングシステムの開発、データ処理など、さまざまなアプリケーションが付属しています。 強化学習アルゴリズムを使用すると、実際にアクションが必要な状況や、一定期間で最高の報酬が得られるアクションを簡単に見つけることができるため、これらの場合に特に効率的です。 ただし、教師あり学習方法を使用して解決策を提供するための十分なデータがある場合は、強化学習を適用しないでください。