2022年に知っておくべき6種類の教師あり学習

公開: 2021-01-10

機械学習は、人工知能の最も一般的なアプリケーションの1つです。 マシンは、そこに供給されたデータからタスクの実行を学習します。 そして経験を積むと、特定のタスクでのパフォーマンスが向上します。 機械学習には、教師あり、教師なし、強化学習の手法が含まれます。 機械学習の種類についてもっと読む。

この記事では、さまざまな種類の教師あり学習について説明します。

目次

教師あり学習とは何ですか?

教師あり学習では、マシンは「ラベル付けされた」データを使用してトレーニングされます。 データセットには、入力パラメーターと出力パラメーターの両方が含まれている場合にラベルが付けられていると言われます。 言い換えれば、データはすでに正解でタグ付けされています。

したがって、この手法は、生徒が上司または教師の面前で学習する教室環境を模倣しています。 一方、教師なし学習アルゴリズムを使用すると、モデルは情報を発見し、自分で学習できます。

教師あり機械学習は、実際の計算問題を解決するのに非常に役立ちます。 アルゴリズムは、ラベル付けされたトレーニングデータから学習することにより、予期しないデータの結果を予測します。 したがって、このようなモデルを構築して展開するには、高度なスキルを持つデータサイエンティストが必要です。 時間の経過とともに、データサイエンティストは、技術的な専門知識を使用してモデルを再構築し、与えられた洞察の整合性を維持します。

それはどのように機能しますか?

たとえば、オフィスと自宅の間の通勤時間を予測するマシンをトレーニングしたいとします。 まず、入力データを構成する、天気、時刻、選択したルートなどのラベル付きデータセットを作成します。 そして、出力は、特定の日の帰宅の推定所要時間になります。

対応する要素に基づいてトレーニングセットを作成すると、マシンはデータポイント間の関係を確認し、それを使用して、家に帰るのにかかる時間を確認します。 たとえば、モバイルアプリケーションは、大雨が降ると移動時間が長くなることを通知できます。

マシンは、仕事を離れる時間など、ラベル付けされたデータに他の接続も表示する場合があります。 ラッシュアワーの交通が道路にぶつかる前に出発すれば、早く家に着くことができます。 教師なし機械学習がどのように機能するかについて知りたい場合は、詳細をお読みください。

次に、別の実際の例を使用して、教師あり学習を理解してみましょう。 フルーツバスケットがあり、さまざまな種類の果物を使ってマシンをトレーニングするとします。 トレーニングデータには、次のシナリオが含まれる場合があります。

  • オブジェクトの色が赤で、形が丸く、上部にくぼみがある場合は、「Apple」というラベルを付けます。
  • アイテムが緑がかった黄色で、湾曲した円柱のような形をしている場合は、「バナナ」とマークします

次に、新しいオブジェクト(テストデータ)を提供し、それがバナナかリンゴかを識別するようにマシンに要求します。 トレーニングデータから学習し、その知識を応用して、入力した色や形に応じて果物を分類します。

教師あり学習のさまざまなタイプ

1.回帰

回帰では、トレーニングデータを使用して単一の出力値が生成されます。 この値は確率的解釈であり、入力変数間の相関の強さを考慮した後に確認されます。 たとえば、回帰は、地域やサイズなどに基づいて家の価格を予測するのに役立ちます。

ロジスティック回帰では、出力には一連の独立変数に基づく離散値があります。 この方法は、非線形で複数の決定境界を処理するときに問題が発生する可能性があります。 また、データセット内の複雑な関係をキャプチャするのに十分な柔軟性がありません。

2.分類

これには、データをクラスにグループ化することが含まれます。 ある人に信用を与えることを考えている場合は、分類を使用して、その人がローンの不履行者になるかどうかを判断できます。 教師あり学習アルゴリズムが入力データを2つの異なるクラスにラベル付けする場合、それは二項分類と呼ばれます。 複数の分類とは、データを3つ以上のクラスに分類することを意味します。

3.単純ベイズモデル

分類のベイズモデルは、大規模な有限データセットに使用されます。 これは、有向非巡回グラフを使用してクラスラベルを割り当てる方法です。 グラフは、1つの親ノードと複数の子ノードで構成されます。 また、各子ノードは独立しており、親から分離されていると見なされます。

デシジョンツリー

デシジョンツリーはフローチャートのようなモデルであり、決定とその予想される結果を含む条件付き制御ステートメントが含まれています。 出力は、予期しないデータのラベル付けに関連しています。

ツリー表現では、リーフノードはクラスラベルに対応し、内部ノードは属性を表します。 決定木は、ブール関数だけでなく離散属性の問題を解決するために使用できます。 注目すべき決定木のアルゴリズムには、ID3とCARTがあります。

4.ランダムフォレストモデル

ランダムフォレストモデルはアンサンブル法です。 多数の決定木を構築することで動作し、個々のツリーの分類を出力します。 どの学部生がGMATでうまくいくかを予測したいとします。これは、大学院管理プログラムへの入学のために行われるテストです。 以前にテストを受けた一連の学生の人口統計学的および教育的要因を考えると、ランダムフォレストモデルがタスクを実行します。

5.ニューラルネットワーク

このアルゴリズムは、生の入力をクラスター化したり、パターンを認識したり、感覚データを解釈したりするように設計されています。 それらの複数の利点にもかかわらず、ニューラルネットワークはかなりの計算リソースを必要とします。 何千もの観測がある場合、ニューラルネットワークの適合は複雑になる可能性があります。 予測の背後にあるロジックの解釈が難しい場合があるため、「ブラックボックス」アルゴリズムとも呼ばれます。

読む:2020年のトップ10ニューラルネットワークアーキテクチャ

6.サポートベクターマシン

サポートベクターマシン(SVM)は、1990年に開発された教師あり学習アルゴリズムです。これは、VapNickによって開発された統計的学習理論に基づいています。

SVMは超平面を分離するため、識別可能な分類器になります。 出力は、新しい例を分類する最適な超平面の形で生成されます。 SVMはカーネルフレームワークと密接に接続されており、さまざまな分野で使用されています。 いくつかの例には、バイオインフォマティクス、パターン認識、マルチメディア情報検索が含まれます。

教師あり学習の長所と短所

いくつかのタイプの教師あり学習により、以前の経験からデータを収集および生成できます。 パフォーマンス基準の最適化から実際の問題への対処まで、教師あり学習はAI分野の強力なツールとして登場しました。 また、教師なし学習と比較して信頼性の高い方法であり、計算が複雑になり、場合によっては精度が低下する可能性があります。

ただし、教師あり学習には制限があります。 分類器のトレーニングには具体的な例が必要であり、適切な例がない場合、決定境界が過剰にトレーニングされる可能性があります。 また、ビッグデータの分類が困難になる場合もあります。

まとめ

教師あり学習の長所と短所は、ラベル付けされたデータを使用してマシンをトレーニングすることです。 回帰手法と分類アルゴリズムは、信頼性が高く、複数のアプリケーションを持つ予測モデルの開発に役立ちます。

教師あり学習では、専門家がモデルを構築、スケーリング、更新する必要があります。 技術的な熟練度がない場合は、入力変数を決定するためにブルートフォースが適用される場合があります。 そして、これは不正確な結果をもたらす可能性があります。 したがって、教師あり学習が効果的に機能するためには、関連するデータ機能の選択が不可欠です。

まず、トレーニングセットに必要なデータを決定し、学習した関数とアルゴリズムの構造化を続け、専門家と測定値からの結果を収集する必要があります。 このようなベストプラクティスは、モデルの精度をサポートする上で大いに役立ちます。

今日のテクノロジー指向の世界では、人工知能と機械学習がペースを上げているため、教師あり学習の種類を知ることは、どの分野でも大きな差別化要因になる可能性があります。 上記の説明は、その最初の一歩を踏み出すのに役立ちます!

機械学習について詳しく知りたい場合は、IIIT-BとupGradの機械学習とAIのPGディプロマをご覧ください。これは、働く専門家向けに設計されており、450時間以上の厳格なトレーニング、30以上のケーススタディと課題、IIIT-を提供します。 B卒業生のステータス、5つ以上の実践的なキャップストーンプロジェクト、トップ企業との仕事の支援。

世界のトップ大学からMLコース学びましょう。 マスター、エグゼクティブPGP、または高度な証明書プログラムを取得して、キャリアを迅速に追跡します。

教師あり学習の意味は何ですか?

機械は、教師あり学習で「ラベル付けされた」データを使用して学習します。 データセットに入力パラメーターと出力パラメーターの両方がある場合、ラベル付けされていると見なされます。 別の言い方をすれば、情報にはすでに正しい応答のラベルが付けられています。 実際の計算上の課題では、教師あり機械学習が非常に役立ちます。 システムは、ラベル付けされたトレーニングデータから学習して、予期しないデータの結果を予測します。 その結果、このようなモデルを構築して展開するには、高度なスキルを持つデータサイエンティストの専門知識が必要になります。 データサイエンティストは、提供された洞察の有効性を維持するために、技術的知識を利用して時間の経過とともにモデルを構築します。

分類と回帰の違いは何ですか?

トレーニングデータを使用して、回帰は単一の出力値を生成します。 これは、入力変数間の相関の強さを考慮して決定される確率的解釈です。 たとえば、回帰は、場所、サイズ、およびその他の要因に基づいて家の価格を予測するのに役立ちます。 データを分類するという行為は、データをカテゴリに分割することを伴います。 あなたが彼らに信用を提供することを考えているならば、あなたは人がローンをデフォルトするかどうかを評価するために分類を使うことができます。 二項分類は、教師あり学習アルゴリズムが入力データを2つの別々のクラスに分類するときに発生します。 複数の分類とは、情報を3つ以上のグループに分割することを指します。

ランダムフォレストとは何ですか?

アンサンブル法はランダムフォレストモデルです。 これは、多数の決定木を作成し、個々のツリーを分類することによって機能します。 大学院経営プログラムへの入学に必要な試験であるGMATでどの大学生がうまくいくか知りたいとしましょう。 以前にテストを受けた学生のグループの人口統計学的および教育的特徴を考えると、ランダムフォレストモデルがタスクを完了することができます。