機械学習の仮説とは何ですか？仮説を立てる方法は？

公開: 2021-03-12

仮説検定は、多くの分野に適用できる幅広い主題です。統計を研究する場合、そこでの仮説検定には複数の母集団からのデータが含まれ、検定は母集団への影響がどれほど重要であるかを確認することです。

これには、p値を計算し、それを臨界値またはアルファと比較することが含まれます。機械学習に関しては、仮説検定は、独立した特徴をターゲットに最もよく近似する関数を見つけることを扱います。つまり、入力を出力にマップします。

このチュートリアルを終えると、次のことがわかります。

統計と機械学習の仮説とは
仮説空間とは何ですか？
仮説を立てるプロセス

統計における仮説

仮説は、反証可能な結果の仮定です。つまり、いくつかの証拠によって間違っていることが証明される可能性があります。仮説は拒否されるか、拒否されなかった可能性があります。統計の仮説はすべて確率に関するものであり、100％確実ではないため、決して受け入れません。実験を開始する前に、2つの仮説を定義します。

1.帰無仮説：有意な効果はないと言います

2.対立仮説：いくつかの重要な効果があると言います

統計では、P値（さまざまなタイプの統計検定を使用して計算されます）を臨界値またはアルファと比較します。 P値が大きいほど、尤度が高くなります。これは、効果が有意ではないことを意味し、帰無仮説を棄却できないと結論付けます。

つまり、偶然に発生した可能性が高く、統計的な有意性はありません。一方、P値が非常に小さい場合は、尤度が小さいことを意味します。つまり、イベントが偶然に発生する可能性は非常に低いということです。

世界のトップ大学（修士、エグゼクティブ大学院プログラム、ML＆AIの高度な証明書プログラム）からオンラインでMLおよびAIコースに参加して、キャリアを早急に進めましょう。

重要なレベル

有意水準は、実験を開始する前に設定されます。これは、エラーの許容範囲を定義し、どのレベルで影響が重要であると見なすことができるかを定義します。有意水準の一般的な値は95％です。これは、テストにだまされてエラーが発生する可能性が5％あることも意味します。言い換えると、臨界値は0.05であり、これはしきい値として機能します。同様に、有意水準が99％に設定されている場合、それは0.01％の臨界値を意味します。

P値

母集団とサンプルに対して統計的検定を実行してP値を見つけ、それを臨界値と比較します。 P値が臨界値よりも小さいことが判明した場合、その効果は有意であると結論付けることができるため、帰無仮説を棄却できます（有意な効果はないと述べています）。 P値が臨界値を超えていることが判明した場合、有意な効果はなく、したがって帰無仮説を棄却できないと結論付けることができます。

現在、100％確実ではないため、テストが正しい可能性は常にありますが、結果は誤解を招く可能性があります。これは、実際には間違っていないのにnullを拒否することを意味します。また、実際にfalseである場合にnullを拒否しないことを意味する場合もあります。これらは、仮説検定のタイプ1およびタイプ2のエラーです。

例

あなたがワクチンメーカーで働いていて、あなたのチームがCovid-19用のワクチンを開発していると考えてください。このワクチンの有効性を証明するには、それが人間に有効であることを統計的に証明する必要があります。したがって、同じサイズとプロパティの2つのグループの人々を取り上げます。グループAにワクチンを投与し、グループBにプラセボを投与します。グループAの何人が感染し、グループBの何人が感染したかを分析します。

これを複数回テストして、グループAがCovid-19に対して有意な免疫を発達させたかどうかを確認します。これらすべてのテストのP値を計算し、P値は常に臨界値よりも小さいと結論付けます。したがって、帰無仮説を安全に棄却し、実際に有意な効果があると結論付けることができます。

読む：機械学習モデルの説明

機械学習における仮説

機械学習の仮説は、教師あり機械学習で、入力を出力に最適にマッピングする関数を見つける必要がある場合に使用されます。これは、関数近似とも呼ばれます。これは、フィーチャをターゲットに最適にマッピングするターゲット関数を近似しているためです。

1.仮説（h）：仮説は、特徴をターゲットにマッピングする単一のモデルである可能性がありますが、結果/メトリックである可能性があります。 仮説は「 h 」で表されます。

2.仮説空間（H）：仮説空間は、データのモデル化に使用できるモデルとその可能なパラメーターの完全な範囲です。 「 H 」で表されます。 言い換えれば、仮説は仮説空間のサブセットです。

仮説を立てるプロセス

基本的に、トレーニングデータ（独立した機能とターゲット）と、機能をターゲットにマッピングするターゲット関数があります。次に、これらは、ハイパーパラメータスペースのさまざまなタイプの構成を使用してさまざまなタイプのアルゴリズムで実行され、どの構成が最良の結果を生成するかを確認します。トレーニングデータは、仮説空間から最良の仮説を定式化して見つけるために使用されます。テストデータは、仮説によって生成された結果を検証または検証するために使用されます。

10個の機能と1個のターゲットを持つ10000個のインスタンスのデータセットがある例を考えてみましょう。ターゲットはバイナリです。つまり、バイナリ分類の問題です。ここで、たとえば、ロジスティック回帰を使用してこのデータをモデル化し、78％の精度を取得します。両方のクラスを分離する回帰直線を描くことができます。これは仮説（h）です。次に、この仮説をテストデータでテストし、74％のスコアを取得します。

ここでも、RandomForestsモデルを同じデータに適合させ、85％の精度スコアを取得するとします。これは、すでにロジスティック回帰よりも優れた改善です。次に、RandomForestsのハイパーパラメータを調整して、同じデータでより良いスコアを取得することにしました。グリッド検索を実行し、データに対して複数のRandomForestモデルを実行して、それらのパフォーマンスを確認します。このステップでは、基本的に仮説空間（H）を検索して、より良い関数を見つけます。グリッド検索を完了すると、89％の最高スコアが得られ、検索が終了します。

また、XGBoost、サポートベクターマシン、ナイーブベイズ定理などのモデルをさらに試して、同じデータでのパフォーマンスをテストします。次に、最もパフォーマンスの高いモデルを選択し、テストデータでテストして、そのパフォーマンスを検証し、87％のスコアを取得します。

チェックアウト：機械学習プロジェクトとトピック

行く前に

仮説は、機械学習とデータサイエンスの重要な側面です。これは分析のすべてのドメインに存在し、変更を導入する必要があるかどうかを決定する要因です。製薬、ソフトウェア、販売などです。仮説は、仮説空間からモデルのパフォーマンスをチェックするための完全なトレーニングデータセットをカバーします。

仮説は反証可能でなければなりません。つまり、結果がそれに反する場合は、仮説をテストして間違っていることを証明できる必要があります。多くの異なる構成を検証する必要がある場合、モデルの最適な構成を検索するプロセスには時間がかかります。ハイパーパラメータのランダム検索などの手法を使用して、このプロセスを高速化する方法もあります。

機械学習について詳しく知りたい場合は、IIIT-BとupGradの機械学習とAIのエグゼクティブPGプログラムをご覧ください。このプログラムは、働く専門家向けに設計されており、450時間以上の厳格なトレーニング、30以上のケーススタディと課題、IIITを提供しています。 -B卒業生のステータス、5つ以上の実践的なキャップストーンプロジェクト、トップ企業との雇用支援。

なぜオープンソースプロジェクトを行う必要があるのですか？

オープンソースプロジェクトを行う理由はたくさんあります。あなたは新しいことを学び、他の人を助け、他の人とネットワークを作り、評判を生み出しています。オープンソースは楽しいです、そして最終的にあなたは何かを取り戻すでしょう。最も重要な理由の1つは、企業に提示して採用できる優れた作品のポートフォリオを構築することです。オープンソースプロジェクトは、新しいことを学ぶための素晴らしい方法です。ソフトウェア開発の知識を高めたり、新しいスキルを習得したりすることができます。教えるよりも学ぶのに良い方法はありません。

初心者としてオープンソースに貢献できますか？

はい。オープンソースプロジェクトは差別的ではありません。オープンソースコミュニティは、コードを書くのが大好きな人々で構成されています。初心者のための場所は常にあります。多くのことを学び、さまざまなオープンソースプロジェクトに参加する機会もあります。何が機能し、何が機能しないかを学び、開発者の大規模なコミュニティでコードを使用できるようにする機会もあります。常に新しい貢献者を探しているオープンソースプロジェクトのリストがあります。

GitHubプロジェクトはどのように機能しますか？

GitHubは、開発者にプロジェクトを管理し、相互にコラボレーションする方法を提供します。また、プロジェクトの貢献者、ドキュメント、リリースがリストされた、開発者向けの一種の履歴書としても機能します。プロジェクトへの貢献は、あなたがチームで働くスキルとモチベーションを持っていることを潜在的な雇用主に示しています。多くの場合、プロジェクトはコード以上のものであるため、GitHubには、Webサイトを構築するのと同じようにプロジェクトを構築できる方法があります。あなたはブランチであなたのウェブサイトを管理することができます。ブランチは、実験やWebサイトのコピーのようなものです。新しい機能を試したり、何かを修正したりする場合は、ブランチを作成してそこで実験します。実験が成功した場合は、ブランチを元のWebサイトにマージして戻すことができます。

機械学習の仮説とは何ですか？ 仮説を立てる方法は？