O que é Hipótese em Aprendizado de Máquina? Como formar uma hipótese?

Publicados: 2021-03-12

Teste de hipóteses é um assunto amplo que é aplicável a muitos campos. Quando estudamos estatísticas, o Teste de Hipótese envolve dados de várias populações e o teste é ver quão significativo é o efeito na população.

Isso envolve calcular o valor p e compará-lo com o valor crítico ou alfa. Quando se trata de Aprendizado de Máquina, o Teste de Hipóteses trata de encontrar a função que melhor aproxima recursos independentes ao alvo. Em outras palavras, mapeie as entradas para as saídas.

Ao final deste tutorial, você saberá o seguinte:

O que é Hipótese em Estatística vs Aprendizado de Máquina
O que é espaço de hipóteses?
Processo de formação de uma hipótese

Índice

Hipótese em Estatística

Uma hipótese é uma suposição de um resultado que é falsificável, o que significa que pode ser provado errado por alguma evidência. Uma hipótese pode ser rejeitada ou não rejeitada. Nunca aceitamos nenhuma hipótese em estatística porque tudo se trata de probabilidades e nunca estamos 100% certos. Antes do início do experimento, definimos duas hipóteses:

1. Hipótese Nula: diz que não há efeito significativo

2. Hipótese Alternativa: diz que há algum efeito significativo

Em estatística, comparamos o valor P (que é calculado usando diferentes tipos de testes estatísticos) com o valor crítico ou alfa. Quanto maior o valor P, maior é a probabilidade, o que por sua vez significa que o efeito não é significativo e concluímos que não rejeitamos a hipótese nula .

Em outras palavras, é altamente provável que o efeito tenha ocorrido por acaso e não há significância estatística. Por outro lado, se obtivermos um valor P muito pequeno, significa que a probabilidade é pequena. Isso significa que a probabilidade do evento ocorrer por acaso é muito baixa.

Participe do Curso de ML e IA online das melhores universidades do mundo - Mestrados, Programas de Pós-Graduação Executiva e Programa de Certificado Avançado em ML e IA para acelerar sua carreira.

Nível de significância

O Nível de Significância é definido antes de iniciar o experimento. Isso define quanto é a tolerância ao erro e em que nível o efeito pode ser considerado significativo. Um valor comum para o nível de significância é 95%, o que também significa que há 5% de chance de sermos enganados pelo teste e cometermos um erro. Em outras palavras, o valor crítico é 0,05 que atua como um limite. Da mesma forma, se o nível de significância foi estabelecido em 99%, isso significaria um valor crítico de 0,01%.

Valor P

Um teste estatístico é realizado na população e na amostra para descobrir o valor P que é então comparado com o valor crítico. Se o valor P for menor que o valor crítico, podemos concluir que o efeito é significativo e, portanto, rejeitar a hipótese nula (que dizia que não há efeito significativo). Se o P-Value for maior que o valor crítico, podemos concluir que não há efeito significativo e, portanto, não rejeitamos a hipótese nula.

Agora, como nunca podemos ter 100% de certeza, sempre há uma chance de nossos testes estarem corretos, mas os resultados serem enganosos. Isso significa que ou rejeitamos o nulo quando na verdade não está errado. Também pode significar que não rejeitamos o nulo quando ele é realmente falso. Estes são erros tipo 1 e tipo 2 do Teste de Hipóteses.

Exemplo

Considere que você está trabalhando para um fabricante de vacinas e sua equipe desenvolve a vacina para o Covid-19. Para provar a eficácia desta vacina, é necessário provar estatisticamente que é eficaz em humanos. Portanto, tomamos dois grupos de pessoas de igual tamanho e propriedades. Damos a vacina ao grupo A e damos placebo ao grupo B. Realizamos análises para ver quantas pessoas do grupo A foram infectadas e quantas pessoas do grupo B foram infectadas.

Testamos isso várias vezes para ver se o grupo A desenvolveu alguma imunidade significativa contra o Covid-19 ou não. Calculamos o valor P para todos esses testes e concluímos que os valores P são sempre menores que o valor crítico. Assim, podemos rejeitar com segurança a hipótese nula e concluir que há de fato um efeito significativo.

Leia: Modelos de aprendizado de máquina explicados

Hipótese em Aprendizado de Máquina

Hipótese em Aprendizado de Máquina é usada quando em Aprendizado de Máquina Supervisionado, precisamos encontrar a função que melhor mapeia entrada para saída. Isso também pode ser chamado de aproximação de função porque estamos aproximando uma função de destino que melhor mapeia o recurso para o destino.

1. Hipótese(h): Uma Hipótese pode ser um modelo único que mapeia características para o alvo, entretanto, pode ser o resultado/métrica. Uma hipótese é significada por “ h ”.

2. Espaço de hipóteses(H): Um espaço de hipóteses é uma gama completa de modelos e seus possíveis parâmetros que podem ser usados para modelar os dados. É representado por “ H ”. Em outras palavras, a Hipótese é um subconjunto do Espaço de Hipóteses.

Processo de formação de uma hipótese

Em essência, temos os dados de treinamento (recursos independentes e o destino) e uma função de destino que mapeia recursos para o destino. Estes são então executados em diferentes tipos de algoritmos usando diferentes tipos de configuração de seu espaço de hiperparâmetros para verificar qual configuração produz os melhores resultados. Os dados de treinamento são usados para formular e encontrar a melhor hipótese a partir do espaço de hipóteses. Os dados do teste são usados para validar ou verificar os resultados produzidos pela hipótese.

Considere um exemplo em que temos um conjunto de dados de 10.000 instâncias com 10 recursos e um destino. O alvo é binário, o que significa que é um problema de classificação binária. Agora, digamos, modelamos esses dados usando Regressão Logística e obtemos uma precisão de 78%. Podemos traçar a linha de regressão que separa as duas classes. Esta é uma Hipótese (h). Em seguida, testamos essa hipótese em dados de teste e obtemos uma pontuação de 74%.

Agora, suponha novamente que ajustamos um modelo RandomForests nos mesmos dados e obtemos uma pontuação de precisão de 85%. Esta já é uma boa melhoria em relação à regressão logística. Agora decidimos ajustar os hiperparâmetros de RandomForests para obter uma pontuação melhor nos mesmos dados. Fazemos uma pesquisa de grade e executamos vários modelos RandomForest nos dados e verificamos seu desempenho. Nesta etapa, estamos essencialmente pesquisando o Espaço de Hipóteses (H) para encontrar uma função melhor. Após concluir a pesquisa da grade, obtemos a melhor pontuação de 89% e encerramos a pesquisa.

Agora também testamos mais modelos como XGBoost, Support Vector Machine e teorema Naive Bayes para testar seus desempenhos nos mesmos dados. Em seguida, escolhemos o modelo com melhor desempenho e o testamos nos dados de teste para validar seu desempenho e obter uma pontuação de 87%.

Checkout: Projetos e tópicos de aprendizado de máquina

Antes de você ir

A hipótese é um aspecto crucial de Machine Learning e Data Science. Está presente em todos os domínios da análise e é o fator decisivo para que uma mudança seja introduzida ou não. Seja farmacêutico, software, vendas, etc. Uma Hipótese cobre todo o conjunto de dados de treinamento para verificar o desempenho dos modelos do espaço Hipótese.

Uma hipótese deve ser falsificável, o que significa que deve ser possível testar e provar que está errada se os resultados forem contra ela. O processo de busca da melhor configuração do modelo é demorado quando muitas configurações diferentes precisam ser verificadas. Existem maneiras de acelerar esse processo também usando técnicas como Pesquisa Aleatória de hiperparâmetros.

Se você estiver interessado em aprender mais sobre aprendizado de máquina, confira o Programa PG Executivo do IIIT-B e do upGrad em Machine Learning e IA , projetado para profissionais que trabalham e oferece mais de 450 horas de treinamento rigoroso, mais de 30 estudos de caso e atribuições, IIIT -B Alumni status, mais de 5 projetos práticos práticos e assistência de trabalho com as principais empresas.

Por que devemos fazer projetos de código aberto?

Há muitas razões para fazer projetos de código aberto. Você está aprendendo coisas novas, está ajudando os outros, está fazendo networking com os outros, está criando uma reputação e muito mais. O código aberto é divertido e, eventualmente, você receberá algo de volta. Um dos motivos mais importantes é que ele constrói um portfólio de ótimos trabalhos que você pode apresentar às empresas e ser contratado. Projetos de código aberto são uma maneira maravilhosa de aprender coisas novas. Você pode estar aprimorando seu conhecimento de desenvolvimento de software ou pode estar aprendendo uma nova habilidade. Não há melhor maneira de aprender do que ensinar.

Posso contribuir para o código aberto como iniciante?

sim. Projetos de código aberto não discriminam. As comunidades de código aberto são feitas de pessoas que gostam de escrever código. Há sempre um lugar para um novato. Você aprenderá muito e também terá a chance de participar de uma variedade de projetos de código aberto. Você aprenderá o que funciona e o que não funciona e também terá a chance de fazer seu código ser usado por uma grande comunidade de desenvolvedores. Há uma lista de projetos de código aberto que estão sempre à procura de novos colaboradores.

Como os projetos do GitHub funcionam?

O GitHub oferece aos desenvolvedores uma maneira de gerenciar projetos e colaborar uns com os outros. Ele também serve como uma espécie de currículo para desenvolvedores, com os contribuidores de um projeto, documentação e lançamentos listados. Contribuições para um projeto mostram aos potenciais empregadores que você tem as habilidades e motivação para trabalhar em equipe. Os projetos geralmente são mais do que código, então o GitHub tem uma maneira de estruturar seu projeto da mesma forma que estruturaria um site. Você pode gerenciar seu site com uma filial. Um branch é como um experimento ou uma cópia do seu site. Quando você deseja experimentar um novo recurso ou corrigir algo, você cria uma ramificação e experimenta lá. Se a experiência for bem-sucedida, você poderá mesclar a ramificação de volta ao site original.