Что такое гипотеза в машинном обучении? Как сформировать гипотезу?

Опубликовано: 2021-03-12

Проверка гипотез — обширная тема, применимая во многих областях. Когда мы изучаем статистику, проверка гипотез включает в себя данные из нескольких групп населения, и проверка заключается в том, чтобы увидеть, насколько значительным является влияние на группу населения.

Это включает в себя вычисление p-значения и сравнение его с критическим значением или альфой. Когда дело доходит до машинного обучения, проверка гипотез занимается поиском функции, которая наилучшим образом приближает независимые функции к цели. Другими словами, сопоставьте входы с выходами.

К концу этого урока вы будете знать следующее:

  • Что такое гипотеза в статистике против машинного обучения
  • Что такое Гипотетическое пространство?
  • Процесс формирования гипотезы

Оглавление

Гипотеза в статистике

Гипотеза — это предположение о результате, которое можно опровергнуть, то есть его ошибочность может быть доказана некоторыми доказательствами. Гипотеза может быть либо отвергнута, либо не отвергнута. Мы никогда не принимаем какие-либо гипотезы в статистике, потому что все основано на вероятностях, и мы никогда не уверены на 100%. Перед началом эксперимента определим две гипотезы:

1. Нулевая гипотеза: говорит об отсутствии существенного эффекта.

2. Альтернативная гипотеза: утверждает, что есть некоторый значительный эффект

В статистике мы сравниваем P-значение (которое рассчитывается с использованием различных типов статистических тестов) с критическим значением или альфой. Чем больше значение P, тем выше вероятность, что, в свою очередь, означает, что эффект незначителен, и мы делаем вывод, что не можем отвергнуть нулевую гипотезу .

Другими словами, эффект, скорее всего, возник случайно, и его статистическая значимость отсутствует. С другой стороны, если мы получаем очень маленькое P-значение, это означает, что вероятность мала. Это означает, что вероятность того, что событие произойдет случайно, очень мала.

Присоединяйтесь к онлайн- курсу по машинному обучению и искусственному интеллекту в ведущих университетах мира — магистерским программам, программам последипломного образования для руководителей и программам повышения квалификации по машинному обучению и искусственному интеллекту, чтобы ускорить свою карьеру.

Уровень значимости

Уровень значимости устанавливается перед началом эксперимента. Это определяет, насколько допустима ошибка и на каком уровне эффект можно считать значительным. Обычное значение уровня значимости составляет 95%, что также означает, что существует 5%-ная вероятность того, что тест нас обманет и мы совершим ошибку. Другими словами, критическое значение равно 0,05, которое выступает в качестве порога. Точно так же, если бы уровень значимости был установлен на уровне 99%, это означало бы критическое значение 0,01%.

P-значение

Статистический тест проводится на популяции и выборке, чтобы определить P-значение, которое затем сравнивается с критическим значением. Если P-значение оказывается меньше критического значения, то мы можем заключить, что эффект значителен, и, следовательно, отклонить нулевую гипотезу (которая говорит, что значительного эффекта нет). Если P-значение оказывается больше критического значения, мы можем заключить, что существенного эффекта нет, и, следовательно, не можем отвергнуть нулевую гипотезу.

Теперь, поскольку мы никогда не можем быть уверены на 100%, всегда есть шанс, что наши тесты будут правильными, но результаты введут в заблуждение. Это означает, что либо мы отклоняем нуль, когда он на самом деле не является неправильным. Это также может означать, что мы не отвергаем нулевое значение, когда оно на самом деле ложно. Это ошибки 1 и 2 типа проверки гипотез.

Пример

Представьте, что вы работаете на производителя вакцины, и ваша команда разрабатывает вакцину от Covid-19. Чтобы доказать эффективность этой вакцины, необходимо статистически доказать, что она эффективна для людей. Поэтому берем две группы людей одинакового размера и свойств. Мы даем вакцину группе А и даем плацебо группе Б. Мы проводим анализ, чтобы увидеть, сколько людей в группе А заразилось и сколько заразилось в группе Б.

Мы проверяем это несколько раз, чтобы увидеть, развился ли у группы А какой-либо значительный иммунитет против Covid-19 или нет. Мы рассчитываем P-значение для всех этих тестов и делаем вывод, что P-значение всегда меньше критического значения. Следовательно, мы можем смело отвергнуть нулевую гипотезу и заключить, что действительно существует значительный эффект.

Читать: Объяснение моделей машинного обучения

Гипотеза в машинном обучении

Гипотеза в машинном обучении используется, когда в контролируемом машинном обучении нам нужно найти функцию, которая лучше всего отображает ввод в вывод. Это также можно назвать аппроксимацией функции, потому что мы аппроксимируем целевую функцию, которая лучше всего отображает функцию в цель.

1. Гипотеза (h): Гипотеза может быть отдельной моделью, которая сопоставляет функции с целью, однако может быть результатом/метрикой. Гипотеза обозначается буквой « h ».

2. Пространство гипотез (H). Пространство гипотез представляет собой полный набор моделей и их возможных параметров, которые можно использовать для моделирования данных. Обозначается буквой « Х ». Другими словами, Гипотеза является подмножеством Пространства Гипотез.

Процесс формирования гипотезы

По сути, у нас есть обучающие данные (независимые функции и цель) и целевая функция, которая сопоставляет функции с целью. Затем они запускаются на различных типах алгоритмов с использованием различных типов конфигурации их пространства гиперпараметров, чтобы проверить, какая конфигурация дает наилучшие результаты. Данные обучения используются для формулирования и поиска наилучшей гипотезы из пространства гипотез. Тестовые данные используются для проверки или проверки результатов, полученных в результате гипотезы.

Рассмотрим пример, в котором у нас есть набор данных из 10 000 экземпляров с 10 функциями и одной целью. Цель является бинарной, что означает, что это проблема бинарной классификации. Теперь, допустим, мы моделируем эти данные с помощью логистической регрессии и получаем точность 78%. Мы можем провести линию регрессии, которая разделяет оба класса. Это Гипотеза (h). Затем мы проверяем эту гипотезу на тестовых данных и получаем оценку 74%.

Теперь снова предположим, что мы подгоняем модель RandomForests к тем же данным и получаем показатель точности 85%. Это уже хорошее улучшение по сравнению с логистической регрессией. Теперь мы решили настроить гиперпараметры RandomForests, чтобы получить лучший результат на тех же данных. Мы выполняем поиск по сетке, запускаем несколько моделей RandomForest для данных и проверяем их производительность. На этом этапе мы, по сути, ищем Пространство Гипотез (H), чтобы найти лучшую функцию. После завершения поиска по сетке мы получаем лучший результат 89% и заканчиваем поиск.

Теперь мы также пробуем другие модели, такие как XGBoost, метод опорных векторов и наивная байесовская теорема, чтобы проверить их производительность на тех же данных. Затем мы выбираем самую эффективную модель и тестируем ее на тестовых данных, чтобы подтвердить ее производительность и получить оценку 87%.

Оформить заказ: проекты и темы по машинному обучению

Прежде чем ты уйдешь

Гипотеза является важным аспектом машинного обучения и науки о данных. Он присутствует во всех областях аналитики и является решающим фактором, следует ли вводить изменение или нет. Будь то фармацевтика, программное обеспечение, продажи и т. д. Гипотеза охватывает полный набор обучающих данных для проверки производительности моделей из пространства гипотез.

Гипотеза должна быть фальсифицируемой, а это означает, что должна быть возможность проверить и доказать ее ошибочность, если результаты противоречат ей. Процесс поиска наилучшей конфигурации модели занимает много времени, когда необходимо проверить множество различных конфигураций. Есть способы ускорить этот процесс, используя такие методы, как случайный поиск гиперпараметров.

Если вам интересно узнать больше о машинном обучении, ознакомьтесь с программой Executive PG IIIT-B и upGrad по машинному обучению и искусственному интеллекту , которая предназначена для работающих профессионалов и предлагает более 450 часов интенсивного обучения, более 30 тематических исследований и заданий, IIIT -B статус выпускника, 5+ практических практических проектов и помощь в трудоустройстве в ведущих фирмах.

Почему мы должны делать проекты с открытым исходным кодом?

Есть много причин для создания проектов с открытым исходным кодом. Вы изучаете новые вещи, вы помогаете другим, вы общаетесь с другими, вы создаете репутацию и многое другое. Открытый исходный код — это весело, и в конце концов вы получите что-то взамен. Одна из наиболее важных причин заключается в том, что он создает портфолио отличных работ, которые вы можете представить компаниям и получить работу. Проекты с открытым исходным кодом — прекрасный способ узнать что-то новое. Вы можете расширить свои знания в области разработки программного обеспечения или освоить новый навык. Нет лучшего способа учиться, чем учить.

Могу ли я внести свой вклад в открытый исходный код как новичок?

да. Проекты с открытым исходным кодом не допускают дискриминации. Сообщества разработчиков открытого исходного кода состоят из людей, которые любят писать код. Новичку всегда есть место. Вы многому научитесь, а также сможете принять участие в различных проектах с открытым исходным кодом. Вы узнаете, что работает, а что нет, и у вас также будет возможность сделать так, чтобы ваш код использовался большим сообществом разработчиков. Существует список проектов с открытым исходным кодом, которые всегда ищут новых участников.

Как работают проекты GitHub?

GitHub предлагает разработчикам возможность управлять проектами и сотрудничать друг с другом. Он также служит своего рода резюме для разработчиков, в котором перечислены участники проекта, документация и выпуски. Участие в проекте показывает потенциальным работодателям, что у вас есть навыки и мотивация для работы в команде. Проекты часто представляют собой нечто большее, чем просто код, поэтому на GitHub есть способ структурировать проект так же, как веб-сайт. Вы можете управлять своим сайтом с помощью филиала. Филиал — это как эксперимент или копия вашего сайта. Когда вы хотите поэкспериментировать с новой функцией или что-то исправить, вы создаете ветку и экспериментируете там. Если эксперимент увенчается успехом, вы можете снова объединить ветку с исходным веб-сайтом.