學習數據挖掘中的貝葉斯分類 [2022]
已發表: 2021-03-10如果您已經研究數據挖掘一段時間,那麼您一定聽說過“貝葉斯分類”這個術語。 您想知道它的含義以及它作為數據挖掘概念的重要性嗎?
本文將回答這些問題,因為您將探索數據挖掘中的貝葉斯分類是什麼。 讓我們開始:
目錄
什麼是貝葉斯分類?
在數據挖掘過程中,您會發現類變量和屬性集之間的聯繫是不確定的。 這意味著即使屬性集與訓練示例相同,我們也不能絕對確定測試記錄的類別標籤。
由於存在特定的影響因素或嘈雜的數據,可能會發生這種情況。 假設您想根據一個人的飲食習慣來預測一個人是否有患心髒病的風險。 雖然一個人的飲食習慣是決定他們是否會患心髒病的重要因素,但也可能有其他原因導致同樣的情況發生,例如遺傳或感染。
因此,您僅根據飲食習慣來確定該人是否有患心髒病風險的分析是有缺陷的,並可能導致出現多個問題。
那麼問題來了,“你如何解決數據挖掘中的這個問題?” 答案是貝葉斯分類。
您可以在數據挖掘中使用貝葉斯分類來解決此問題並預測任何事件的發生。 貝葉斯分類器由使用貝葉斯概率理解的統計分類器組成。
要了解貝葉斯分類在數據挖掘中的工作原理,您必須從貝葉斯定理開始。
貝葉斯定理
貝葉斯定理的功勞歸功於托馬斯貝葉斯,他使用條件概率創建了一種算法,該算法利用證據來計算未知參數的限制。 他是第一個提出這個解決方案的人。
在數學上,貝葉斯定理是這樣的:
P(A/B) = P(B/A)P(A) P(B)
這裡,A 和 B 代表事件,P(B) 不能等於 0。
前鋒(乙) 0
P(B/A) 是一個條件概率,用於解釋當 A 為真時事件 B 的發生。 類似地,P(A/B) 是一個條件概率,它解釋了當 B 為真時事件 A 的發生。
P(B) 和 P(A) 是獨立觀察 B 和 A 的概率,稱為邊際概率。
貝葉斯解釋
在貝葉斯解釋中,概率計算了一個可信度。 根據貝葉斯定理,在考慮證據之前對假設的相信程度與在考慮相同假設之後對假設的相信程度相關。
假設你有一枚硬幣。 如果你擲硬幣一次,你會得到正面或反面,它們發生的概率都是 50%。 但是,如果您多次拋硬幣並觀察結果,相信程度可能會根據結果增加、減少或保持穩定。
如果你有命題 A 和證據 B,那麼:
P(A) 是 A 的主要信念度。P(A/B) 是考慮 B 後的後驗信念度。商 P(B/A)/P(B) 表示 B 為 A 提供的支持.
您可以從條件概率推導出貝葉斯定理:
P(A/B) = P(A B) P(B) ,如果 P(B) 0
P(B/A) = P(B A) P(A) ,如果 P(A) 0
這裡P(A B)是 A 和 B 都為真的聯合概率,因為:
P (B A) = P(A B)
或,P(A B) = P( A B )P(B) = P( B A )P(A)
或, P( A B ) = P( B A )P(A) P(B) , 如果 P(B) 0
貝葉斯網絡
我們使用貝葉斯網絡(也稱為信念網絡)通過 DAG(有向無環圖)來顯示不確定性。 有向無環圖像任何其他統計圖一樣顯示貝葉斯網絡。 它包含一組節點和鏈接,其中鏈接表示各個節點之間的連接。
有向無環圖中的每個節點都代表一個隨機變量。 變量可以是連續值或離散值,並且可以對應於賦予數據的實際屬性。
貝葉斯網絡可以在變量子集之間定義類條件獨立性。 它為您提供了執行實現的關係的圖形模型。
除了 DAG,貝葉斯網絡還有一組條件概率表。
結論
到目前為止,您必須熟悉數據挖掘中貝葉斯分類的基礎知識。 了解數據挖掘實現應用背後的定理對於取得進展至關重要。
您如何看待數據挖掘中的貝葉斯分類? 您是否嘗試過實施它? 在評論中分享你的答案。 我們很樂意聽取您的意見。
如果您想了解數據科學,請查看 IIIT-B 和 upGrad 的數據科學 PG 文憑,該文憑專為在職專業人士而設,提供 10 多個案例研究和項目、實用的實踐研討會、與行業專家的指導、1-與行業導師面對面交流,400 多個小時的學習和頂級公司的工作協助。
什麼是機器學習中的分類和回歸?
分類和回歸是機器學習中使用的監督學習算法。 但是這些算法之間存在特定的明顯差異。 機器學習中的回歸算法用於根據特定輸入變量估計變量的連續值。 該算法用於計算連續變量,如身高、收入、體重、分數、天氣等。也就是說,它只能用於計算整數格式的離散值。 採用分類算法來計算離散變量的值。 有趣的是,分類技術可以處理離散變量和實值變量,但它們必須分類為不同的分類或標記類別。
數據挖掘和機器學習是一樣的嗎?
數據挖掘有什麼好處?
在這個以數據為中心的世界中,數據挖掘有效地提供了解決與數據或信息相關的問題的方法。 它可以幫助企業收集有用且可靠的信息。 因此,公司可以基於他們的決策或修改最終帶來更多利潤的運營。 數據挖掘在幫助公司做出明智的決策、檢測和降低風險以及最大限度地減少欺詐事件方面發揮著至關重要的作用。 數據科學家可以使用經濟高效的數據挖掘技術快速搜索大量日常數據。