Datamining数据挖掘-朴素贝叶斯

  1. 朴素贝叶斯分类器

贝叶斯分类器

朴素贝叶斯分类器

==朴素贝叶斯== (Naive Bayes Classifier) 分类器中,(1)分母相同 \[ \begin{array}{l} \omega_{MAP}=\underset{\sigma_{i} \in O}{\arg \max } \frac{P\left(a_{1}, a_{2}, \ldots, a_{n} | \omega_{i}\right) P\left(\omega_{i}\right)}{P\left(a_{1}, a_{2}, \ldots, a_{n}\right)} \\ \end{array} \] 真正比的是(2)后验概率的(分子) \[ \begin{array}{l} \omega_{MAP}= \underset{\sigma_{i} \in O}{\arg \max} P\left(a_{1}, a_{2}, \ldots, a_{n} | \omega_{i}\right) P\left(\omega_{i}\right) \end{array} \] 但分子(2)中,似然概率是联合分布,无法估计。 所以朴素贝叶斯中用的是(3)边缘概率的乘积(数学:条件独立) \[ \omega_{MAP}=\arg \max _{\sigma_{i} \in O} P\left(\omega_{i}\right) \prod_j P\left(a_j | \omega_{i}\right) \] 但是!!P(aj |wi) 不能为0,否则乘积则为零 所以在计算的P(aj |wi) 用到以下方法

==拉普拉斯平滑== (Laplace Smoothing ) 为了不能让P(aj |wi)为零,用这个式(5 )子来计算, 分子+1,分母+|aj| 该属性可取值的个数,eg:a={长发,短发} \[ P\left(a_{j k} | \omega_{i}\right)=\frac{\left|a_{j}=a_{j k} \wedge \omega=\omega_{i}\right|+1}{\left|\omega=\omega_{i}\right|+\left|a_{j}\right|} \]

eg: image20200616014038723

eg (Text Representation) image20200616202634174

==独立== (Independence) A,B相互独立则P(A,B)=P(A)P(B) 证明 P(A,B)=P(A)P(B|A), P(B|A)=P(B) P(A|B)=P(A)

==条件独立== (Conditionally Independent) 当G发生的时候,AB是独立的, 证明 P(A,B|G)=P(A|G)P(B|G),
P(B|A,G)=P(B|G) P(A|B,G)=P(A|G)

eg1: A肺癌,B性别,G抽烟 知道抽烟以后,性别已经对预测肺癌没有直接联系了,P(A|B,G) = P(A, G)

eg2: image20200616011211251

==独立和不相关== (Independent != Uncorrelated) Cov(X,Y)=0 只能得出X & Y are Uncorrelated 但X,Y可以是未必独立!! Eg: Y=X2


转载请注明来源 https://tianweiye.github.io