拓端tecdat|R語言貝葉斯Poisson泊松-正態(tài)分布模型分析職業(yè)足球比賽進(jìn)球數(shù)
原文鏈接:
原文出處:
在本文關(guān)于如何在R中進(jìn)行貝葉斯分析。我們介紹貝葉斯分析,這個例子是關(guān)于職業(yè)足球比賽的進(jìn)球數(shù)。
模型
首先,我們認(rèn)為職業(yè)足球比賽的進(jìn)球數(shù)來自分布

,其中θ是平均進(jìn)球數(shù)?,F(xiàn)在假設(shè)我們用一位足球?qū)<业囊庖妬淼贸鲎闱虮荣惖钠骄M(jìn)球數(shù),即參數(shù)θ,我們得到:

。

我們想知道什么?
在這種情況下,我們想知道θ的后驗分布是什么樣子的,這個分布的平均值是什么。為了做到這一點,我們將在三種情況下分析:
我們有1個觀察值x=1,來自分布為

的總體。
我們有3個觀測值x=c(1,3,5),來自一個具有
分布的總體。
我們有10個觀測值x=c(5,4,3,4,3,2,7,2,4,5),來自一個具有
分布的總體。
理論方法
在這里,我想告訴你貝葉斯分析是如何分析的。首先,我們有一個來自具有未知參數(shù)θ的泊松分布的人口的似然函數(shù)。

我們知道參數(shù)θ的先驗分布p(θ)是由以下公式給出的。

最后,θ的后驗分布為。

其中常數(shù)C的計算方法如下。

而后驗分布E(θ|x)的平均值由以下公式給出。

計算方法
在這里,你將學(xué)習(xí)如何在R中使用蒙特卡洛模擬來回答上面提出的問題。對于這三種情況,你將遵循以下步驟。
1. 定義數(shù)據(jù)
首先,你需要根據(jù)方案定義數(shù)據(jù)。
2. 計算常數(shù)C
現(xiàn)在使用蒙特卡洛模擬來計算積分。為此,有必要從先驗分布中產(chǎn)生N=10000個值θi,并在似然函數(shù)

中評估它們。最后,為了得到C,這些值被平均化。R中的代碼如下。
N <- 100000 # 模擬值的數(shù)量
rnorm(n=N, mean = 2.5, sd = 0.2) #先驗分布
prod(dpois(x=x, lambda = theta)) #似然函數(shù)
3. 尋找后驗分布
計算完C后,你可以得到后驗分布,如下所示。
fvero(theta) * dnorm(x=theta) / C4. 計算后驗分布的平均數(shù)
最后你可以使用蒙特卡洛模擬計算積分來獲得后驗分布的平均值。
integral <- mean(aux)
posterior <- integral/C
結(jié)果
如前所述,上面介紹的代碼用于所有三種情況,唯一根據(jù)情況變化的是x。在這一節(jié)中,我們將為每種情況展示一張圖,其中包含θ的先驗和后驗分布、后驗分布的平均值(藍(lán)色虛線)和觀測值(粉紅色的點)。
第一種情況
curve(dnorm(x, 2.5, 0.2), col=4,,x=x, y=rep(0, length(x)),
line,v = mposterior,legend=c("topright", legend=c("后驗", "先驗"),)
第二種情況

第三種情況

結(jié)論
從結(jié)果中我們可以得出這樣的結(jié)論:當(dāng)我們有很少的觀測數(shù)據(jù)時,如圖1和圖2,由于缺乏樣本證據(jù),后驗分布將傾向于類似于先驗分布。相反,當(dāng)我們有大量的觀測數(shù)據(jù)時,如圖3,后驗分布將偏離先驗分布,因為數(shù)據(jù)將有更大的影響。
我希望你喜歡這篇文章并了解貝葉斯統(tǒng)計。我鼓勵你用其他分布運(yùn)行這個程序。

最受歡迎的見解
1.R語言多元Logistic邏輯回歸 應(yīng)用案例
2.面板平滑轉(zhuǎn)移回歸(PSTR)分析案例實現(xiàn)
3.matlab中的偏最小二乘回歸(PLSR)和主成分回歸(PCR)
5.R語言回歸中的Hosmer-Lemeshow擬合優(yōu)度檢驗
掃描二維碼推送至手機(jī)訪問。
版權(quán)聲明:本文由財神資訊-領(lǐng)先的體育資訊互動媒體轉(zhuǎn)載發(fā)布,如需刪除請聯(lián)系。