對(duì)于大多數(shù)人來(lái)說(shuō),貝葉斯統(tǒng)計(jì)可能只是聽說(shuō)過(guò)的一個(gè)概念馬爾可夫鏈蒙特卡羅方法作為其符號(hào)化方法之一,多少有些神秘這種方法雖然涉及到巨大的計(jì)算量,但背后的基本原理卻可以直觀地表達(dá)出來(lái)這就是這篇文章想要呈現(xiàn)給你的
那么,什么是馬爾可夫鏈蒙特卡羅方法呢。簡(jiǎn)單來(lái)說(shuō),就是:
MCMC方法是一種在概率空間中通過(guò)隨機(jī)抽樣來(lái)逼近感興趣參數(shù)后驗(yàn)分布的方法。
看不懂。不要怕,我會(huì)在這篇文章里解釋這個(gè)簡(jiǎn)單的表達(dá)式,但是沒(méi)有任何數(shù)學(xué)推導(dǎo)!
首先介紹一些術(shù)語(yǔ)我們感興趣的參數(shù)是一些數(shù)字,也就是我們感興趣的是什么量我們通常使用統(tǒng)計(jì)方法來(lái)評(píng)估參數(shù)比如我們想知道成年人的身高,我們感興趣的參數(shù)可能是平均身高分布是參數(shù)可能值及其概率的數(shù)學(xué)表示
如果我們采用貝葉斯統(tǒng)計(jì)的方法,我們將對(duì)分布有更好的理解貝葉斯統(tǒng)計(jì)除了簡(jiǎn)單的把分布理解為一個(gè)參數(shù)的值,以及這些值取真值的可能性,還認(rèn)為分布描述了我們對(duì)一個(gè)參數(shù)的期望,也就是在看到實(shí)際測(cè)量數(shù)據(jù)之前的期望數(shù)據(jù)和相應(yīng)的可能性所以上面的鐘形線說(shuō)明我們非常確信參數(shù)的值接近于0,但是在某種程度上我們認(rèn)為真實(shí)值大于或小于0的概率是一樣的
這樣看來(lái),人類的身高確實(shí)遵循一條正常的曲線。如果我們認(rèn)為人類的真實(shí)平均身高遵循如下鐘形曲線:
顯然,具有如圖認(rèn)知的人可能生活在巨人國(guó),因?yàn)樗麄冋J(rèn)為最有可能的成年人平均身高是6英尺2英寸。
讓我們想象一下,這個(gè)人去收集一些數(shù)據(jù),他找到了一些5到6英尺高的人我們可以將這些數(shù)據(jù)呈現(xiàn)如下,另一條正態(tài)曲線為這些數(shù)據(jù)提供了最好的解釋
在貝葉斯統(tǒng)計(jì)中,代表我們對(duì)一個(gè)參數(shù)的期望的分布稱為先驗(yàn)分布,因?yàn)檫@種知識(shí)在我們看到一組真實(shí)數(shù)據(jù)之前就存在了似然分布通過(guò)呈現(xiàn)參數(shù)值的范圍和概率來(lái)總結(jié)我們的觀察數(shù)據(jù)所呈現(xiàn)的信息評(píng)估使似然分布最大化的參數(shù)值,就是回答下面這個(gè)問(wèn)題:在我們觀察到的數(shù)據(jù)中,什么參數(shù)值出現(xiàn)的概率最高沒(méi)有事先的了解,我們可能就此打住
可是,貝葉斯統(tǒng)計(jì)的關(guān)鍵在于綜合先驗(yàn)分布和似然分布來(lái)給出后驗(yàn)分布這告訴我們,如果考慮先驗(yàn)認(rèn)知,什么參數(shù)最有可能被觀察到
在上圖中,紅線代表后驗(yàn)分布你可以把它看作是先驗(yàn)分布和似然分布的平均值因?yàn)橄闰?yàn)分布更短更寬,意味著我們期望真實(shí)的人平均身高有更大的不確定性而似然分布是對(duì)分布在較窄范圍內(nèi)的數(shù)據(jù)進(jìn)行概括,所以它代表真實(shí)的參數(shù)值應(yīng)該具有更強(qiáng)的確定性
當(dāng)綜合考慮先驗(yàn)和似然分布時(shí),得到的后驗(yàn)分布與似然分布非常接近,即我們假設(shè)的在巨人中長(zhǎng)大的人脆弱的先驗(yàn)信念似乎受到了數(shù)據(jù)的影響雖然這個(gè)人仍然相信人類的平均身高比數(shù)據(jù)告訴我們的要高一點(diǎn),但是他已經(jīng)在很大程度上被數(shù)據(jù)說(shuō)服了
對(duì)于兩條鐘形曲線的情況,很容易求解后驗(yàn)概率這兩者可以用一個(gè)簡(jiǎn)單的等式結(jié)合起來(lái)但是如果我們的先驗(yàn)分布和似然分布不是那么完美呢有時(shí),使用不規(guī)則形狀分布來(lái)描述我們的數(shù)據(jù)更準(zhǔn)確如果我們需要用雙峰分布來(lái)描述我們的數(shù)據(jù),而我們的先驗(yàn)分布的形狀是奇數(shù),該怎么辦
在Matplotlib中呈現(xiàn)的可視化,由MS Paint增強(qiáng)
和之前一樣,后驗(yàn)分布是存在的,它給出了每個(gè)參數(shù)的可能性但是很難看出是什么樣子,也很難給出解析解于是出現(xiàn)了MCMC方法
MCMC方法允許我們?cè)跊](méi)有直接計(jì)算的情況下估計(jì)后驗(yàn)分布的形狀為了理解它的工作原理,我先介紹蒙特卡羅模擬,然后討論馬爾可夫鏈
蒙特卡羅模擬是一種通過(guò)重復(fù)產(chǎn)生隨機(jī)數(shù)來(lái)估計(jì)特定參數(shù)的方法利用生成的隨機(jī)數(shù),進(jìn)行一些計(jì)算,就可以得到參數(shù)的估計(jì)值,但是直接計(jì)算這個(gè)值是不可能的或者非常昂貴的
假設(shè)我們想估計(jì)以下圓的面積:
因?yàn)閳A是邊長(zhǎng)十英寸的正方形的內(nèi)切圓,所以很容易算出它的面積是78.5平方英寸另一種方法,我們可以在正方形空間中隨機(jī)散布一些點(diǎn)接下來(lái)我們統(tǒng)計(jì)點(diǎn)落在圓內(nèi)的比例,然后乘以正方形的面積得到的數(shù)字非常接近圓的面積
因?yàn)?0個(gè)點(diǎn)中有15個(gè)落在圓內(nèi),所以看起來(lái)圓的近似面積是75平方英寸看來(lái)蒙特卡羅方法即使只用20分也能得到很好的答案
現(xiàn)在,想象一個(gè)場(chǎng)景,我們需要計(jì)算以下蝙蝠俠方程對(duì)應(yīng)的圖形面積:
你如何找到這個(gè)形狀的面積我們從來(lái)沒(méi)學(xué)過(guò)!所以這似乎是一項(xiàng)艱巨的任務(wù)
蒙特卡羅模擬不僅可以用來(lái)估計(jì)復(fù)雜形狀的面積通過(guò)生成許多隨機(jī)數(shù),它們可以用來(lái)模擬一個(gè)復(fù)雜的過(guò)程事實(shí)上,它們被用來(lái)預(yù)測(cè)天氣或評(píng)估贏得選舉的可能性
為了理解MCMC方法,我們需要知道的第二個(gè)元素是馬爾可夫鏈這是一系列概率相關(guān)的事件每一個(gè)事件都是由一系列結(jié)果引起的,每一個(gè)結(jié)果都按照一組固定的概率決定了接下來(lái)會(huì)發(fā)生什么
馬爾可夫鏈的一個(gè)重要特點(diǎn)是無(wú)記憶性:在當(dāng)前時(shí)刻,預(yù)測(cè)下一時(shí)刻所需的任何信息都是已知的,追溯歷史不會(huì)帶來(lái)新的信息像滑道和梯子這樣的游戲顯示了這種無(wú)記憶或馬爾可夫?qū)傩允澜缟虾苌儆惺录沁@樣運(yùn)作的,但馬爾可夫鏈仍然是我們認(rèn)識(shí)世界的有力武器
在19世紀(jì),人們發(fā)現(xiàn)鐘形曲線是自然界中的一種常見模式。使用高爾頓板時(shí),人們用釘子在板上投擲彈子,模擬重復(fù)隨機(jī)事件的平均值,彈子的分布再現(xiàn)正態(tài)曲線:
俄羅斯數(shù)學(xué)家和神學(xué)家帕維爾·涅克拉索夫認(rèn)為,鐘形曲線和更普遍的大數(shù)定律只是兒童游戲和瑣碎謎題的產(chǎn)物,其中每個(gè)事件都是完全獨(dú)立的他認(rèn)為現(xiàn)實(shí)世界中相互依存的事件,比如人類的行為,并不符合美好的數(shù)學(xué)模型或分布
安德烈·馬爾科夫試圖證明非獨(dú)立事件也可能符合某種模式,馬爾科夫鏈就是以他的名字命名的他的代表性工作之一是計(jì)算一首俄羅斯詩(shī)歌中的數(shù)千個(gè)雙字對(duì)利用這個(gè)詞對(duì),他計(jì)算了每個(gè)詞的條件概率也就是說(shuō),給定前面某個(gè)字母或空格,有一定幾率下一個(gè)字母是A,T,空格或其他字符使用這些概率,Markov有能力模擬任意長(zhǎng)的字符序列這是一個(gè)馬爾可夫鏈雖然最初的幾個(gè)字符很大程度上是由起始字符的選擇決定的,但馬爾科夫表明,字符的分布在足夠長(zhǎng)的時(shí)間后會(huì)形成一種模式所以,只要受固定概率的影響,即使是相互依存的事件也符合一個(gè)平均值
舉個(gè)更實(shí)際的例子,假設(shè)你住在一個(gè)有五個(gè)房間的房子里你有臥室,浴室,客廳,餐廳和廚房讓我們收集一些數(shù)據(jù):假設(shè)在任何給定的時(shí)間點(diǎn)你在哪個(gè)房間,我們需要知道你接下來(lái)可能會(huì)進(jìn)入哪個(gè)房間比如你在廚房,那么你有30%的機(jī)會(huì)待在廚房,30%的機(jī)會(huì)進(jìn)餐廳,20%的機(jī)會(huì)進(jìn)客廳,10%的機(jī)會(huì)進(jìn)衛(wèi)生間,10%的機(jī)會(huì)進(jìn)臥室使用每個(gè)房間的一組概率,我們可以建立一個(gè)預(yù)測(cè)鏈來(lái)預(yù)測(cè)您接下來(lái)可能會(huì)在哪個(gè)房間
如果我們想預(yù)測(cè)房子里的某人在進(jìn)入廚房后的一段時(shí)間內(nèi)會(huì)在哪里,預(yù)測(cè)以下狀態(tài)可能會(huì)有用可是,由于我們的預(yù)測(cè)只是基于對(duì)一個(gè)人在房子里的位置的觀察,我們有理由認(rèn)為這個(gè)預(yù)測(cè)并不完美例如,如果有人從臥室去浴室,他們更有可能直接回到臥室,而不是從廚房出來(lái)所以馬爾可夫?qū)傩酝ǔ2贿m用于現(xiàn)實(shí)世界
但是,使用馬爾可夫鏈進(jìn)行上千次迭代,確實(shí)可以對(duì)你可能在哪個(gè)房間進(jìn)行長(zhǎng)期預(yù)測(cè)更何況這個(gè)預(yù)測(cè)完全不受這個(gè)人從哪個(gè)房間開始的影響!直覺(jué)上,這是有意義的:為了模擬和描述一個(gè)人在長(zhǎng)期或一般情況下可能在哪里,他在房子里某個(gè)點(diǎn)的行為并不重要因此,馬爾可夫鏈預(yù)測(cè)一個(gè)隨機(jī)變量在幾個(gè)時(shí)間步內(nèi)的行為并不完全合理,但只要知道支配其行為的概率,就可以用它來(lái)計(jì)算該變量的長(zhǎng)期趨勢(shì)
在了解了蒙特卡羅模擬和馬爾可夫鏈的一些知識(shí)后,希望不用數(shù)學(xué)推導(dǎo)就能直觀地展示MCMC方法是如何工作的。
回顧過(guò)去,我們?cè)噲D估計(jì)我們感興趣的參數(shù),即人類平均身高的后驗(yàn)分布。
我不是可視化專家,顯然我也不擅長(zhǎng)將我的例子保持在常識(shí)范圍內(nèi):我的后驗(yàn)分布例子嚴(yán)重高估了人類的平均身高。
我們知道后驗(yàn)分布的信息包含在我們的先驗(yàn)分布和似然分布中,但是不管是什么原因,我們都無(wú)法直接計(jì)算出來(lái)使用MCMC方法,我們將有效地從后驗(yàn)分布中提取樣本,然后計(jì)算提取樣本的平均值等統(tǒng)計(jì)數(shù)據(jù)
首先,通過(guò)MCMC方法選擇一個(gè)隨機(jī)參數(shù)值模擬將繼續(xù)生成隨機(jī)值,但應(yīng)遵循一些規(guī)則來(lái)確定什么是好的參數(shù)值訣竅在于我們有數(shù)據(jù)的先驗(yàn)知識(shí),所以對(duì)于一對(duì)參數(shù)值,我們可以通過(guò)計(jì)算哪個(gè)參數(shù)值更能解釋數(shù)據(jù)來(lái)評(píng)價(jià)哪個(gè)參數(shù)值更好如果一個(gè)隨機(jī)產(chǎn)生的參數(shù)值比上一個(gè)更好,它將被添加到參數(shù)價(jià)值鏈中,其概率由它的好程度決定
為了直觀地解釋這一點(diǎn),讓我們回憶一下,分布在某個(gè)值上的高度代表觀察到那個(gè)值的概率所以可以認(rèn)為我們的參數(shù)值顯示的是高低概率區(qū)域,顯示在Y軸上
紅點(diǎn)是隨機(jī)參數(shù)樣本。
由于隨機(jī)樣本服從固定的概率,所以在一段時(shí)間后,它們傾向于收斂到我們感興趣的參數(shù)的概率最高的區(qū)域:
藍(lán)點(diǎn)僅代表任何時(shí)間點(diǎn)之后的隨機(jī)樣本,此時(shí)預(yù)計(jì)會(huì)出現(xiàn)收斂注意:我將點(diǎn)垂直堆疊純粹是為了說(shuō)明問(wèn)題
收斂后,MCMC采樣產(chǎn)生一組點(diǎn),這些點(diǎn)是后驗(yàn)分布的樣本圍繞這些點(diǎn)畫一個(gè)直方圖,并計(jì)算你想要的任何統(tǒng)計(jì)數(shù)據(jù)
根據(jù)MCMC模擬生成的樣本集計(jì)算的任何統(tǒng)計(jì)數(shù)據(jù)都是我們對(duì)該統(tǒng)計(jì)數(shù)據(jù)真實(shí)后驗(yàn)分布的最佳猜測(cè)。
MCMC方法還可以用來(lái)估計(jì)多個(gè)參數(shù)的后驗(yàn)分布對(duì)于n個(gè)參數(shù),在n維空間中存在概率較大的區(qū)域,某些參數(shù)值集可以更好地解釋觀測(cè)數(shù)據(jù)所以我認(rèn)為MCMC方法是在一個(gè)概率空間內(nèi)隨機(jī)抽樣逼近后驗(yàn)分布的過(guò)程
馬爾可夫鏈的蒙特卡羅方法是什么。這個(gè)問(wèn)題的簡(jiǎn)短回答是:
MCMC方法是一種在概率空間中通過(guò)隨機(jī)抽樣來(lái)逼近感興趣參數(shù)后驗(yàn)分布的方法。
我希望我已經(jīng)解釋清楚了這句話,那就是你為什么使用MCMC方法,以及它們是如何工作的那次演講的目的是向非專業(yè)觀眾解釋馬爾可夫鏈的蒙特卡羅方法,我在這篇文章中也試圖這樣做
鄭重聲明:此文內(nèi)容為本網(wǎng)站轉(zhuǎn)載企業(yè)宣傳資訊,目的在于傳播更多信息,與本站立場(chǎng)無(wú)關(guān)。僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。