• <dd id="nhtjk"></dd>
    ?

    世界是確定還是隨機?如何巧妙用數學調查傳染???

    2020-4-23 17:35:26 新聞來源:北京新聞網

       出品:新浪科技《科學大家》、高山大學

      主講嘉賓:夏志宏 高山大學教務長、校董,數學家、天文學家,美國西北大學終身教授

      一、上帝玩擲骰子嗎?

      科學界經常會有這樣的討論:世界是確定的還是隨機的?

      愛因斯坦曾說過“上帝不跟宇宙玩擲骰子”。這句話是針對一些不太直觀的量子力學理論的質疑。量子力學的基本思想與我們的直觀感覺是完全不一樣的,它認為在亞原子世界中所有的東西都是隨機的,而且是真正的隨機。有兩個最著名的例子:“海森堡的測不準原理”和“薛定諤的貓”。

      “海森堡的測不準原理”說的是,如果要準確測量原子的位置,那么就無法準確測量它的動量。這兩個量沒有辦法同時準確測量。

      “薛定諤的貓”是把微觀世界和量子世界的東西擴展到宏觀世界所做的生動描述。

      薛定諤的貓思想實驗,圖自維基百科薛定諤的貓思想實驗,圖自維基百科

      薛定諤的貓:在一個盒子中放一只貓,這只貓的生死取決于某個原子的衰變。假如該原子發生了衰變,盒子中的毒氣瓶就會被打破,釋放出毒氣,貓被毒死;假如該原子沒有發生衰變,毒氣瓶就不會被打破,貓不會被毒死。

      原子的衰變是隨機的。盒子打開之前,我們不知道貓是生還是死;盒子打開之后,就可以看到貓是活著的還是死了。盒子打開之前,一般人會認為貓的生死狀態已經確定,只是我們不知道而已。

      但量子力學并不這么認為。原子的衰變是以一定概率發生的,它有可能衰變也有可能不衰變。但在我們沒有打開盒子之前,衰變的狀態,我們當然是不知道。

      但事實上不僅如此:并不是我們不知道,而是在我們觀測之前,它本身就處于一個疊加的狀態,衰變與否同時存在!

      反映到宏觀世界,在我們打開盒子之前,貓的“生”態和“死”態是疊加在一起的,“生”態和“死”態同時發生,在我們打開盒子的那一刻,“生”態或“死”態才得以確定。

      這可能非常難以想象,也是為什么愛因斯坦當初會說“上帝不跟宇宙玩擲骰子”這句話。從此以后對“世界是隨機的還是確定的”有了很多爭論。

      二、隨機與確定的數學原理

      從數學的角度來看,世界是隨機的還是確定的,其實都是一回事,看似對立實則統一。

      第一,隨機系統并非隨意,而是具有很強的確定性。

      例如,對于房間中的空氣,每一個空氣分子都是隨機的,但整體是一個非常確定的系統。

      從數學上來講,由于分子數量極大,可以應用大數定理和中心極限定理。這兩個定理保證了在大數據情況之下,世界其實是確定的。

      再例如,量子計算機利用的就是像薛定諤的貓一樣的疊加態。它的每一個計算過程都是隨機的,得到的可以說是一個隨機結果,但在大量重復計算以后,就變成一個非常確定的結果。

      第二,確定的系統有很強的隨機性。

      一個系統即使是完全由物理規律確定好的,它也會展現出非常隨機的一面。最著名的例子就是“蝴蝶效應”。

      對應于確定系統中出現的隨機現象,數學中有一套理論叫做“混沌”,即動力系統的混沌理論。

      用古人的說法,原因在于“差若毫厘,謬以千里”這樣的哲學思想。我們由此可以得到宏觀的世界也是測不準的原理,盡管它是一個確定系統。同樣地,我們還可以確定將來是不可測的,其原因是混沌效應的存在。

      三、隨機系統的確定性

      拋硬幣的學問

      我們先看一個簡單的例子,拋硬幣。

      一枚硬幣只有兩面,正面與反面。拋出一枚硬幣后出現的有可能是正面,也有可能是反面。一般情況下,出現正面和出現反面的概率是一樣的,都是50%,除非硬幣是特制的。

      假設老師在概率課上布置作業,要求學生課后拋200次硬幣,并把結果記錄下來。下面是小張的記錄,其中0代表硬幣正面,1代表硬幣反面。

      小張的這個數據記錄有非常大的可能性是在造假!也就是說他根本沒有去拋硬幣,而是隨意寫出了這串數字。

      為什么認為小張是在做假呢?可以用最簡單的辦法來分析:數一下這個記錄中0和1出現的次數。

      我們發現這串數字有111個0,89個1,也就是說小張200次拋硬幣的結果中有111次出現正面,89次出現反面。計算一下就會知道,這個結果的可信度非常低,低于1%,也就是說可能性不大。

      拋硬幣得到任何一串0、1數字都是有可能的,但是有些數字串出現的可能性非常小。

      比如拋200次,每一次出現的都是0,或者每一次出現的都是1,這種情況基本上是不可能的。全是0或全是1的記錄基本上可以肯定是造假的。

      我們再看看小李的記錄:

      幾乎可以肯定,小李也在造假。我們首先來數一下小李這個記錄中0和1的個數:101個0,99個1。好像一點問題都沒有,正面和反面出現的概率差不多。但是,我們發現在這個記錄中,111出現了三次,而1111一次都沒有出現。

      我們可以去計算一下,拋200次硬幣的過程中,出現111的次數小于或等于3的情形的可信度非常低,低于千分之一;一次1111都沒有出現的可信度低于百分之一。所以,幾乎可以肯定小李的記錄也是隨便做出來的,盡管他把0和1的概率設置得差不多,但其它方面還是存在問題。

      也許有人可以偽造一些記錄出來,把111和1111出現的頻率也進行適當調整。但是在200個數字里面,不僅是111和1111,我們還可以再看010出現的次數,或者101出現的次數,這些都是有規律的。

      我們看到,假如不真正去拋硬幣而是想偽造出拋硬幣的結果,這其實是非常難的。最簡單的方法就是老老實實地去拋硬幣,然后把結果寫出來,這個時候數據內在的統一性才會體現出來,不然很難做到。

      如何用大數據發現論文造假

      我們經常會看到科學文獻里有一大堆的數據,其中不乏數據造假的情況。同樣的道理,造假的時候沒法做到數據的統一性。所以,我們可以用大數據來打假。

      假如下面是一組從某實驗室得來的數據,總共有40個數字:

      我們可以發現:

     ?。?)每個數都有7位數字,包括小數點后面的6位數字;最后一位數字為0的一個都沒有。

      從心理上分析,造假者為了把小數點后的每個數字都寫出來,一般來說他放的0就會非常少。而一組真正從實驗中得來的數據,40個數字中一個0都沒有的概率是非常小的。

     ?。?)倒數第二位沒有一個1。

      這種情形出現的概率也是非常非常小的。一般的物理數據或任何通過實驗得到的數據,精確的有效數字可能只有前面兩三位數字。

      在一些比較精確的實驗中,可能有效數字更多,而其他一些實驗里的有效數字比較少。假如說上面的例子中有效數字是三位,其后面幾位數字基本上是隨機的;即使有效數字是四位,那最后面的三位數字也是比較隨機的。

      一般的實驗數據,最后幾位數字都是比較隨機的。所以,最后一位數不出現0的概率就非常小。我們可以用這種方法去找有可能做假的文章來進行打假分析,且數據量越大,打假就越精確。

      我們也可以用一些更簡單的辦法。剛才這組數據總共才40個數字,這個數據量是比較小的,統計規律有時候不是那么明顯。但我們可以不按照0、1、2、3、4、5、6、7、8、9來分,而是分成奇數和偶數兩大類,這個時候它的統計規律會比較明顯?;蛘呖梢园褦祿枚M制表示,此時某一位置上數字的統計規律就會體現得非常強。

      隨機系統的應用

      我們可以利用隨機系統的性質做一些真正有意義的統計。

      例如,某個防疫部門需要以問卷形式統計某個傳染病的發病情況,比如性病、肺結核等。

      但出于對自己隱私的保護,調查對象可能不愿意對問卷上的有關問題進行如實回答,即使調查結果不會對外公布。

      那該如何完成這項調查呢?

      利用隨機的性質,我們有一個簡單的解決辦法。給每個調查對象一個骰子,在回答問卷前自己投骰子,如果骰子出現的結果是1、2、3、4,就如實回答;如果骰子出現的結果是5、6,就一定要撒謊。

      由于收問卷者并不知道每個人投骰子的具體情況,他也就不知道問卷上的答案是真是假。被調查者因此也可以毫無顧慮地回答問卷。

      此時,盡管每個人的回答都是隨機的,但按照前面講的原理,整體的統計數據可以非常精確。

      假設3萬份問卷里有1.2萬人回答有傳染病,那么真實情況下應該是多少人?誤差會有多大?

      我們不妨來計算一下:假如真實情況下有病的人數為x,假定精確地有2/3如實回答,1/3撒謊,則回答有病的人應該是:

      x?2/3+(30000-x)?1/3=12000

      解這個方程可以得到x=6000。

      由于每一次投骰子是一個隨機的過程,所以有病的人數不一定是精確的6000人。假如置信區間放在95%,那么我們算出,這個統計結果的誤差上下不超過139人,即真正有病的人數范圍為6000±139;把置信區間放大到99%,最大的可能的誤差也就是200人左右,所以統計結果還是相當可信的。

      大數定理與中心極限定理

      從上面的例子我們可以看出,隨機系統中存在的確定性比想象的要強得多。在物質世界中,每個原子、分子都有很大的不確定性,但是把大量的原子、分子放在一起,這種不確定性就會消失,展示出非常強的確定性。

      比如說拋100萬次硬幣,在置信度為0.26%(即±3δ)的情況下,正反面出現次數的平均值誤差不會超過0.015。

      有一些數學理論揭示了隨機系統的一些非常好的內在規律,而其中最好的也是最簡單的一個是大數定理。

      大數定理告訴我們,一個實驗重復次數多了,或者數據量大了以后,數據的平均值將會越來越接近數據的期望值。

      中心極限定理是比大數定理更加精確的一個數學理論。它在形式上比大數定理要稍微復雜一點,但其實也很簡單。

      我們仍然考慮拋硬幣的例子。假設正反面出現的概率各是50%,正面記錄為0,反面記錄為1。

      扔硬幣概率分布1扔硬幣概率分布1

      扔第1次,記錄為0的概率是50%,為1的概率也是50%;[見圖(1)]

      扔第2次,記錄為0的概率是50%,為1的概率是50%;對前兩次結果取平均,平均值為0的概率是25%,為1的概率是25%,另外還有50% 的概率為 0.5。[見圖(2)]

      扔第3次,對三次結果取平均,平均值為0(即記錄為000)或平均值為1(即記錄為111)的概率都很小。[見圖(3)]

      ……

      扔100次取平均,平均值的分布是中間突出,兩邊特別小,一百次全是0或全是1都基本上不可能。[見圖(4)]

      扔硬幣概率分布2扔硬幣概率分布2

      如果我們換一個重量分布不均的硬幣(一頭重一頭輕),其正反面出現的概率是不一樣的。有趣的是,用這個非均勻硬幣拋100次所得平均值的概率分布圖形與之前拋均勻硬幣100次所得到的概率分布圖形在形狀上幾乎是一樣的[圖(4)與圖(8)],都很像教堂里的鐘。

      中心極限定理是說,不管原來的概率分布是怎么樣的,只要滿足一些基本的性質要求,一次次重復實驗,最后的平均值都呈現出鐘形的分布。

      四、確定系統的隨機性

      與隨機系統相對應的是確定系統。一個確定系統的“確定性”并不是絕對的,有很多時候其實是不可測的。

      故事:棋盤上的麥粒

      棋盤上的麥粒棋盤上的麥粒

      傳說一位印度的數學家發明了國際象棋,皇帝知道后很高興,希望可以獎賞數學家。數學家說:“我要的不多,你在我棋盤的第1格放1顆麥子,第2格放2顆,第3格放4顆,第4格放8顆……用這種方式把棋盤放滿了,我就滿意了。”

      皇帝一聽,覺得數學家不是很貪婪,就要幾顆麥子而已。但他沒有想到的是,他得有多少麥子才能滿足數學家的要求。我們可以簡單算一下麥子的顆數:

      最后得到的是一個非常大的數字??梢院唵螕Q算一下,這么多顆麥子大概有140萬億升,約為去年全世界麥子產量的400倍。相當于將2000年以來全世界麥子的總產量放在棋盤上,才差不多滿足數學家的要求。

      這個例子說明,幾何級數增長得特別快。開始看上去微不足道,但每一次增加的量大于以前所有量的總和。即使幾何級數以7%的增速(比如我國的GDP),大概10年就會加倍。如果保持7%的增速,每十年的產值將會大于歷史產值總和!

      將來不可預測的混沌系統

      假設一個封閉盒子里面裝滿了氣體。我們可以數學證明氣體分子在盒子里運動具有這樣的性質:某一個氣體分子的運動可能因為某些原因產生一個小的偏差,這個小的偏差將可能以指數形式增加,也就是每隔一段時間偏差會加倍。

      由于氣體分子運動比較快,它運動軌跡的誤差可能不到一兩秒鐘就會加倍。假如是1秒鐘加倍,64秒鐘之后,這個誤差就有可能超過“棋盤上的麥粒”那個故事中的天文數字。但是好在盒子對它的運動是有限制的,總體誤差限制在盒子的范圍之內。

      從數學理論上來講,假如系統存在這種機制,即在微觀狀態下誤差呈指數增長,那么其影響的效果就要“差若毫厘,謬以千里”。指數增長是一種非??膳碌脑鲩L態勢。存在這種增長機制的系統稱為一個混沌動力系統。

      在微觀狀態下,混沌動力系統的誤差將按指數級增長。在宏觀狀態下,我們不知道它會怎么樣,可能會因為運動的折返或者有其他宏觀上的物理限制,使誤差不會無止境地增長下去。

      混沌的狀態一般還可以量化,量化的結果在數學里面就是Lyapunov指數。Lyapunov指數是告訴我們微小誤差經過多長時間加倍。假如每隔單位時間加倍的話,這個指數為ln(2)。假如每隔T單位時間加倍,這個指數就是ln(2)/T。

      一個復雜系統的不同區域可能有不同的壓縮指數。對于混沌的系統,結論是它的將來是不可預測的。最典型的“將來不可預測”的例子是蝴蝶效應。蝴蝶效應是氣象系統的例子,指的是蝴蝶翅膀的微小抖動可以在幾周的時間內引起全球性的氣候變化。氣象系統是非常復雜的混沌系統。

      Lorenz 吸引子

      Lorenz(洛倫茨)是麻省理工學院(MIT)的教授,他專門研究氣象。氣象方程是非常復雜的偏微分方程組,其解的結構非常復雜,有眾多的未解問題。未來研究氣象方程,Lorenz將其簡化為一組三維空間的常微分方程:

      這個常微分方程里有三個參數δ、β和ρ,它看起來是一個非常簡單的三維方程,但它有兩個非線性項。一般來說,只要有非線性項的存在,基本上就不太可能用理論上的公式來精確求解,獲取具體軌道,唯一的辦法是采用數值計算。

      當δ=10、β=8/3和ρ=28時,數值計算發現方程解的軌道呈現出下面的奇怪現象:

      奇異吸引子奇異吸引子

      無論從哪里出發,所有軌道最終都會跑向以上這個圖形,在數學上被稱為一個奇異吸引子。

      也就是說對于上面的三維方程,從幾乎所有的初始點出發,跟蹤該點的軌道就會發現,它在做一種非常類似的、看似簡單的運動,其運動軌跡最終都會畫出如上奇異吸引子的形狀。

      這個形狀大致可分為兩個部分,暫且定為左邊和右邊。但對每一根軌道的每一個時刻,運動出現在左邊還是右邊是非常隨機的,看上去毫無章法。

      在吸引子上任意選取一點,它的軌道往往在左邊走若干圈后,再到右邊走若干圈,然后再回到左邊走若干圈,如此往返,以至無窮。

      每一次在每一邊走的圈數由初始點決定,類似于蝴蝶效應,稍微變動一下初始點位置,但一定時間以后就會出現很大差異,將來出現在左邊和右邊的次數就與原來完全不一樣。也就是說,長時間以后,出現在左邊或右邊變成完全隨機。

      Lorenz系統是一個混沌系統。它是一個確定性的動力系統,因為它的運動完全由一組常微分方程確定;但是它具有不可測性,即我們沒有任何辦法去精確地知道一個點經過長時間運動后的位置。只要時間長了,一個非常小的誤差都會給最終測量帶來非常大的、不可接受的誤差。

      五、復雜度、信息量和熵

      如果把Lorenz系統的運動軌道按出現在左邊或右邊分別標記為0或1,我們就會發現對于這樣一個確定的動力系統,它的運動軌道也與前面一串拋硬幣的實驗結果一樣,可以得到一串由0和1組成的數字序列。在信息學領域,一串摩爾斯密碼也給出了一串由0和1組成的序列。

      Lorenz系統、拋硬幣實驗、摩爾斯密碼,這三個例子分別代表了確定系統、隨機系統和信息傳播系統。而從數學的角度來看,它們是一模一樣的,沒有任何區別。

      一根軌道、一串拋硬幣實驗和一串摩爾斯密碼帶來的都是一串0或1的字符。所以,這三個系統在本質上不存在所謂的隨機和確定的嚴格區分,而且它們的很多性質可以用同一種方法去研究,比如我可以研究不同系統的復雜性。

      熵的概念是度量動力系統復雜性的一種方式,熵越大表示系統越復雜。但在概率論和信息學里同樣的概念,或者同樣的量,有不同的意義和應用。

      熵在概率學或信息論里代表的是信息量,或者說是信息量的期望值。熵越大則信息量越高。信息量在大數據分析里有重要的應用。

      熵在網絡或信息傳播學里代表的是網絡容量和傳播能力。熵越大則網絡容量越大。

      綜上所述,表面上看這些系統以及相對應的概念是完全不一樣的,有時甚至是相對立的,比如說隨機和確定的系統,但數學把他們巧妙地統一起來了。

      隨機?確定?這取決于你觀察的位置。

      本文根據夏志宏教授2020年3月21日在高山大學和更新學堂聯合出品的“科學公益直播”的課程整理而成,經老師審核后公開發布。

      推薦

      《科學大家》欄目精彩文章匯總

      《科學大家》專欄投稿郵箱:sciencetougao@sina.com  來稿請注明姓名、單位、職務

    ?
    ?
    ?
    本站所刊登的各種新聞﹑信息和各種專題專欄資料,均為深圳生活網版權所有,未經協議授權禁止下載使用。
    Copyright ? 2000-2013 www.0755shw.com All Rights Reserved
    編輯QQ:2383424132
    人妻无码91久久一二三区免费_久久中国国产Av秘入口_全免费A级毛片免费看视频免下_日本伦精品一区二区三区免费

  • <dd id="nhtjk"></dd>