在工作和生活之中,我們總是會(huì)接觸到各種各樣的數(shù)據(jù),而對(duì)于這些數(shù)據(jù)的真假,我們卻難以辨別,那么有沒有什么方法可以讓我們迅速對(duì)一組數(shù)據(jù)的真假作出判斷呢?有的,那就是“本福特定律”。
當(dāng)我們拿到一組數(shù)據(jù)的時(shí)候,這組數(shù)據(jù)之中的每一個(gè)數(shù)字都存在著一個(gè)首位,舉例而言,對(duì)于1534這個(gè)數(shù)字來說,首位就是1;對(duì)于345這個(gè)數(shù)字來說,首位就是3。首位就是一個(gè)數(shù)字的第一數(shù)位。現(xiàn)在我們來思考一個(gè)問題,不同的數(shù)字出現(xiàn)在首位的概率是否一樣呢?又是多少呢?乍一看這個(gè)問題,我們很快便能夠給出答案,那就是任何數(shù)字出現(xiàn)在首位的概率都是一樣的,而且是1/9。因?yàn)槟軌虺霈F(xiàn)在首位的數(shù)字一共有9個(gè),分別為1、2、3、4、5、6、7、8、9,所以每個(gè)數(shù)字出現(xiàn)的概率自然應(yīng)該是1/9。但事實(shí)卻并不是這樣。
早在1881年的時(shí)候,一個(gè)名為紐康的天文學(xué)家就發(fā)現(xiàn),在一組數(shù)據(jù)之中,不同數(shù)字出現(xiàn)在首位的概率是不相同的,而在將近60年之后,另一個(gè)名為“本福特”的物理學(xué)家也發(fā)現(xiàn)了相同的規(guī)律,所以這一規(guī)律就被稱之為“本福特定律”。
根據(jù)本福特定律,1作為首位數(shù)字出現(xiàn)的概率是最高的,大約達(dá)到了30%。真的是這樣嗎?你可以親自選取一些數(shù)據(jù)來進(jìn)行驗(yàn)證,比如某一年世界各國的GDP數(shù)據(jù)、世界上所有國家的國土面積數(shù)據(jù),又或者你可以數(shù)一數(shù)我最近發(fā)表的50篇文章的評(píng)論數(shù)數(shù)據(jù),你會(huì)驚奇地發(fā)現(xiàn)首位為1的出現(xiàn)概率真的是接近30%的。那么這到底是為什么呢?除了1以外,2、3、4、5、6在首位出現(xiàn)的概率也可以計(jì)算出來嗎?當(dāng)然是可以的。
本福特定律是有一個(gè)計(jì)算公式的,即為P(N)=lg((N+1)/N),這里的P(N)就代表了數(shù)字N在首位出現(xiàn)的概率。
我們首先將1代入這個(gè)公式,就得到了P(1)=lg2=30.1%,所以1在首位出現(xiàn)的概率就是30.1%。再將2代入公式,就得到了P(2)=lg3/2=17.6%,所以2在首位出現(xiàn)的概率就是17.6%。將3代入公式,就得到P(3)=lg4/3=12.5%,所以3在首位出現(xiàn)的概率就是12.5%。
后面的數(shù)字就不一一計(jì)算了,直接給出結(jié)果:4的概率是9.7%、5的概率是7.9%、6的概率是6.7%、7的概率是5.8%、8的概率是5.1%、9的概率是4.6%。從最后的結(jié)果可知,越大的數(shù)字出現(xiàn)在首位的概率就越小。有了這個(gè)規(guī)律,當(dāng)我們拿到一組數(shù)據(jù)的時(shí)候,就可以根據(jù)這組數(shù)據(jù)首位數(shù)字的分布規(guī)律來對(duì)這組數(shù)據(jù)的真假有一個(gè)基本的判斷。
比如某個(gè)投資顧問在向你極力推薦他們的投資產(chǎn)品,并拿出了過往10年的月度收益數(shù)據(jù)時(shí),你就可以通過本福特定律來對(duì)這組數(shù)據(jù)的真假有一個(gè)初步的判斷,如果數(shù)據(jù)明顯違背本福特定律,那么你有必要通過其它的方式來對(duì)這個(gè)數(shù)據(jù)做進(jìn)一步的核實(shí)。
本福特定律可以應(yīng)用于任何地方嗎?當(dāng)然不。本福特定律的應(yīng)用要滿足兩個(gè)基本條件,第一必須是非人為規(guī)律的數(shù)據(jù),比如一個(gè)班級(jí)的期末考試成績數(shù)據(jù)就不行,因?yàn)榉謹(jǐn)?shù)是人為規(guī)定的,我們?nèi)藶榈貙?00分設(shè)定為滿分,自然就不能滿足本福特定律,否則如果一個(gè)班中30%的人都考了10多分,可就麻煩了。第二是數(shù)據(jù)的跨度必須要大。比如我文章的評(píng)論數(shù),很多文章只有2、3個(gè)評(píng)論,也有些文章有三五十個(gè)評(píng)論,還有一些有數(shù)百評(píng)論,數(shù)據(jù)跨度非常大,這就可以應(yīng)用本福特定律。如果是一個(gè)學(xué)校各個(gè)班級(jí)的人數(shù)數(shù)據(jù)就不行,因?yàn)榭缍忍。總€(gè)班都是四五十人,當(dāng)然不行了。
那么為什么會(huì)出現(xiàn)本福特定律呢?不同數(shù)字出現(xiàn)在首位的概率為什么會(huì)不一樣呢?
首先我們要確認(rèn)一點(diǎn),那就是本福特定律迄今為止并不是一個(gè)公認(rèn)的定律,也并沒有一個(gè)公認(rèn)的證明,所以你可以去反駁它,也可以去尋找它背后的內(nèi)在原理,但是不同數(shù)字出現(xiàn)在首位的概率不一樣,這是一件很正常的事。
舉個(gè)例子來說吧,10如果想要變?yōu)?0,那么需要增長100%,而90要想變?yōu)?00,只需要增長10%,而在一組數(shù)據(jù)之中,增長相同百分比所需的時(shí)間是相同的,首位9變成1,要比1變成2容易得多,所以1的出現(xiàn)概率自然比2大。當(dāng)然,這只是對(duì)本福特定律的一種探討,并不是公認(rèn)的證明。歡迎大家從不同的角度來說一說你所理解的本福特定律。