Benfordov zakon

Izvor: Wikipedia

Benfordov zakon, takođe poznat i kao zakon prve cifre, tvrdi da je u mnogim spiskovima brojeva koji potiču iz izvora podataka iz stvarnog života, raspodela vodeće cifre prati specifičnu, ne-ravnomernu raspodelu. Prema ovom zakonu, prva cifra je 1 gotovo trećinu vremena, veće cifre se pojavljuju kao vodeće cifre sa sve manjom i manjom frekvencijom, sve do cifre 9 koja se pojavljuje kao prva cifra manje nego jednom u dvadeset slučajeva. Osnova ovog „zakona“ jeste da su vrednosti koje se dobijaju merenjima u stvarnom životu često raspodeljene logaritamski, zbog čega je logaritam vrednosti ovih merenja, uopšte govoreći, ravnomerno raspodeljen.

Ispostavilo se da je ovaj kontraintuitivni rezultat primenljiv na najrazličitije skupove podataka, uključujući račune za električnu energiju, ulične adrese, cene deonica, brojeve stanovnika, stope smrtnosti, dužine reka, fizičke i matematičke konstante, i procese koje opisuju stepeni zakoni (odnosno zakoni u kojima se zavisnost opisuje stepenom funkcijom, kakvi su veoma česti u prirodi). Rezultat važi bez obzira na osnovu u kojoj izražavamo brojeve u smislu opadanja frekvencija od manjih cifara ka većima, mada se konkretni postoci menjaju.

Zakon je nazvan po fizičaru Frenku Benfordu, koji ga je formulisao 1938, mada ga je prethodno izrekao Sajmon Njukom 1881.

Matematički iskaz[uredi - уреди]

Benfordova distribucija

Preciznije, Benfordov zakon tvrdi da se, ukoliko brojeve izražavamo u osnovi b (b ≥ 2), vodeća cifra d ( d ∈ {1, …, b − 1} ) pojavljuje sa verovatnoćom

P(d) = logb(d + 1) − logbd = logb((d + 1)/d).

Ova veličina jednaka je razdaljini između d i d + 1 na logaritamskoj skali.

Konkretno, u osnovi 10, vodeće cifre prema Benfordovom zakonu prate sledeću raspodelu, gde je d vodeća cifra i p je verovatnoća njenog pojavljivanja:

d p
1 30.1%
2 17.6%
3 12.5%
4 9.7%
5 7.9%
6 6.7%
7 5.8%
8 5.1%
9 4.6%

Primene i ograničenja[uredi - уреди]

1972. godine, mikroekonomista Hal Varijan, tada doktorant na Univerzitetu Kalifornije u Berkliju, je nagovestio da bi se zakon mogao koristiti za otkrivanje mogućih prevara u socio-ekonomskim podacima koji se podnose u prilog odlukama u oblasti javnog planiranja. Zasnovano na prihvatljivoj pretpostavci da su ljudi koji izmišljaju brojeve skloni da svoje cifre raspodeljuju prilično ravnomerno, jednostavno poređenje raspodele frekvencije prve cifre u datim podacima sa raspodelom očekivanom u skladu sa Benfordovim zakonom bi trebalo da ukaže na moguće nepravilnosti. Vodeći se ovom idejom, Nigrini je pokazao da bi se Benfordov zakon mogao koristiti kao indikator računovodstvenih i prevara u pravdanju troškova.

Ograničenja[uredi - уреди]

Međutim, u ovim primenama je potrebno biti oprezan. Datu skup podataka iz stvarnog života možda ne podleže zakonu, zavisno od toga do koje mere na raspodelu brojeva utiče priroda same kategorije podataka.

Na primer, neko bi možda očekivao da bi spisak brojeva koji predstavlja „brojeve stanovnika sela u Srbiji čija imena počinju na 'A'“ ili pak „male odštetne zahteve od osiguranja“ podlegao Benfordovom zakonu. Međutim, ako se ispostavi da je određenje „sela“ „naselje sa brojem stanovnika između 300 i 999“, ili da je određenje „malog odštetnog zahteva od osiguranja“ „odštetni zahtev vrednosti između 50 i 100 evra“, tada Benfordov zakon ne bi bio primenljiv (makar ne u svom osnovnom obliku) jer bi izvesni brojevi bili isključeni po određenju skupa podataka.

Uopštenja na cifre dalje od prve[uredi - уреди]

Zakon se može uopštiti na cifre dalje od prve. Posebno, verovatnoća nailaženja na broj koji počinje izvesnom fiksiranom niskom cifara n data je kao:

\log_{10}\left(1+\frac 1n\right).

Na primer, verovatnoća da dati broj počinje ciframa „314“ je log10(1+1/314). Pomoću ovog rezultata se može naći verovatnoća da se određena cifra nalazi na datoj poziciji unutar broja. Na primer, verovatnoća da se cifra 2 nalazi na drugoj poziciji (gledano sleva) jeste

\log_{10}\left(1+\frac{1}{12}\right)+\log_{10}\left(1+\frac{1}{22}\right)+\cdots+\log_{10}\left(1+\frac{1}{92}\right)\approx0{,}109.

Ukoliko fiksiramo ma koju od deset cifara, verovatnoća da će n-ta cifra broja biti jednaka našoj cifri veoma se brzo približava ka 10% kako n raste, odnosno, raspodela n-te cifre se brzo približava ravnomernoj raspodeli kada n → ∞.

Praktične primene Benfordovog zakona rutinski koriste više od samo prve cifre.