Distribusi Pareto

Pareto Tipe I
Fungsi kepekatan probabilitas
Pareto Type I probability density functions for various α
Fungsi kepekatan probabilitas Pareto Tipe I untuk berbagai nilai dengan Ketika distribusi tersebut mendekati dengan sebagai fungsi delta Dirac.
Fungsi distribusi kumulatif
Pareto Type I cumulative distribution functions for various α
Fungsi distribusi kumulatif Pareto Tipe I untuk berbagai nilai dengan
Parameter scale (real)
shape (real)
Dukungan
PDF
CDF
Kuantil
Mean
Median
Modus
Variance
Skewness
Ex. kurtosis
Entropi
MGFtiada
CF
Informasi Fisher
Kekurangan yang diperkirakan [en][1]

Distribusi Pareto yang dinamai menurut insinyur sipil, ekonom, dan sosiolog asal Italia Vilfredo Pareto[2] adalah sebaran probabilitas berhukum pangkat yang digunakan untuk menggambarkan berbagai fenomena teramati dalam bidang sosial, pengendalian mutu, ilmu pengetahuan, geofisika, aktuaria, serta banyak bidang lainnya. Prinsip ini mula-mula diterapkan untuk menjelaskan distribusi kekayaan dalam suatu masyarakat, sesuai dengan kecenderungan bahwa sebagian besar kekayaan dikuasai oleh sebagian kecil populasi.[3][4]

Prinsip Pareto—atau yang dikenal sebagai "aturan 80:20"—yang menyatakan bahwa 80% akibat berasal dari 20% sebab, dinamai untuk menghormati Pareto. Namun, prinsip tersebut berbeda secara konseptual dari distribusi Pareto itu sendiri, dan hanya distribusi Pareto dengan parameter bentuk (α) sebesar   log 4 5 ≈ 1.16 yang secara tepat merepresentasikan hubungan tersebut. Pengamatan empiris menunjukkan bahwa pola distribusi 80:20 ini sesuai dengan berbagai kasus, termasuk fenomena alam[5] maupun aktivitas manusia.[6][7]

Definisi

Jika X merupakan sebuah variabel acak yang mengikuti distribusi Pareto (Tipe I),[8] maka probabilitas bahwa X bernilai lebih besar daripada suatu bilangan x—yakni fungsi survival (juga disebut fungsi ekor)—diberikan oleh

dengan xm sebagai nilai minimum (yang harus bernilai positif) yang mungkin bagi X, dan α merupakan suatu parameter positif. Distribusi Pareto Tipe I dicirikan oleh sebuah parameter skala xm dan sebuah parameter bentuk α, yang dikenal sebagai indeks ekor. Apabila distribusi ini digunakan untuk memodelkan distribusi kekayaan, parameter α disebut sebagai indeks Pareto.

Fungsi distribusi kumulatif

Berdasarkan definisi tersebut, fungsi distribusi kumulatif dari suatu variabel acak Pareto dengan parameter α dan xm adalah

Fungsi kepekatan probabilitas

Selanjutnya, melalui turunan, diperoleh fungsi kepekatan probabilitas sebagai berikut:

Apabila digambarkan pada sumbu linear, distribusi ini membentuk kurva khas berbentuk huruf J yang secara asimtotik mendekati masing-masing sumbu ortogonal. Setiap segmen kurva bersifat self-similar, dengan mempertimbangkan faktor skala yang sesuai. Sementara itu, pada grafik log-log, distribusi ini direpresentasikan sebagai sebuah garis lurus.

Sifat-sifat

Momen dan fungsi karakteristik

  • Nilai harapan dari sebuah variabel acak yang mengikuti distribusi Pareto adalah
  • Varians dari sebuah variabel acak yang mengikuti distribusi Pareto adalah
    (Jika α ≤ 1, varians tidak terdefinisi.)
  • Momen mentah diberikan oleh
  • Fungsi pembangkit momen hanya terdefinisi untuk nilai t tidak positif, yaitu t ≤ 0, dan dinyatakan sebagai
    Dengan demikian, karena nilai harapan tidak konvergen pada suatu selang terbuka yang memuat , fungsi pembangkit momen dikatakan tidak ada.
  • Fungsi karakteristik diberikan oleh dengan Γ(ax) menyatakan fungsi gamma tak lengkap.

Parameter-parameter distribusi ini dapat ditentukan menggunakan metode momen.[9]

Distribusi bersyarat

Distribusi probabilitas bersyarat dari suatu variabel acak berdistribusi Pareto, dengan syarat bahwa nilainya lebih besar atau sama dengan suatu bilangan tertentu  yang melebihi , juga merupakan distribusi Pareto dengan indeks Pareto yang sama , tetapi dengan nilai minimum  sebagai pengganti :

Hal ini menyiratkan bahwa nilai harapan bersyarat (apabila hingga, yakni jika ) berbanding lurus dengan :

Dalam konteks variabel acak yang merepresentasikan umur pakai suatu objek, hasil ini berarti bahwa harapan masa hidup berbanding lurus dengan usia yang telah dicapai. Fenomena ini dikenal sebagai efek Lindy atau Hukum Lindy.[10]

Sebuah teorema karakterisasi

Misalkan adalah variabel acak independen identik terdistribusi yang distribusi peluangnya memiliki dukungan pada selang untuk suatu . Anggap pula bahwa untuk setiap , dua variabel acak dan saling bebas. Maka distribusi bersama tersebut adalah distribusi Pareto.[butuh rujukan]

Rata-rata geometrik

Rata-rata geometrik (G) didefinisikan sebagai[11]

Rata-rata harmonik

Rata-rata harmonik (H) didefinisikan sebagai[11]

Representasi grafis

Distribusi berciri khas 'ekor panjang', apabila diplot pada skala linear, cenderung menyamarkan kesederhanaan bentuk fungsinya. Namun, ketika digambarkan pada grafik log-log, distribusi ini tampak sebagai sebuah garis lurus dengan gradien negatif. Hal ini dapat diturunkan dari rumus fungsi kepekatan probabilitas, yakni untuk xxm,

Karena α bernilai positif, gradien −(α + 1) bersifat negatif.

Distribusi terkait

Distribusi Pareto tergeneralisasi

Terdapat suatu hierarki distribusi Pareto[8][12] yang dikenal sebagai distribusi Pareto Tipe I, II, III, IV, serta distribusi Feller–Pareto.[8][12][13] Distribusi Pareto Tipe IV mencakup Pareto Tipe I–III sebagai kasus-kasus khusus. Sementara itu, distribusi Feller–Pareto[12][14] merupakan generalisasi lebih lanjut dari Pareto Tipe IV.

Pareto Tipe I–IV

Hierarki distribusi Pareto diringkas dalam tabel berikut, dengan membandingkan fungsi survival (CDF komplementer) masing-masing distribusi.

Apabila μ = 0, distribusi Pareto Tipe II juga dikenal sebagai distribusi Lomax.[15]

Dalam bagian ini, simbol xm yang sebelumnya digunakan untuk menyatakan nilai minimum dari x digantikan dengan σ.

Distribusi Pareto
Dukungan Parameter
Tipe I
Tipe II
Lomax
Tipe III
Tipe IV

Parameter bentuk α merupakan indeks ekor, μ adalah parameter lokasi, σ adalah parameter skala, dan γ merupakan parameter ketimpangan. Beberapa kasus khusus dari distribusi Pareto Tipe (IV) adalah sebagai berikut

Keterhinggaan nilai harapan, serta keberadaan dan keterhinggaan varians, bergantung pada indeks ekor α (atau indeks ketimpangan γ). Secara khusus, momen pecahan berorde δ bernilai hingga untuk beberapa δ > 0, sebagaimana ditunjukkan dalam tabel di bawah ini, dengan δ yang tidak harus berupa bilangan bulat.

Momen distribusi Pareto Tipe I–IV (kasus μ = 0)
Kondisi Kondisi
Tipe I
Tipe II
Tipe III
Tipe IV

Distribusi Feller–Pareto

Feller[12][14] mendefinisikan suatu variabel Pareto melalui transformasi U = Y−1 − 1 dari sebuah variabel acak beta, Y, yang fungsi kerapatan probabilitasnya adalah

dengan B( ) menyatakan fungsi beta. Jika

maka W mengikuti distribusi Feller–Pareto FP(μ, σ, γ, γ1, γ2).[8]

Jika dan merupakan variabel Gamma yang saling bebas, maka terdapat konstruksi lain dari variabel Feller–Pareto (FP) sebagai berikut[16]

dan dituliskan W ~ FP(μ, σ, γ, δ1, δ2). Beberapa kasus khusus dari distribusi Feller–Pareto adalah

Kemunculan dan penerapan

Secara umum

Vilfredo Pareto pada awalnya menggunakan distribusi ini untuk menggambarkan pembagian kekayaan di antara individu, karena menurut pengamatannya distribusi tersebut cukup baik mencerminkan kenyataan bahwa sebagian besar kekayaan dalam suatu masyarakat dimiliki oleh persentase kecil penduduknya. Ia juga menerapkannya untuk mendeskripsikan distribusi pendapatan.[4] Gagasan ini kerap diringkas dalam apa yang dikenal sebagai prinsip Pareto atau "aturan 80–20", yang menyatakan bahwa 20% populasi menguasai 80% kekayaan.[17] Sebagaimana dikemukakan Michael Hudson dalam The Collapse of Antiquity, "sebuah konsekuensi matematisnya adalah bahwa 10% penduduk akan memiliki 65% kekayaan, dan 5% akan menguasai setengah dari kekayaan nasional."[18] Namun demikian, aturan 80–20 berkaitan dengan nilai tertentu dari α. Bahkan, data Pareto mengenai pajak penghasilan di Britania Raya dalam Cours d’économie politique menunjukkan bahwa sekitar 30% populasi menguasai kurang lebih 70% pendapatan.[butuh rujukan]

Grafik fungsi kepekatan probabilitas (PDF) yang ditampilkan di awal artikel ini memperlihatkan bahwa "probabilitas", atau proporsi penduduk yang memiliki kekayaan per orang dalam jumlah kecil, relatif besar, lalu menurun secara bertahap seiring dengan meningkatnya kekayaan. (Perlu dicatat bahwa distribusi Pareto kurang realistis untuk menggambarkan kekayaan pada ujung bawah distribusi; dalam kenyataannya, nilai kekayaan bersih bahkan dapat bernilai negatif.) Distribusi ini tidak terbatas pada pemodelan kekayaan atau pendapatan saja, melainkan juga muncul dalam berbagai situasi lain ketika terdapat suatu keseimbangan dalam distribusi ukuran atau magnitudo. Beberapa contoh berikut sering dianggap mendekati distribusi Pareto:

  • Keempat variabel dalam kendala anggaran rumah tangga: konsumsi, pendapatan tenaga kerja, pendapatan modal, dan kekayaan.[19]
  • Ukuran permukiman manusia (sedikit kota besar, banyak dusun atau desa kecil).[20][21]
  • Distribusi ukuran berkas pada lalu lintas Internet yang menggunakan protokol TCP (banyak berkas kecil, sedikit berkas besar).[20]
  • Tingkat kesalahan pada cakram keras.[22]
  • Gugus kondensat Bose-Einstein di dekat suhu nol mutlak.[23]
  • Nilai cadangan minyak pada ladang minyak (sedikit ladang besar, banyak ladang kecil).[20]
  • Distribusi lama waktu pekerjaan yang dijalankan pada superkomputer (sedikit pekerjaan berdurasi sangat panjang, banyak pekerjaan singkat).[24]
  • Imbal hasil harga saham individual yang telah distandardisasi.[20]
  • Ukuran butiran pasir.[20]
  • Ukuran meteorit.
  • Tingkat keparahan kerugian asuransi dengan korban besar untuk jenis usaha tertentu, seperti tanggung gugat umum, kendaraan komersial, dan asuransi kecelakaan kerja.[25][26]
  • Dalam hidrologi, distribusi Pareto digunakan untuk memodelkan peristiwa ekstrem, seperti curah hujan harian maksimum tahunan dan debit sungai. Gambar berwarna biru memperlihatkan contoh pemodelan distribusi Pareto terhadap data curah hujan harian maksimum tahunan yang telah diberi peringkat, sekaligus menampilkan pita kepercayaan 90% berdasarkan distribusi binomial. Data curah hujan direpresentasikan melalui posisi plot sebagai bagian dari analisis frekuensi kumulatif.
  • Keandalan distribusi utilitas listrik (sekitar 80% dari total menit gangguan pelanggan terjadi pada kurang lebih 20% hari dalam satu tahun tertentu).



Referensi

  1. ^ Norton, Matthew; Khokhlov, Valentyn; Uryasev, Stan (2019). "Calculating CVaR and bPOE for common probability distributions with application to portfolio optimization and density estimation" (PDF). Annals of Operations Research. 299 (1–2). Springer: 1281–1315. arXiv:1811.11301. doi:10.1007/s10479-019-03373-1. S2CID 254231768. Diarsipkan dari asli (PDF) tanggal 2023-03-31. Diakses tanggal 2023-02-27.
  2. ^ Amoroso, Luigi (January 1938). "Vilfredo Pareto". Econometrica (Pre-1986). 6 (1).
  3. ^ Pareto, Vilfredo (1898). "Cours d'economie politique". Journal of Political Economy. 6. doi:10.1086/250536.
  4. ^ a b Pareto, Vilfredo, Cours d'Économie Politique: Nouvelle édition par G.-H. Bousquet et G. Busino, Librairie Droz, Geneva, 1964, pp. 299–345. Original book archived
  5. ^ van Montfort, M.A.J. (1986). "The generalized Pareto distribution applied to rainfall depths". Hydrological Sciences Journal. 31 (2): 151–162. Bibcode:1986HydSJ..31..151V. doi:10.1080/02626668609491037.
  6. ^ Oancea, Bogdan (2017). "Income inequality in Romania: The exponential-Pareto distribution". Physica A: Statistical Mechanics and Its Applications. 469: 486–498. Bibcode:2017PhyA..469..486O. doi:10.1016/j.physa.2016.11.094.
  7. ^ Morella, Matteo. "Pareto distribution". academia.edu.
  8. ^ a b c d Arnold, Barry C. (1983). Pareto Distributions. International Co-operative Publishing House. ISBN 978-0-89974-012-6.
  9. ^ S. Hussain, S.H. Bhatti (2018). Parameter estimation of Pareto distribution: Some modified moment estimators. Maejo International Journal of Science and Technology 12(1):11-27.
  10. ^ Eliazar, Iddo (November 2017). "Lindy's Law". Physica A: Statistical Mechanics and Its Applications. 486: 797–805. Bibcode:2017PhyA..486..797E. doi:10.1016/j.physa.2017.05.077. S2CID 125349686.
  11. ^ a b Johnson NL, Kotz S, Balakrishnan N (1994) Continuous univariate distributions Vol 1. Wiley Series in Probability and Statistics.
  12. ^ a b c d Johnson, Kotz, and Balakrishnan (1994), (20.4).
  13. ^ Christian Kleiber & Samuel Kotz (2003). Statistical Size Distributions in Economics and Actuarial Sciences. Wiley. ISBN 978-0-471-15064-0.
  14. ^ a b Feller, W. (1971). An Introduction to Probability Theory and its Applications. Vol. II (Edisi 2nd). New York: Wiley. hlm. 50. "The densities (4.3) are sometimes called after the economist Pareto. It was thought (rather naïvely from a modern statistical standpoint) that income distributions should have a tail with a density ~ Axα as x → ∞".
  15. ^ Lomax, K. S. (1954). "Business failures. Another example of the analysis of failure data". Journal of the American Statistical Association. 49 (268): 847–52. doi:10.1080/01621459.1954.10501239.
  16. ^ Chotikapanich, Duangkamon (16 September 2008). "Chapter 7: Pareto and Generalized Pareto Distributions". Modeling Income Distributions and Lorenz Curves. Springer. hlm. 121–22. ISBN 9780387727967.
  17. ^ For a two-quantile population, where approximately 18% of the population owns 82% of the wealth, the Theil index takes the value 1.
  18. ^ Hudson, Michael (2023). The Collapse of Antiquity. hlm. 85, n. 7.
  19. ^ Gaillard, Alexandre; Hellwig, Christian; Wangner, Philipp; Werquin, Nicolas (2023). "Consumption, Wealth, and Income Inequality: A Tale of Tails". doi:10.2139/ssrn.4636704. SSRN 4636704.
  20. ^ a b c d e Reed, William J.; et al. (2004). "The Double Pareto-Lognormal Distribution – A New Parametric Model for Size Distributions". Communications in Statistics – Theory and Methods. 33 (8): 1733–53. CiteSeerX 10.1.1.70.4555. doi:10.1081/sta-120037438. S2CID 13906086.
  21. ^ Reed, William J. (2002). "On the rank-size distribution for human settlements". Journal of Regional Science. 42 (1): 1–17. Bibcode:2002JRegS..42....1R. doi:10.1111/1467-9787.00247. S2CID 154285730.
  22. ^ Schroeder, Bianca; Damouras, Sotirios; Gill, Phillipa (2010-02-24). "Understanding latent sector error and how to protect against them" (PDF). 8th Usenix Conference on File and Storage Technologies (FAST 2010). Diakses tanggal 2010-09-10. We experimented with 5 different distributions (Geometric, Weibull, Rayleigh, Pareto, and Lognormal), that are commonly used in the context of system reliability, and evaluated their fit through the total squared differences between the actual and hypothesized frequencies (χ2 statistic). We found consistently across all models that the geometric distribution is a poor fit, while the Pareto distribution provides the best fit.
  23. ^ Yuji Ijiri; Simon, Herbert A. (May 1975). "Some Distributions Associated with Bose–Einstein Statistics". Proc. Natl. Acad. Sci. USA. 72 (5): 1654–57. Bibcode:1975PNAS...72.1654I. doi:10.1073/pnas.72.5.1654. PMC 432601. PMID 16578724.
  24. ^ Harchol-Balter, Mor; Downey, Allen (August 1997). "Exploiting Process Lifetime Distributions for Dynamic Load Balancing" (PDF). ACM Transactions on Computer Systems. 15 (3): 253–258. doi:10.1145/263326.263344. S2CID 52861447.
  25. ^ Kleiber and Kotz (2003): p. 94.
  26. ^ Seal, H. (1980). "Survival probabilities based on Pareto claim distributions". ASTIN Bulletin. 11: 61–71. doi:10.1017/S0515036100006620.

Catatan

Pranala luar

Konten ini disalin dari wikipedia, mohon digunakan dengan bijak.

×
Advertisement