tirsdag 23. januar 2007

Pareto og Zipf

Kurva til ein typisk "Long Tail"-distribusjon blir kalla ein Pareto-distribusjon, eller ein Zipf-distribusjon. Den italienske sosiologen og økonomen Vilfredo Pareto studerte økonomisk fordeling i England og fann ut at 20 % av folket eigde over 80 % av midlane. Denne observasjonen, Pareto-prinsippet, vart seinare populært som "80/20"-regelen.

Chris Anderson er inne på at dette faktisk er litt uheldige forholdstal - det får oss til å tenkja på at summen må bli 100. Men det er heilt feil; det er prosentar av ulike størrelsar det er snakk om. Ser vi på ei typisk Pareto/Zipf-distribusjon på nettet, er den kanskje heller 80/10; dvs. dei 10 prosent "best-seljarane" står for 80 % av inntektene. Men ei slik fordeling kan like gjerne vera 90/5 - dvs. 5 % av produkta står for 90 % av inntektene.

George Zipf, språkforskar ved Harvard, gjorde ein annan observasjon med same kurveforløp. Han fann ut at distribusjonen av ord følgjer ei omvendt eksponentiell utvikling (power law) [kva heiter det eigentleg på norsk?]. Han fann at frekvensen av orda var proporsjonal med ein dividert på førekomst-rangeringa (det nest mest brukte ordet 1/2 gang så ofte som det mest brukte, det tredje mest brukte ordet 1/3 så ofte som det mest brukte osv.). Dette blir kalla ein Zipf-distribusjon, eller Zipfs lov.

Dersom ei slik kurve blir plotta på ein dobbel logaritmisk skala (log-log skala), får vi ei rett linje med ei fallande retning.

Wikipedia har elles (som så ofte) ei god forklaring på The Long Tail, i tillegg til grundig omtale av Pareto- og Zipf-distribusjonar.

Ingen kommentarer: