<續前>
現在思考一下,極限值 $p\to 0$ 和 $N\to\infty$, 但是 $pN = \nu$ 的值卻維持不變。
在這個例子,v 是"成功"的期望值,或是在一大量資料集合中的任一事件出現相對低的頻率。 v 是單一參數, 稱為帕松分布(Poisson distribution)平均值,這個分布描述許多現象,包括許多社群資料的變數。
- 來自消防局的一小時間的tweet數量 $\longrightarrow $ 大量的 N
- 使用者位置 = "Boulder, Colorado, United States"的機率 $\longrightarrow$ 少量的 $p$
所以,平均值 v 的帕松分布(Poisson distribution) 將用於描述,在一個大樣本中,使用者位置 = "Boulder, Colorado, United States"的tweet的數量
帕松分布的函數為 :
$P(k;\nu) = \frac{\nu^k e^{-\nu}}{k!}$
讓我們來檢視分布的形狀 :
nu = 3 # Poisson mean...the most likely value
n = nu*3 # this simply sets a range; it is not a parameter of the distribution
k = scipy.linspace(0,n,n+1) # create bins
pmf = scipy.stats.poisson.pmf(k,nu)
plt.bar(k,pmf)
注意事項 :
- 這個分布是一個離散變數函數
- 這個分布有一個連續參數(continuous parameter)
- 對於少量 v 這個分布是不對稱的
- 對於大量 v 這個分布有變成對稱
結論 : 帕松分布(Poisson distribution) 可以被期望用來展示在一大量試驗中觀察到稀有事件的次數
假設檢定(Hypothesis Tests) 和 p-值(p-values)
科學方法的題外話
科學方法並沒有證明一個假設是正確的(true/correct)。相反的,假設被和假設不一致的實驗結果推翻。
在許多科學領域,一致或不一致是離散狀態。在統計參與的系統下,事情更複雜。我們必須定義甚麼程度下的不一致被視爲推翻假設。
假設類型
要量化測試一個假設,我們需要量化的假設和一些資料。
假設範例 :
- 使用者位置 = "Boulder, Colorado, United States"的 tweets 的比率是帕松分布(Poisson distribution),且平均值是 4.5/小時
- 使用者位置 = "Boulder, Colorado, United States"的 tweets 的比率是帕松分布(Poisson distribution),且平均值是 4.5/10k tweets
- 在過去1小時 提到 @ 多於1000次的 Twitter 使用者人數是常態分佈且平均值是 301,變異數是 200。