多重検定の問題でp値を計算しすぎると、偶然有意差が出る確率も上がるという話。
極端な例として、以下の条件で試してみました。
1〜6の値がランダムで出る疑似サイコロをAとBの2つ用意する 1ターンにA,Bそれぞれサイコロを振って出た目を記録していく 1ターンごとにt検定を行い有意差が出るか確かめる 何回も繰り返す 普通に考えればAとBは同じサイコロなので有意差は出ないはずです。
疑似サイコロの用意 dieA <- 1:6 sample(dieA, size=1) [1] 5 実行するたびに違う値が出ることを確認
sample(dieA, size=1) [1] 3 実験開始(1ターン目) dieA <- 1:6 dieB <- 1:6 cat("resultA:") resultA <- sample(dieA, size=1) resultA cat("resultB:") resultB <- sample(dieB, size=1) resultB resultA: [1] 4 resultB: [1] 3 t.test(x=resultA,y=resultB,var.equal=T,paired=F) t.test.default(x = resultA, y = resultB, var.equal = T, paired = F) でエラー: 十分な観測値がありません データが一つでは怒られました。
2ターン目 cat("resultA:") resultA<-append(resultA, sample(dieA, size=1)) resultA cat("resultB:") resultB<-append(resultB, sample(dieA, size=1)) resultB resultA: [1] 4 6 resultB: [1] 3 5 t.test(x=resultA,y=resultB,var.equal=T,paired=F) Two Sample t-test data: resultA and resultB t = 0.70711, df = 2, p-value = 0.5528 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -5.08487 7.08487 sample estimates: mean of x mean of y 5 4 有意差は出ませんでした。
...