fitinfo
Słownik A-Z

Istotność statystyczna

wartość ppoziom istotnościp-value

Wynik badania jest istotny statystycznie, gdy szansa na to, że pojawił się przypadkiem, jest mała — zwykle poniżej 5% (p < 0,05). To kryterium odsiewu, nie miara siły efektu.

Czym właściwie jest wartość p

W każdym badaniu naukowym punktem wyjścia jest tzw. hipoteza zerowa — założenie, że badana interwencja (suplement, protokół treningowy, dieta) nic nie zmienia. Wartość p odpowiada na bardzo wąskie pytanie: „Gdyby hipoteza zerowa była prawdziwa, jakie jest prawdopodobieństwo, że uzyskalibyśmy wynik tak skrajny jak nasz, lub jeszcze bardziej skrajny, wyłącznie przez przypadek?".

Umowny próg p < 0,05 oznacza, że taka sytuacja zdarzyłaby się rzadziej niż raz na dwadzieścia powtórzeń badania. Nauka uznała to za wystarczająco rzadkie, by stwierdzić: „efekt prawdopodobnie istnieje". W medycynie i farmakologii bywa stosowany surowszy próg (p < 0,01), w fizyce cząstek wręcz astronomicznie niski (p < 0,0000003).

Serwis, który zna Ciebie

Twoje dane, Twoje treści. Podłącz zegarek i zobacz spersonalizowane artykuły.

Co bardzo ważne — wartość p NIE mówi, jak duży jest efekt ani jak istotny klinicznie. Mówi tylko, czy w ogóle jest powód, by uznać go za realny.

Istotność statystyczna to nie to samo co znaczenie praktyczne

To rozróżnienie jest kluczowe przy czytaniu badań fitness i suplementacji. Można uzyskać wynik istotny statystycznie, który jest praktycznie bezużyteczny, i odwrotnie.

Przykład: badanie na 2000 osobach pokazuje, że suplement zwiększa wytrzymałość o 0,4% (p < 0,01). Wynik jest „istotny statystycznie" — przy tak dużej próbie nawet drobne różnice osiągają niskie p. Ale 0,4% to różnica między biegiem maratonu w 4:00:00 a 3:59:02. W praktyce — nieistotna.

Druga strona medalu: małe badanie na 12 osobach pokazuje, że nowy protokół treningowy zwiększa siłę o 25%, ale p = 0,12. Statystycznie nieistotne — czyli nie mamy pewności, że to nie przypadek. Ale efekt jest na tyle duży, że warto powtórzyć badanie na większej grupie.

Dlatego współczesne publikacje obok p coraz częściej podają wielkość efektu (effect size) — np. współczynnik d Cohena lub procentową zmianę z przedziałem ufności.

Jak czytać wyniki badań w fitness

Praktyczna lista kontrolna przy ocenie nagłówka „badanie pokazuje, że X działa":

  • Sprawdź wielkość próby. Badanie na 10 osobach ma ograniczoną moc — nawet realny efekt może nie osiągnąć p < 0,05.
  • Szukaj wielkości efektu, nie tylko p. Pytanie „o ile więcej?" jest ważniejsze niż „czy w ogóle?".
  • Zwróć uwagę na przedział ufności. Jeśli 95% CI dla przyrostu siły wynosi od +1% do +20%, to wiemy bardzo niewiele o prawdziwej skali efektu.
  • Sprawdź, czy wynik został powtórzony. Pojedyncze badanie z p = 0,049 to słaby dowód. Trzy niezależne badania z podobnym efektem to mocna podstawa.

Najczęstsze pułapki interpretacyjne

Granica p < 0,05 jest umowna, a nie magiczna — wynik p = 0,049 i p = 0,051 niosą praktycznie tę samą informację. Mimo to publikacje często traktują je skrajnie odmiennie, co prowadzi do zjawiska zwanego p-hackingiem: dopasowywania analiz tak, by przekroczyły próg.

Druga pułapka to mylenie braku istotności z dowodem braku efektu. „p > 0,05" nie znaczy „suplement nie działa" — znaczy „w tym badaniu nie zebraliśmy wystarczających dowodów, by stwierdzić, że działa". To różnica fundamentalna.

Wniosek dla praktyka: traktuj istotność statystyczną jako filtr wstępny, nie jako wyrok. Realna wartość badania kryje się w wielkości efektu, jakości metodologii i powtarzalności wyników.