Frontiers in Physiology25 maja 2026

Cztery modele AI pisały plany treningowe. Claude wygrał z GPT-4o, Grokiem i DeepSeekiem

Cztery duże modele językowe — Claude 3.7, Grok-3, GPT-4o i DeepSeek R1 — rywalizowały w generowaniu planów treningowych dla pacjentów ze schorzeniami przewlekłymi. Najwyższe oceny ekspertów otrzymał Claude 3.7 (50,23 z 60 możliwych punktów), za nim uplasowały się Grok-3 (47,42), GPT-4o (44,02) i DeepSeek R1 (40,30). Badanie opublikowano 25 maja 2026 w czasopiśmie Frontiers in Physiology.

Jak wyglądało badanie

Autorzy z Uniwersytetu Syczuańskiego (Huan Feng, Xiaojun Wang) przygotowali 30 syntetycznych profili pacjentów w wieku 52,3 ± 15,8 lat. Profile uwzględniały typowe schorzenia ograniczające aktywność fizyczną:

nadciśnienie tętnicze (33,3% próby)
choroby układu sercowo-naczyniowego (20%)
cukrzyca typu 2 (26,7%)
zaburzenia narządu ruchu (30%)

Każdy z czterech modeli AI otrzymał te same dane wejściowe i jednorazowo generował plan bez dodatkowych pytań ani korekt. Wygenerowane plany oceniało trzech certyfikowanych specjalistów medycyny sportowej w procedurze zaślepionej, według wytycznych American College of Sports Medicine (ACSM), American Heart Association (AHA) i Światowej Organizacji Zdrowia. Zgodność ocen między ekspertami była bardzo wysoka (ICC 0,94).

Punktacja opierała się na schemacie FITT-VP — sześciu wymiarach przepisu treningowego: częstotliwość, intensywność, czas trwania, rodzaj wysiłku, objętość i progresja. Każdy wymiar od 0 do 10 punktów.

Co konkretnie wyszło

Różnice między modelami okazały się duże i statystycznie istotne. Analiza wariancji wykazała, że wybór modelu wyjaśniał aż 89,6% zmienności wyników (η² = 0,896, p < 0,001).

Model: Claude 3.7 · Wynik średni (± SD): 50,23 ± 1,75
Model: Grok-3 · Wynik średni (± SD): 47,42 ± 1,50
Model: GPT-4o · Wynik średni (± SD): 44,02 ± 1,68
Model: DeepSeek R1 · Wynik średni (± SD): 40,30 ± 1,46

Claude 3.7 wygrywał w każdym z sześciu wymiarów FITT-VP, najwyżej w komponencie czasu trwania (8,69 pkt). GPT-4o miał największe trudności właśnie z czasem trwania (7,41 pkt), a w niektórych przypadkach jego wyniki spadały poniżej 6,0 — czyli plany z wyraźnymi brakami. DeepSeek R1 utrzymywał się stabilnie w przedziale 6,0–7,0, z najsłabszymi ocenami za intensywność i dobór rodzaju wysiłku.

Czego z tego badania nie wolno wyczytać

Autorzy sami wskazują kilka istotnych ograniczeń, o których warto pamiętać:

pacjenci byli syntetyczni — nie testowano modeli na rzeczywistych przypadkach klinicznych
każdy plan generowano jednorazowo, choć modele językowe są niedeterministyczne i kolejne odpowiedzi mogą się różnić
wszyscy oceniający byli z Chin, co może wpływać na interpretację wytycznych
nie sprawdzano, czy pacjenci stosujący się do planu osiągali lepsze wyniki zdrowotne — oceniano wyłącznie jakość samego dokumentu

Druga rzecz: testy przeprowadzono w połowie kwietnia 2025, a producenci modeli wypuszczają od tego czasu nowe wersje (Claude 4 i nowsze, GPT-5, kolejne generacje DeepSeeka). Ranking sprzed ponad roku nie przekłada się wprost na obecne wyniki. Autorzy ujawnili też, że do redakcji manuskryptu używali Claude'a — analizę i wnioski wykonali jednak samodzielnie.

Wniosek praktyczny pozostaje istotny: różnice między najlepszym a najsłabszym modelem to 10 punktów na 60, czyli wyraźna luka jakościowa. AI w generowaniu planów treningowych to dopiero punkt wyjścia do dalszej weryfikacji przez specjalistę, a nie gotowy produkt zastępujący trenera czy fizjoterapeutę.

Źródła: Feng H., Wang X., Comparative performance of four large language models in generating evidence-based exercise prescriptions using FITT-VP framework, Frontiers in Physiology, 25.05.2026, DOI 10.3389/fphys.2026.1846567

Więcej informacji prasowych

2 kwi 2026

Garmin wprowadza Fitness Coach — spersonalizowane plany treningowe napędzane AI na zegarkach

18 mar 2026

Badanie Life Time: 82% osób aktywnych stawia na zdrowie, trening siłowy nr 1

25 kwi 2026

Anthropic przejmuje Coefficient Bio za 400 mln dolarów i rozwija Claude for Life Sciences

7 kwi 2026

Oura Ring mierzy wiek naczyń — badanie z Singapuru potwierdza dokładność