Cztery modele AI pisały plany treningowe. Claude wygrał z GPT-4o, Grokiem i DeepSeekiem
Cztery duże modele językowe — Claude 3.7, Grok-3, GPT-4o i DeepSeek R1 — rywalizowały w generowaniu planów treningowych dla pacjentów ze schorzeniami przewlekłymi. Najwyższe oceny ekspertów otrzymał Claude 3.7 (50,23 z 60 możliwych punktów), za nim uplasowały się Grok-3 (47,42), GPT-4o (44,02) i DeepSeek R1 (40,30). Badanie opublikowano 25 maja 2026 w czasopiśmie Frontiers in Physiology.
Jak wyglądało badanie
Autorzy z Uniwersytetu Syczuańskiego (Huan Feng, Xiaojun Wang) przygotowali 30 syntetycznych profili pacjentów w wieku 52,3 ± 15,8 lat. Profile uwzględniały typowe schorzenia ograniczające aktywność fizyczną:
- nadciśnienie tętnicze (33,3% próby)
- choroby układu sercowo-naczyniowego (20%)
- cukrzyca typu 2 (26,7%)
- zaburzenia narządu ruchu (30%)
Każdy z czterech modeli AI otrzymał te same dane wejściowe i jednorazowo generował plan bez dodatkowych pytań ani korekt. Wygenerowane plany oceniało trzech certyfikowanych specjalistów medycyny sportowej w procedurze zaślepionej, według wytycznych American College of Sports Medicine (ACSM), American Heart Association (AHA) i Światowej Organizacji Zdrowia. Zgodność ocen między ekspertami była bardzo wysoka (ICC 0,94).
Punktacja opierała się na schemacie FITT-VP — sześciu wymiarach przepisu treningowego: częstotliwość, intensywność, czas trwania, rodzaj wysiłku, objętość i progresja. Każdy wymiar od 0 do 10 punktów.
Co konkretnie wyszło
Różnice między modelami okazały się duże i statystycznie istotne. Analiza wariancji wykazała, że wybór modelu wyjaśniał aż 89,6% zmienności wyników (η² = 0,896, p < 0,001).
- Model: Claude 3.7 · Wynik średni (± SD): 50,23 ± 1,75
- Model: Grok-3 · Wynik średni (± SD): 47,42 ± 1,50
- Model: GPT-4o · Wynik średni (± SD): 44,02 ± 1,68
- Model: DeepSeek R1 · Wynik średni (± SD): 40,30 ± 1,46
Claude 3.7 wygrywał w każdym z sześciu wymiarów FITT-VP, najwyżej w komponencie czasu trwania (8,69 pkt). GPT-4o miał największe trudności właśnie z czasem trwania (7,41 pkt), a w niektórych przypadkach jego wyniki spadały poniżej 6,0 — czyli plany z wyraźnymi brakami. DeepSeek R1 utrzymywał się stabilnie w przedziale 6,0–7,0, z najsłabszymi ocenami za intensywność i dobór rodzaju wysiłku.
Czego z tego badania nie wolno wyczytać
Autorzy sami wskazują kilka istotnych ograniczeń, o których warto pamiętać:
- pacjenci byli syntetyczni — nie testowano modeli na rzeczywistych przypadkach klinicznych
- każdy plan generowano jednorazowo, choć modele językowe są niedeterministyczne i kolejne odpowiedzi mogą się różnić
- wszyscy oceniający byli z Chin, co może wpływać na interpretację wytycznych
- nie sprawdzano, czy pacjenci stosujący się do planu osiągali lepsze wyniki zdrowotne — oceniano wyłącznie jakość samego dokumentu
Druga rzecz: testy przeprowadzono w połowie kwietnia 2025, a producenci modeli wypuszczają od tego czasu nowe wersje (Claude 4 i nowsze, GPT-5, kolejne generacje DeepSeeka). Ranking sprzed ponad roku nie przekłada się wprost na obecne wyniki. Autorzy ujawnili też, że do redakcji manuskryptu używali Claude'a — analizę i wnioski wykonali jednak samodzielnie.
Wniosek praktyczny pozostaje istotny: różnice między najlepszym a najsłabszym modelem to 10 punktów na 60, czyli wyraźna luka jakościowa. AI w generowaniu planów treningowych to dopiero punkt wyjścia do dalszej weryfikacji przez specjalistę, a nie gotowy produkt zastępujący trenera czy fizjoterapeutę.
Źródła: Feng H., Wang X., Comparative performance of four large language models in generating evidence-based exercise prescriptions using FITT-VP framework, Frontiers in Physiology, 25.05.2026, DOI 10.3389/fphys.2026.1846567
Więcej informacji prasowych
2 kwi 2026
Garmin wprowadza Fitness Coach — spersonalizowane plany treningowe napędzane AI na zegarkach
18 mar 2026
Badanie Life Time: 82% osób aktywnych stawia na zdrowie, trening siłowy nr 1
25 kwi 2026
Anthropic przejmuje Coefficient Bio za 400 mln dolarów i rozwija Claude for Life Sciences
7 kwi 2026
Oura Ring mierzy wiek naczyń — badanie z Singapuru potwierdza dokładność
7 kwi 2026