Przeczytasz w 5 min.
Przeczytano 385 razy
Ostatnia aktualizacja 2025-08-29

Apple kontra „myślące” modele AI - co naprawdę pokazuje spór o rozumowanie?

AI: myślenie czy iluzja?

O co poszło: teza Apple i powrót do podstaw oceny modeli

W czerwcu naukowcy Apple opublikowali pracę „The Illusion of Thinking”, w której badali Large Reasoning Models (LRM) nie na zwyczajowych benchmarkach matematycznych, lecz w kontrolowanych środowiskach łamigłówek, gdzie precyzyjnie rośnie złożoność. Wnioski? „Pełne załamanie dokładności” po przekroczeniu pewnego progu trudności oraz paradoksalne spadki długości rozumowania (mniej „kroków myślenia”) przy najtrudniejszych zadaniach — mimo pozostałego budżetu tokenów. To miało podważać wiarę w uogólnione rozumowanie dzisiejszych modeli.

Jakie zadania sprawdzały „myślenie”

Zamiast zadań podatnych na „przypadkowe pamięciówki”, Apple użyło klasyki: Wieża z Hanoi, Blocks World, River Crossing oraz Checkers Jumping. Taki zestaw pozwala skalować złożoność bez zmiany reguł i śledzić strukturę rozumowania, a nie tylko końcową odpowiedź. Wieża z Hanoi wymaga długich sekwencji ruchów, River Crossing — spełniania ograniczeń, Blocks World — planowania przestawiania stosów, a Checkers Jumping — systematycznych przeskoków. 

Które modele były na celowniku?

W raporcie i jego omówieniach pojawiają się m.in. OpenAI o3-mini, Anthropic Claude 3.7 Sonnet (thinking), DeepSeek-R1 i warianty Gemini. Doniesienia prasowe opisują ujednolicony obraz: modele z „myśleniem” radzą sobie lepiej przy średniej złożoności, ale przy wysokiej następuje gwałtowne tąpnięcie skuteczności — często do zera — oraz spadek liczby tokenów w rozumowaniu.

Riposta: tokeny, format odpowiedzi i… niektóre łamigłówki bez rozwiązania

Szybko pojawił się komentarz naukowy „The Illusion of the Illusion of Thinking” (A. Lawsen, współpraca z Claude Opus). Autorzy wskazali trzy rzeczy:
(1) Limity wyjściowych tokenów — np. przy Wieży z Hanoi pełna lista ruchów dla większej liczby krążków nie mieści się w budżecie, więc „załamanie” to często fizyczny sufit długości odpowiedzi, nie brak rozumowania.
(2) Sztywne reguły oceny mylą format/wykonanierozumowaniem (błędna klasyfikacja porażek).
(3) Część wariantów River Crossing miała parametry czyniące je nierozwiązywalnymi, a mimo to liczyły się do statystyki „porażek”.
Co więcej, gdy modele poproszono nie o listę ruchów, lecz o funkcję (np. w Lua) generującą rozwiązanie, przechodziły wcześniej „zabójcze” przypadki. Wniosek: format odpowiedzi bywa decydujący. 

Zwrot akcji: „riposta” była żartem, ale problem jest realny

Sam Alex Lawsen później wyjaśnił, że publikacja miała charakter żartobliwy i zawierała błędy — mimo to wiralowo rozniosła się po sieci i była traktowana jak poważna kontranaliza. To pokazuje, jak łatwo debata o AI ucieka w uproszczenia i jak ważna jest rzetelna metodologia.

Apple kontra „myślące” modele AI - co naprawdę pokazuje spór o rozumowanie? - Zdjęcie wygenerowane przez AIZdjęcie wygenerowane przez AI

Co naprawdę mierzymy: „myślenie” modelu czy zdolność do enumeracji?

Wieża z Hanoi z 15 krążkami to ponad 32 tys. ruchów — nawet idealnie rozumujący system może „polec” na dopisaniu całej sekwencji w ramach jednego wyjścia. Komentatorzy zwracają uwagę, że „spadek liczby tokenów” przy wysokiej złożoności nie musi oznaczać „poddania się”, lecz świadomy skrót: opisanie schematu, podanie algorytmu lub zaproponowanie kodu generującego rozwiązanie. Z perspektywy użytkowej to bywa bardziej sensowne niż wypisywanie tysięcy kroków.

Jak testować modele w praktyce? Lekcje dla zespołów data & AI

Po pierwsze: definiuj format odpowiedzi pod cel. Jeśli liczy się rozwiązanie, dopuść algorytm/kod lub opis procedury, a nie tylko „krok po kroku”.
Po drugie: sprawdzaj ograniczenia techniczne. Budżet tokenów (kontekst + wyjście) i czas wnioskowania realnie ograniczają to, co model może wypisać.
Po trzecie: weryfikuj rozwiązywalność. Zanim policzysz „porażki”, sprawdź, czy przypadki mają rozwiązanie (w łamigłówkach i w biznesie).
Po czwarte: oceniaj sens działania. Rozumowanie użyteczne to często dobór właściwego narzędzia (np. wygenerowanie skryptu) zamiast literalnej enumeracji.
Po piąte: porównuj z alternatywami. W zadaniach wielokrokowychz ograniczeniami równie ważne, co „myślenie”, bywa planowanie, wyszukiwanienarzędzia pomocnicze (kod, solver, baza wiedzy).

Wniosek: mniej deklaracji, więcej precyzyjnej ewaluacji

Spór o to, czy AI „myśli”, odsłonił coś ważniejszego: mierniki często mówią tyleż o modelach, co o sposobie testowania. Praca Apple wybiła na światło dzienne granice dzisiejszych LRMs w długich, czułych na format sekwencjach; riposta (nawet jeśli zrodzona z żartu) pokazała, że zmiana reprezentacji odpowiedzi potrafi przywrócić skuteczność. Prawda leży w metodzie: projektując testy, precyzuj cel, formatograniczenia — bo od nich zależy, czy zobaczysz iluzję, czy zdolność.

Czytaj także:

Podstawy SEO dla małych firm, czyli jak zyskać klientów z sieci?

Podstawy SEO dla małych firm, czyli jak zyskać klientów z

Czym jest SEO i dlaczego jest kluczowe do skutecznego prowadzenia b

Więcej
Czym jest UX i jakie korzyści niesie dla Twojego biznesu?

Czym jest UX i jakie korzyści niesie dla Twojego biznesu?

Jeśli chcesz rozwijać firmę i pozyskiwać klientów w Internecie twoj

Więcej
Legrand partnerem nowej edycji grywalizacji

Legrand partnerem nowej edycji grywalizacji

Legrand to światowy lider, produkujący osprzęt elektroinstalacyjny

Więcej
Poziom promieniowania elektromagnetycznego w Polsce - dane GIOŚ

Poziom promieniowania elektromagnetycznego w Polsce - dan

Regularne pomiary Głównego Inspektoratu Ochrony Środowiska potwierd

Więcej
Clone – pierwszy na świecie humanoidalny robot z mięśniami i sztuczną krwią

Clone – pierwszy na świecie humanoidalny robot z mięśniam

Clone to przełomowy robot humanoidalny, który odwzorowuje ludzkie c

Więcej
Nowy przemysłowy gigant w Polsce. W Zawierciu powstaje zakład przetwarzania metali o znaczeniu strategicznym

Nowy przemysłowy gigant w Polsce. W Zawierciu powstaje za

W Zawierciu rusza największa inwestycja typu greenfield w Polsce. Z

Więcej