Przeczytasz w 5 min.
Przeczytano 571 razy
Ostatnia aktualizacja 2025-08-29

Apple kontra „myślące” modele AI - co naprawdę pokazuje spór o rozumowanie?

AI: myślenie czy iluzja?

O co poszło: teza Apple i powrót do podstaw oceny modeli

W czerwcu naukowcy Apple opublikowali pracę „The Illusion of Thinking”, w której badali Large Reasoning Models (LRM) nie na zwyczajowych benchmarkach matematycznych, lecz w kontrolowanych środowiskach łamigłówek, gdzie precyzyjnie rośnie złożoność. Wnioski? „Pełne załamanie dokładności” po przekroczeniu pewnego progu trudności oraz paradoksalne spadki długości rozumowania (mniej „kroków myślenia”) przy najtrudniejszych zadaniach — mimo pozostałego budżetu tokenów. To miało podważać wiarę w uogólnione rozumowanie dzisiejszych modeli.

Jakie zadania sprawdzały „myślenie”

Zamiast zadań podatnych na „przypadkowe pamięciówki”, Apple użyło klasyki: Wieża z Hanoi, Blocks World, River Crossing oraz Checkers Jumping. Taki zestaw pozwala skalować złożoność bez zmiany reguł i śledzić strukturę rozumowania, a nie tylko końcową odpowiedź. Wieża z Hanoi wymaga długich sekwencji ruchów, River Crossing — spełniania ograniczeń, Blocks World — planowania przestawiania stosów, a Checkers Jumping — systematycznych przeskoków. 

Które modele były na celowniku?

W raporcie i jego omówieniach pojawiają się m.in. OpenAI o3-mini, Anthropic Claude 3.7 Sonnet (thinking), DeepSeek-R1 i warianty Gemini. Doniesienia prasowe opisują ujednolicony obraz: modele z „myśleniem” radzą sobie lepiej przy średniej złożoności, ale przy wysokiej następuje gwałtowne tąpnięcie skuteczności — często do zera — oraz spadek liczby tokenów w rozumowaniu.

Riposta: tokeny, format odpowiedzi i… niektóre łamigłówki bez rozwiązania

Szybko pojawił się komentarz naukowy „The Illusion of the Illusion of Thinking” (A. Lawsen, współpraca z Claude Opus). Autorzy wskazali trzy rzeczy:
(1) Limity wyjściowych tokenów — np. przy Wieży z Hanoi pełna lista ruchów dla większej liczby krążków nie mieści się w budżecie, więc „załamanie” to często fizyczny sufit długości odpowiedzi, nie brak rozumowania.
(2) Sztywne reguły oceny mylą format/wykonanierozumowaniem (błędna klasyfikacja porażek).
(3) Część wariantów River Crossing miała parametry czyniące je nierozwiązywalnymi, a mimo to liczyły się do statystyki „porażek”.
Co więcej, gdy modele poproszono nie o listę ruchów, lecz o funkcję (np. w Lua) generującą rozwiązanie, przechodziły wcześniej „zabójcze” przypadki. Wniosek: format odpowiedzi bywa decydujący. 

Zwrot akcji: „riposta” była żartem, ale problem jest realny

Sam Alex Lawsen później wyjaśnił, że publikacja miała charakter żartobliwy i zawierała błędy — mimo to wiralowo rozniosła się po sieci i była traktowana jak poważna kontranaliza. To pokazuje, jak łatwo debata o AI ucieka w uproszczenia i jak ważna jest rzetelna metodologia.

Apple kontra „myślące” modele AI - co naprawdę pokazuje spór o rozumowanie? - Zdjęcie wygenerowane przez AIZdjęcie wygenerowane przez AI

Co naprawdę mierzymy: „myślenie” modelu czy zdolność do enumeracji?

Wieża z Hanoi z 15 krążkami to ponad 32 tys. ruchów — nawet idealnie rozumujący system może „polec” na dopisaniu całej sekwencji w ramach jednego wyjścia. Komentatorzy zwracają uwagę, że „spadek liczby tokenów” przy wysokiej złożoności nie musi oznaczać „poddania się”, lecz świadomy skrót: opisanie schematu, podanie algorytmu lub zaproponowanie kodu generującego rozwiązanie. Z perspektywy użytkowej to bywa bardziej sensowne niż wypisywanie tysięcy kroków.

Jak testować modele w praktyce? Lekcje dla zespołów data & AI

Po pierwsze: definiuj format odpowiedzi pod cel. Jeśli liczy się rozwiązanie, dopuść algorytm/kod lub opis procedury, a nie tylko „krok po kroku”.
Po drugie: sprawdzaj ograniczenia techniczne. Budżet tokenów (kontekst + wyjście) i czas wnioskowania realnie ograniczają to, co model może wypisać.
Po trzecie: weryfikuj rozwiązywalność. Zanim policzysz „porażki”, sprawdź, czy przypadki mają rozwiązanie (w łamigłówkach i w biznesie).
Po czwarte: oceniaj sens działania. Rozumowanie użyteczne to często dobór właściwego narzędzia (np. wygenerowanie skryptu) zamiast literalnej enumeracji.
Po piąte: porównuj z alternatywami. W zadaniach wielokrokowychz ograniczeniami równie ważne, co „myślenie”, bywa planowanie, wyszukiwanienarzędzia pomocnicze (kod, solver, baza wiedzy).

Wniosek: mniej deklaracji, więcej precyzyjnej ewaluacji

Spór o to, czy AI „myśli”, odsłonił coś ważniejszego: mierniki często mówią tyleż o modelach, co o sposobie testowania. Praca Apple wybiła na światło dzienne granice dzisiejszych LRMs w długich, czułych na format sekwencjach; riposta (nawet jeśli zrodzona z żartu) pokazała, że zmiana reprezentacji odpowiedzi potrafi przywrócić skuteczność. Prawda leży w metodzie: projektując testy, precyzuj cel, formatograniczenia — bo od nich zależy, czy zobaczysz iluzję, czy zdolność.

Czytaj także:

Relpol partnerem nowej edycji grywalizacji

Relpol partnerem nowej edycji grywalizacji

Relpol SA to polski producent przekaźników z ponad 60 letnią tradyc

Więcej
Sylwestrowa noc w branży elektrycznej

Sylwestrowa noc w branży elektrycznej

Sylwestrowa noc to nie tylko świętowanie, ale też czas wzmożonej pr

Więcej
NLWeb – nowy język sieci tworzony z myślą o AI

NLWeb – nowy język sieci tworzony z myślą o AI

Nowy otwarty standard NLWeb, który może zrewolucjonizować sposób ko

Więcej
Płatności przyszłości - co nas czeka po erze telefonów komórkowych?

Płatności przyszłości - co nas czeka po erze telefonów ko

Obchodzimy Dzień bez Telefonu Komórkowego. To dobry moment, by przy

Więcej
Co to jest A-Textile i jak działa?

Co to jest A-Textile i jak działa?

Tkanina A-Textile to nowa generacja inteligentnych materiałów, któr

Więcej
Orange uruchamia SMS przez satelitę. Czy usługa trafi także do Polski?

Orange uruchamia SMS przez satelitę. Czy usługa trafi tak

Orange uruchamia usługę Message Satellite, która pozwala wysyłać i 

Więcej