Apple kontra „myślące” modele AI - co naprawdę pokazuje spór o rozumowanie?

O co poszło: teza Apple i powrót do podstaw oceny modeli

W czerwcu naukowcy Apple opublikowali pracę „The Illusion of Thinking”, w której badali Large Reasoning Models (LRM) nie na zwyczajowych benchmarkach matematycznych, lecz w kontrolowanych środowiskach łamigłówek, gdzie precyzyjnie rośnie złożoność. Wnioski? „Pełne załamanie dokładności” po przekroczeniu pewnego progu trudności oraz paradoksalne spadki długości rozumowania (mniej „kroków myślenia”) przy najtrudniejszych zadaniach — mimo pozostałego budżetu tokenów. To miało podważać wiarę w uogólnione rozumowanie dzisiejszych modeli.

Jakie zadania sprawdzały „myślenie”

Zamiast zadań podatnych na „przypadkowe pamięciówki”, Apple użyło klasyki: Wieża z Hanoi, Blocks World, River Crossing oraz Checkers Jumping. Taki zestaw pozwala skalować złożoność bez zmiany reguł i śledzić strukturę rozumowania, a nie tylko końcową odpowiedź. Wieża z Hanoi wymaga długich sekwencji ruchów, River Crossing — spełniania ograniczeń, Blocks World — planowania przestawiania stosów, a Checkers Jumping — systematycznych przeskoków.

Które modele były na celowniku?

W raporcie i jego omówieniach pojawiają się m.in. OpenAI o3-mini, Anthropic Claude 3.7 Sonnet (thinking), DeepSeek-R1 i warianty Gemini. Doniesienia prasowe opisują ujednolicony obraz: modele z „myśleniem” radzą sobie lepiej przy średniej złożoności, ale przy wysokiej następuje gwałtowne tąpnięcie skuteczności — często do zera — oraz spadek liczby tokenów w rozumowaniu.

Riposta: tokeny, format odpowiedzi i… niektóre łamigłówki bez rozwiązania

Szybko pojawił się komentarz naukowy „The Illusion of the Illusion of Thinking” (A. Lawsen, współpraca z Claude Opus). Autorzy wskazali trzy rzeczy:
(1) Limity wyjściowych tokenów — np. przy Wieży z Hanoi pełna lista ruchów dla większej liczby krążków nie mieści się w budżecie, więc „załamanie” to często fizyczny sufit długości odpowiedzi, nie brak rozumowania.
(2) Sztywne reguły oceny mylą format/wykonanie z rozumowaniem (błędna klasyfikacja porażek).
(3) Część wariantów River Crossing miała parametry czyniące je nierozwiązywalnymi, a mimo to liczyły się do statystyki „porażek”.
Co więcej, gdy modele poproszono nie o listę ruchów, lecz o funkcję (np. w Lua) generującą rozwiązanie, przechodziły wcześniej „zabójcze” przypadki. Wniosek: format odpowiedzi bywa decydujący.

Zwrot akcji: „riposta” była żartem, ale problem jest realny

Sam Alex Lawsen później wyjaśnił, że publikacja miała charakter żartobliwy i zawierała błędy — mimo to wiralowo rozniosła się po sieci i była traktowana jak poważna kontranaliza. To pokazuje, jak łatwo debata o AI ucieka w uproszczenia i jak ważna jest rzetelna metodologia.

Apple kontra „myślące” modele AI - co naprawdę pokazuje spór o rozumowanie? - Zdjęcie wygenerowane przez AI Zdjęcie wygenerowane przez AI

Co naprawdę mierzymy: „myślenie” modelu czy zdolność do enumeracji?

Wieża z Hanoi z 15 krążkami to ponad 32 tys. ruchów — nawet idealnie rozumujący system może „polec” na dopisaniu całej sekwencji w ramach jednego wyjścia. Komentatorzy zwracają uwagę, że „spadek liczby tokenów” przy wysokiej złożoności nie musi oznaczać „poddania się”, lecz świadomy skrót: opisanie schematu, podanie algorytmu lub zaproponowanie kodu generującego rozwiązanie. Z perspektywy użytkowej to bywa bardziej sensowne niż wypisywanie tysięcy kroków.

Jak testować modele w praktyce? Lekcje dla zespołów data & AI

Po pierwsze: definiuj format odpowiedzi pod cel. Jeśli liczy się rozwiązanie, dopuść algorytm/kod lub opis procedury, a nie tylko „krok po kroku”.
Po drugie: sprawdzaj ograniczenia techniczne. Budżet tokenów (kontekst + wyjście) i czas wnioskowania realnie ograniczają to, co model może wypisać.
Po trzecie: weryfikuj rozwiązywalność. Zanim policzysz „porażki”, sprawdź, czy przypadki mają rozwiązanie (w łamigłówkach i w biznesie).
Po czwarte: oceniaj sens działania. Rozumowanie użyteczne to często dobór właściwego narzędzia (np. wygenerowanie skryptu) zamiast literalnej enumeracji.
Po piąte: porównuj z alternatywami. W zadaniach wielokrokowych i z ograniczeniami równie ważne, co „myślenie”, bywa planowanie, wyszukiwanie i narzędzia pomocnicze (kod, solver, baza wiedzy).

Wniosek: mniej deklaracji, więcej precyzyjnej ewaluacji

Spór o to, czy AI „myśli”, odsłonił coś ważniejszego: mierniki często mówią tyleż o modelach, co o sposobie testowania. Praca Apple wybiła na światło dzienne granice dzisiejszych LRMs w długich, czułych na format sekwencjach; riposta (nawet jeśli zrodzona z żartu) pokazała, że zmiana reprezentacji odpowiedzi potrafi przywrócić skuteczność. Prawda leży w metodzie: projektując testy, precyzuj cel, format i ograniczenia — bo od nich zależy, czy zobaczysz iluzję, czy zdolność.

Schneider Electric

269

Odpowiedzi

307

Ocen

SIEMENS

161

Odpowiedzi

404

Ocen

F&F

245

Odpowiedzi

206

Ocen

BleBox

Odpowiedzi

208

Ocen

Phoenix Contact

Odpowiedzi

184

Ocen

automatyka pollin

Odpowiedzi

113

Ocen

ELKO-BIS Systemy Odgromowe

Odpowiedzi

Ocen

Zamel

Odpowiedzi

Ocen

Hager

Odpowiedzi

Ocen

WAGO

Odpowiedzi

Ocen

artel electric

2326

Odpowiedzi

2633

Ocen

Zhandos62

1256

Odpowiedzi

791

Ocen

Szymon028

1199

Odpowiedzi

634

Ocen

Maras324

1045

Odpowiedzi

544

Ocen

Pysiak

1112

Odpowiedzi

371

Ocen

Sebastian Łyźniak

867

Odpowiedzi

587

Ocen

Bartłomiej Jaworski

493

Odpowiedzi

917

Ocen

Pawel02

905

Odpowiedzi

367

Ocen

boss

532

Odpowiedzi

714

Ocen

DawidZak

767

Odpowiedzi

240

Ocen

	Sławomir Lesiak Ekspert Elektronik - telekomunikacja	Zadaj pytanie
	Tomasz Brzostowski Ekspert ds. fotowoltaiki	Zadaj pytanie
	Piotr Bibik Ekspert ds. Inteligentnych budynków, Salama Piotr Bibik	Zadaj pytanie
	Bartłomiej Jaworski Ekspert	Zadaj pytanie
	Krystian Czerkas Ekspert Product Manager	Zadaj pytanie
	Jacek Niżyński Ekspert Elektromechanik, mechanik	Zadaj pytanie
	Redakcja Ekspert ds. prądu	Zadaj pytanie
	Krzysztof Stelęgowski Ekspert	Zadaj pytanie
	EL-ROJ Ekspert Automatyk/Elektryk/Manager	Zadaj pytanie
	Mariusz Pajkowski Ekspert	Zadaj pytanie
	Grzegorz Chudzik Ekspert	Zadaj pytanie
	Łukasz Bronicz Ekspert ds. technologii komputerowych	Zadaj pytanie
	Łukasz Barton Ekspert Elektryk	Zadaj pytanie
	Dariusz Placek Ekspert mgr inż. elektronik i informatyk, Hager Polska Sp. z o.o.	Zadaj pytanie
	Aleksander NKT Ekspert	Zadaj pytanie
	Tomasz Salak Ekspert	Zadaj pytanie
	Michał Szulborski Ekspert ETI - Dr inż. w dziedzinie Aparatów Elektrycznych / Senior R&D Scientist / Product Manager	Zadaj pytanie
	Ekspert ABB Ekspert, ABB	Zadaj pytanie
	Tomasz Dźwigała Ekspert Menadżer Produktu, TIM SA	Zadaj pytanie
	Damian Czernik Ekspert ds. instalacji OZE	Zadaj pytanie
	Piotr Muskała Ekspert Specjalista ds prezentacji	Zadaj pytanie
	Kancelaria Prawna CKC Solution Ekspert Prawnik	Zadaj pytanie
	Marcin Nowicki Ekspert mgr. inż. elektryk, TIM SA	Zadaj pytanie
	Renata Januszewska Ekspert Inżynieria bezpieczeństwa	Zadaj pytanie
	Adam Włastowski Ekspert	Zadaj pytanie
	Daniel Michalik Ekspert Elektryk	Zadaj pytanie
	Tomasz Kowalski Ekspert Elektryk	Zadaj pytanie
	Damian Chróściński Ekspert	Zadaj pytanie
	Michał Cichosz Ekspert Menadżer Produktu, TIM S.A	Zadaj pytanie
	Norbert Kiszka Ekspert ds. zabezpieczeń	Zadaj pytanie
	Infidel12345 Ekspert	Zadaj pytanie
	Moderator Zbigniew Ekspert Początkujący	Zadaj pytanie
	Łukasz Nowak Ekspert ds. automatyki budynkowej	Zadaj pytanie
	Polska Izba Gospodarcza Elektrotechniki Ekspert ds. normalizacji	Zadaj pytanie
	BOWWE Ekspert ds. rozwoju biznesu w sektorze online i technologii komputerowych	Zadaj pytanie
	Mariusz Borowy Ekspert ds. remontu starej chaty	Zadaj pytanie
	Stanisław Rak Ekspert P&PM	Zadaj pytanie
	Artur Dudek Ekspert	Zadaj pytanie
	DanielM Ekspert	Zadaj pytanie
	Przemysław Szafrański Ekspert	Zadaj pytanie
	Karol Ekspert Elektryk	Zadaj pytanie
	Magdalena Gierczuk Ekspert ds. przytulnych wnętrz	Zadaj pytanie
	Maciej Jońca Ekspert ds. automatyki budynkowej	Zadaj pytanie
	Roman Godlewski Ekspert Elektryk	Zadaj pytanie
	Michał Patryka Ekspert Elektryk	Zadaj pytanie
	Sandra Wiśniewska Ekspert ds. wnętrzarskich detali	Zadaj pytanie
	Paweł Sekuła Ekspert Instalator	Zadaj pytanie
	Jaroslaw Wiater Ekspert	Zadaj pytanie
	Marcin Pełech Ekspert	Zadaj pytanie

Apple kontra „myślące” modele AI - co naprawdę pokazuje spór o rozumowanie?

O co poszło: teza Apple i powrót do podstaw oceny modeli

Jakie zadania sprawdzały „myślenie”

Które modele były na celowniku?

Riposta: tokeny, format odpowiedzi i… niektóre łamigłówki bez rozwiązania

Zwrot akcji: „riposta” była żartem, ale problem jest realny

Co naprawdę mierzymy: „myślenie” modelu czy zdolność do enumeracji?

Jak testować modele w praktyce? Lekcje dla zespołów data & AI

Wniosek: mniej deklaracji, więcej precyzyjnej ewaluacji

Komentarze (0)

Czytaj także:

Relpol partnerem nowej edycji grywalizacji

Sylwestrowa noc w branży elektrycznej

NLWeb – nowy język sieci tworzony z myślą o AI

Płatności przyszłości - co nas czeka po erze telefonów ko

Co to jest A-Textile i jak działa?

Orange uruchamia SMS przez satelitę. Czy usługa trafi tak

O projekcie

Kontakt

Kategorie