o3: zamyšlení nad myslícími modely

Nedávno vzbudil rozruch myslící model od OpenAI s názvem o3. Zaujal hlavně skvělým skóre v benchmarku ARC. Podle některých se dokonce jedná o AGI. 

Je tento model vážně tak úžasný? 

Myslím, že jde o přelomový model v tom smyslu, že není určený pro „běžné prompty“, které mají hlavně ušetřit čas lidem, ale je určený spíše pro skutečně těžké problémy, se kterými si lidé a mnohdy ani odborníci neví rady. To samo o sobě vypovídá o vysoké inteligenci tohoto modelu. 

Model se vyrovnává lidským odborníkům hlavně v úkolech, jako je psaní kódu nebo vědecké uvažování. Pro každodenní využití asi není moc vhodný.

Pokud pro model využití najdete, odradit Vás může vysoká cena. Ta je výrazným negativním rysem tohoto modelu, na který se možná trochu zapomnělo, i když OpenAI cenu uvedla v grafu.

V nejlevnějším módu za jeden prompt zaplatíte zhruba 560 Kč (stejně jako za ChatGPT Plus na měsíc). V nejdražším módu dokonce kolem 100000 Kč za jediný prompt. 

Tím se dostáváme k efektivitě tohoto modelu. Je pravda, že zvládne užitečné kousky, ale to neznamená, že je pro ně nějak zvlášť vhodný. I podle definice AGI od autorů benchmarku ARC (podle které je nejdůležitější učení se novým úkolům), který pro tento model dopadl příznivě, je možná tento způsob trochu v rozporu s AGI. Pokud se ten model umí tak úžasně učit, proč pro jednoduché problémy potřebuje tolik peněz? Jako by se je neuměl naučit tak nějak doopravdy. Jednoduché rozpoznání patternu, které člověk zvládne za pár vteřin, stojí tisíce dolarů. To není AGI, ten model to očividně zase tak moc neumí. Je fajn, že to nakonec zvládne, ale je to jako dělat nějakou práci s ne úplně vhodným nástrojem. 

OpenAI při tvorbě grafů dělala, co mohla. Od manipulace se vzdálenostmi mezi datovými body, aby vysoká cena byla blíž těm nízkým, po křivku úspěšnosti v ARC, která roky nerostla a v posledních měsících vystřelila vzhůru. Což samozřejmě neznamená, že benchmark zítra bude dosažen na 100 %. Naopak, poslední procenta budou nejtěžší. Navíc jde o pro lidi velice lehké úkoly, které dřív prostě pro AI nebyly možné a teď možné jsou. To se s nějakými úkoly děje pravidelně (například můžeme říct, že od počátku vesmíru AI nedokázala porazit člověka v šachách, až jednoho dne křivka vystřelila z nuly na sto, když to dokázala). 





Na jednu stranu je super, že s počtem myslících tokenů roste inteligence, to mi přijde prostě zajímavé a teoreticky to jde hodně škálovat. No jo, ale kromě toho, že na odpověď čekáte hodinu, zaplatíte tisíce dolarů. 

(Vzhledem k této ceně by bylo vhodné, kdyby bylo možné model promptovat a generování sledovat během přemýšlení. Jen si to představte: utratíte hromadu peněz a nakonec zjistíte, že jste se špatně zeptali. Že model zvládne roční práci odborníka za chvíli (ale za vysokou cenu), není důvod pro to, aby zákazník (uživatel) nemohl práci průběžně sledovat.)

Není to ale tak zlé. Nezapomeňme, že cena inference ročně klesá asi o 90 %. Mělo by být tedy možné ročně zdesetinásobit počet myslících tokenů za stejnou cenu, případně model zlevnit, aby byl vhodný pro běžné použití. 

Nezapomeňme ani na úkoly opravdu důležité pro lidstvo, pro které bude AI užitečná, i když budou výpočty stát miliardy. Pro tyto úkoly je fakt, že s myšlením roste inteligence, velice užitečný. Jistě by proto měly být prozkoumány i tyto velice nákladné možnosti. 

Celkově si tedy myslím, že modely typu o3 nebo Gemini Thinking můžou být extrémně užitečné, ale je třeba nezapomínat na jejich nevýhody, jako je například cena, a kvůli nim i převážnou nevhodnost pro běžné úkoly. 

Komentáře