Svaki put kada se predstavi novi model veštačke inteligencije (AI), on se obično reklamira rezultatima na različitim testovima ili referentnim vrednostima (benchmark).
Mnogi popularni testovi za AI modele su zastareli ili loše osmišljeni
Na primer, OpenAI-ov GPT-4o je lansiran u maju uz rezultate koji pokazuju da nadmašuje konkurentske modele u mnogim testovima.
Međutim, prema novim istraživanjima, ovi testovi su često loše dizajnirani, rezultati teško ponovljivi, a korišćena metrika arbitrarna. Ovo je važno jer rezultati AI modela na ovim testovima utiču na nivo regulacije i kontrole kojoj će biti podvrgnuti. “Izgleda kao Divlji zapad jer nemamo dobre standarde za evaluaciju”, kaže Anka Roel, autorka rada sa Univerziteta Stanford.
Šta je benchmark?
Benchmark je test koji procenjuje sposobnosti AI-a. Može biti u formatu višestrukog izbora, kao što je popularni Massive Multitask Language Understanding (MMLU), ili procena sposobnosti AI-a da obavi određeni zadatak ili pruži kvalitetan odgovor na pitanja. Kompanije često koriste ove testove kao dokaz uspeha svojih modela. “Developeri ovih modela obično optimizuju modele za specifične testove”, kaže Ana Ivanova, profesorka psihologije na Tehnološkom institutu Džordžija.
Problemi s trenutnim testovima
- Teškoća ponovljivosti rezultata:
- Istraživači su pokušali da reprodukuju rezultate popularnih testova, ali su često nailazili na zastarele ili nepristupačne instrukcije i kod. Takođe, pitanja i odgovori često nisu javno dostupni, što otežava proveru validnosti.
- “Zasićenost” testova: Kada AI model reši sve probleme u testu, benchmark gubi vrednost. Na primer, ako prvi model dobije 20%, a treća generacija 93%, to može izgledati kao usporavanje napretka, ali zapravo znači da test više nije relevantan za merenje poboljšanja.
- Nedefinisani ciljevi: Često nedostaje jasno definisanje šta tačno test meri. Na primer, test moralnog rezonovanja može biti nedovoljno precizno definisan, što ograničava njegovu korisnost.
Zašto je ovo važno?
Benchmark testovi se već koriste u regulatornim okvirima. Na primer, EU AI zakon, koji stupa na snagu u avgustu 2025, koristi testove da proceni da li model predstavlja “sistemski rizik.” Slično tome, britanski AI institut oslanja se na benchmark testove za evaluaciju bezbednosti velikih jezičkih modela.
Loše dizajnirani testovi mogu pružiti lažan osećaj sigurnosti. “Izgledaće kao da je model bezbedan, a zapravo nije”, upozorava Roel.
Poboljšanja i budućnost
Stanford istraživači su objavili listu kriterijuma za dobar benchmark. Takođe su lansirali veb-sajt Better Bench, koji ocenjuje popularne testove prema faktorima poput stručnosti autora, jasnoće definisanja ciljeva i povratnih informacija.
Organizacije poput Epoch AI i CAIS rade na razvoju boljih testova. Na primer, Humanity’s Last Exam (HLE), koji razvija CAIS, uključuje pitanja na nivou doktorskih studija i zahteva napredna znanja.
Iako se mišljenja razlikuju o tome šta bi trebalo meriti, većina istraživača se slaže da su potrebni robusniji standardi. “Moramo shvatiti šta znači ‘zaista dobar’ test, što trenutno ne znamo”, kaže Amelia Hardy, istraživačica na Stanfordu.
Zaključak
Trenutni sistemi merenja napretka u AI su neadekvatni i mogu voditi ka pogrešnim zaključcima. S obzirom na sve veću ulogu ovih testova u razvoju i regulaciji AI, njihovo poboljšanje je ključni prioritet za naučnu zajednicu i industriju.
Izvor: Technologyreview