Naujausias kalbų modelių turas, pvz GPT-4o ir Gemini 1.5 Proyra reklamuojami kaip „daugiarūšiai“, galintys suprasti vaizdus, garsą ir tekstą, tačiau naujas tyrimas rodo, kad jie tikrai ne matyti taip, kaip galite tikėtis. Tiesą sakant, jie gali visai nematyti.
Kad būtų aišku iš pat pradžių, niekas nepateikė tokių teiginių kaip „Šis AI gali matyti taip, kaip žmonės! (Na… galbūt kai kurie turi.) Tačiau rinkodara ir etalonai, naudojami šiems modeliams reklamuoti, naudoja tokias frazes kaip „regėjimo galimybės“, „vaizdinis supratimas“ ir pan. Jie kalba apie tai, kaip modelis mato ir analizuoja vaizdus ir vaizdo įrašus, todėl jis gali atlikti bet ką – nuo namų darbų problemų iki žaidimo žiūrėjimo už jus.
Taigi, nors šių įmonių teiginiai yra meniškai išdėstyti, akivaizdu, kad jos nori išreikšti, kad modelis mato tam tikra šio žodžio prasme. Ir tai daro, bet panašiai kaip atlieka matematiką ar rašo istorijas: įvesties duomenų šablonus suderina su mokymo duomenų šablonais. Dėl to modeliams nepavyksta atlikti tam tikrų kitų užduočių, kurios atrodo nereikšmingos, pavyzdžiui, pasirenkant atsitiktinį skaičių, taip pat.
Tyrimas – tam tikra prasme neformalus, bet sistemingas dabartinių AI modelių vizualinis supratimas atliko Auburn universiteto ir Albertos universiteto mokslininkai. Didžiausiems multimodaliniams modeliams jie pateikė labai paprastų vizualinių užduočių seriją, pavyzdžiui, paklausti, ar dvi formos persidengia, kiek penkiakampių yra paveikslėlyje arba kuri žodžio raidė yra apibraukta. (Santraukos mikropuslapį galite peržiūrėti čia.)
Tai yra tokie dalykai, kuriuos net pirmokėlis suprastų, tačiau dėl to dirbtinio intelekto modeliai buvo labai sudėtingi.
„Mūsų 7 užduotys yra labai paprastos, jas žmonės atliktų 100% tikslumu. Tikimės, kad AI padarys tą patį, bet šiuo metu NĖRA“, – rašė bendraautorius Anh Nguyen el. laiške „TechCrunch“. „Mūsų žinutė yra tokia: „Žiūrėkite, šie geriausi modeliai VIS DAR sugenda“. “
Atlikite sutampančių formų testą: vieną iš paprasčiausių įmanomų vizualinio samprotavimo užduočių. Pateikti su dviem apskritimais, kurie šiek tiek persidengia, tiesiog liečiasi arba kai tarp jų buvo tam tikras atstumas, modeliai negalėjo nuosekliai tai padaryti. Žinoma, GPT-4o tai pasiteisino daugiau nei 95 % atvejų, kai jie buvo nutolę vienas nuo kito, tačiau esant nuliui arba nedideliu atstumu, jis pasiteisino tik 18 % atvejų! „Gemini Pro 1.5“ veikia geriausiai, bet vis tiek gauna tik 7/10 esant nedideliam atstumui.
(Iliustracijose neparodomas tikslus modelių veikimas, bet jos skirtos modelių nenuoseklumui pagal sąlygas. Kiekvieno modelio statistiniai duomenys pateikiami dokumente.)
Arba kaip suskaičiuoti susipynusių apskritimų skaičių paveikslėlyje? Lažinuosi, kad tai gali padaryti aukštesnis nei vidutinis arklys.
Jiems visiems pavyksta 100% atvejų, kai yra 5 skambučiai – puikus vizualinis AI darbas! Bet tada pridėjus vieną žiedą rezultatai visiškai sugriauna. Dvyniai pasiklydo ir negali susitvarkyti nė karto. Sonnetas-3.5 atsako 6… trečdalį laiko, o GPT-4o – šiek tiek mažiau nei pusę laiko. Pridėjus dar vieną žiedą, tai dar labiau apsunkina, bet kai kuriems – lengviau.
Šio eksperimento tikslas yra tiesiog parodyti, kad kad ir ką šie modeliai darytų, tai iš tikrųjų neatitinka to, ką mes manome kaip matome. Galų gale, net jei jie blogai matytų, nesitikėtume, kad 6, 7, 8 ir 9 žiedų vaizdai taip smarkiai skirsis.
Kitos išbandytos užduotys rodė panašius modelius: ne tai, kad jie gerai ar prastai mato ar samprotavo, bet atrodė, kad yra kokia nors kita priežastis, kodėl vienu atveju jie gali skaičiuoti, o kitu – ne.
Žinoma, vienas galimas atsakymas yra žiūrėti mums tiesiai į veidą: kodėl jie turėtų taip gerai padaryti 5 apskritimų vaizdą, bet taip apgailėtinai nepasisekti likusieji arba kai tai yra 5 penkiakampiai? (Tiesą sakant, „Sonnet-3.5“ tai padarė gana gerai.) Kadangi jų visų treniruočių duomenyse aiškiai matomas 5 apskritimų vaizdas: olimpiniai žiedai.
Šis logotipas ne tik kartojasi treniruočių duomenyse, bet tikriausiai yra išsamiai aprašytas alternatyviame tekste, naudojimo gairėse ir straipsniuose apie jį. Bet kur jų treniruočių duomenyse rasite 6 blokuojančius žiedus ar 7? Jei jų atsakymai yra kokių nors požymių… niekur! Jie neįsivaizduoja, į ką „žiūri“, ir realaus vizualinio supratimo, kas yra žiedai, sutapimai ar bet kuri iš šių sąvokų.
Paklausiau, ką tyrėjai mano apie šį „aklumą“, kuriuo jie kaltina modelius. Kaip ir kiti mūsų vartojami terminai, jis turi antropomorfinę savybę, kuri nėra gana tiksli, tačiau be jos sunku apsieiti.
„Sutinku, „aklas“ turi daug apibrėžimų net žmonėms, ir dar nėra žodžio, apibūdinančio tokį AI tipo aklumą / nejautrumą mūsų rodomiems vaizdams“, – rašė Nguyen. „Šiuo metu nėra technologijos, leidžiančios tiksliai įsivaizduoti, ką mato modelis. Ir jų elgesys yra sudėtinga įvesties teksto raginimo, įvesties vaizdo ir daugybės milijardų svarmenų funkcija.
Jis spėliojo, kad modeliai nėra visiškai akli, bet vaizdinė informacija, kurią jie išskiria iš vaizdo, yra apytikslė ir abstrakti, panašiai kaip „kairėje pusėje yra apskritimas“. Tačiau modeliai neturi galimybių priimti vizualinių sprendimų, todėl savo atsakymus daro taip, kaip tie, kurie yra informuoti apie vaizdą, bet iš tikrųjų jo nemato.
Kaip paskutinį pavyzdį Nguyen atsiuntė tai, kas patvirtina aukščiau pateiktą hipotezę:
Kai mėlynas apskritimas ir žalias apskritimas persidengia (kaip klausimas skatina modelį priimti kaip faktą), dažnai atsiranda žydros spalvos sritis, kaip Venno diagramoje. Jei kas nors jums užduotų šį klausimą, jūs ar bet kuris protingas žmogus gali atsakyti taip pat, nes tai visiškai tikėtina… jei jūsų akys užmerktos! Bet niekas su akimis atviras atsakytų taip.
Ar visa tai reiškia, kad šie „vaizdiniai“ AI modeliai yra nenaudingi? Toli nuo to. Nemokėjimas elementariai samprotauti apie tam tikrus vaizdus byloja apie jų pagrindines galimybes, bet ne apie konkrečias. Tikėtina, kad kiekvienas iš šių modelių bus labai tikslus, pavyzdžiui, žmogaus veiksmai ir išraiškos, kasdienių objektų ir situacijų nuotraukos ir panašiai. Ir iš tikrųjų būtent tai jie skirti interpretuoti.
Jei pasikliautume dirbtinio intelekto kompanijų rinkodara, kuri mums pasakytų viską, ką gali padaryti šie modeliai, manytume, kad jie turi 20/20 viziją. Tokie tyrimai reikalingi norint parodyti, kad nepaisant to, koks tikslus modelis gali pasakyti, ar žmogus sėdi, ar vaikšto, ar bėga, jie tai daro „nematydami“ ta prasme (jei norite), kurią mes linkę pasakyti.