AI mokymo duomenys turi kainą, kurią gali sau leisti tik „Big Tech“.

Duomenys yra šiuolaikinių pažangių AI sistemų pagrindas, tačiau jie kainuoja vis daugiau, todėl jie nepasiekiami visoms, išskyrus turtingiausias technologijų įmones.

Praėjusiais metais Jamesas Betkeris, OpenAI tyrėjas, parašė a paskelbti savo asmeniniame tinklaraštyje apie generatyvinių AI modelių pobūdį ir duomenų rinkinius, kuriais jie mokomi. Jame Betkeris teigė, kad mokymo duomenys, o ne modelio dizainas, architektūra ar bet kokia kita charakteristika, buvo raktas į vis sudėtingesnes ir pajėgias AI sistemas.

„Pakankamai ilgai treniruojamas su tuo pačiu duomenų rinkiniu, beveik kiekvienas modelis susilieja į tą patį tašką“, – rašė Betkeris.

Ar Betker teisus? Ar treniruočių duomenys yra didžiausias modelis, nulemiantis, ką gali padaryti modelis, nesvarbu, ar tai būtų atsakymas į klausimą, žmogaus rankų piešimas ar tikroviško miesto vaizdinio generavimas?

Tai tikrai tikėtina.

Turinys

Statistinės mašinos

Generacinės AI sistemos iš esmės yra tikimybiniai modeliai – didžiulė statistikos krūva. Remdamiesi daugybe pavyzdžių, jie atspėja, kuriuos duomenis „prasmingiausia“ dėti (pvz., žodis „eiti“ prieš „į rinką“ sakinyje „Einu į turgų“). Todėl atrodo intuityvu, kad kuo daugiau pavyzdžių turi modelis, tuo geresni modeliai, parengti pagal šiuos pavyzdžius.

„Atrodo, kad našumo padidėjimą lemia duomenys“, – „TechCrunch“ sakė Alleno AI instituto (AI2) vyresnysis taikomųjų tyrimų mokslininkas Kyle'as Lo, „TechCrunch“. .

Lo pateikė pavyzdį Meta's Llama 3, tekstą generuojantis modelis išleistas šių metų pradžioje, o tai pranoksta paties AI2 OLMo modelį, nepaisant to, kad architektūriškai yra labai panašus. Lama 3 buvo apmokyta žymiai daugiau duomenų nei OLMokuris, Lo manymu, paaiškina jo pranašumą daugelyje populiarių AI etalonų.

(Pažymėsiu, kad šiandien AI pramonėje plačiai naudojami etalonai nebūtinai yra geriausias modelio našumo matuoklisbet už jos ribų kokybiniai testai, kaip mūsų pačiųtai viena iš nedaugelio priemonių, kurių turime imtis.)

Tai nereiškia, kad mokymas naudojant eksponentiškai didesnius duomenų rinkinius yra patikimas kelias į eksponentiškai geresnius modelius. Modeliai veikia pagal paradigmą „šiukšles įvežti, šiukšles išvežti“, todėl duomenų tvarkymas ir kokybė yra labai svarbūs, galbūt daugiau nei vien kiekis.

„Gali būti, kad mažas modelis su kruopščiai suprojektuotais duomenimis pranoksta didelį modelį“, – pridūrė jis. „Pavyzdžiui, Falcon 180B, didelis modelis, yra 63 vietoje pagal LMSYS etaloną, o Llama 2 13B, daug mažesnis modelis, užima 56 vietą.

Praėjusį spalį interviu su TechCrunch OpenAI tyrėjas Gabrielis Gohas sakė, kad aukštesnės kokybės komentarai labai prisidėjo prie geresnės vaizdo kokybės DALL-E 3OpenAI teksto į vaizdą modelis, palyginti su jo pirmtaku DALL-E 2. „Manau, kad tai yra pagrindinis patobulinimų šaltinis“, – sakė jis. „Teksto anotacijos yra daug geresnės nei buvo [with DALL-E 2] – tai net nepalyginama.

Daugelis dirbtinio intelekto modelių, įskaitant DALL-E 3 ir DALL-E 2, yra apmokyti, kai žmogaus anotatoriai žymi duomenis, kad modelis galėtų išmokti susieti šias etiketes su kitomis stebimomis tų duomenų savybėmis. Pavyzdžiui, modelis, kuris šeriamas daug kačių paveikslėlių su komentarais kiekvienai veislei, ilgainiui „išmoks“ susieti tokius terminus kaip bobteilas ir trumpi plaukai su savo išskirtiniais vizualiniais bruožais.

Blogas elgesys

Ekspertai, tokie kaip Lo, nerimauja, kad didėjantis dėmesys dideliems, aukštos kokybės mokymo duomenų rinkiniams sutelks AI plėtrą į kelis milijardus dolerių biudžetus turinčius žaidėjus, kurie gali sau leisti įsigyti šiuos rinkinius. Pagrindinė naujovė sintetiniai duomenys arba esminė architektūra gali sutrikdyti status quo, tačiau neatrodo, kad nė vienas iš jų būtų artimas.

„Apskritai subjektai, valdantys turinį, kuris gali būti naudingas AI plėtrai, yra skatinami užrakinti savo medžiagą“, – sakė Lo. „Ir pasibaigus prieigai prie duomenų, mes iš esmės palaiminame keletą pirmųjų duomenų rinkimo ir kopėčių kilimo, kad niekas kitas negalėtų pasiekti duomenų, kad galėtų pasivyti.

Tiesą sakant, ten, kur lenktynės, siekiant surinkti daugiau treniruočių duomenų, neprivedė prie neetiško (o gal net neteisėto) elgesio, pavyzdžiui, slapto autorių teisių saugomo turinio kaupimo, technologijų milžinai buvo apdovanoti didelėmis kišenėmis duomenų licencijavimui.

Generatyvieji dirbtinio intelekto modeliai, tokie kaip OpenAI, daugiausia mokomi naudojant vaizdus, tekstą, garsą, vaizdo įrašus ir kitus duomenis (kai kurie yra saugomi autorių teisių), gaunamus iš viešųjų tinklalapių (įskaitant problemiškai, AI sukurtus). Pasaulio OpenAI tvirtina, kad sąžiningas naudojimas apsaugo juos nuo teisinio keršto. Daugelis teisių turėtojų nesutinka, tačiau bent jau kol kas jie negali padaryti daug, kad užkirstų kelią tokiai praktikai.

Yra daug, daug pavyzdžių, kai generatyvūs AI pardavėjai abejotinomis priemonėmis įgyja didžiulius duomenų rinkinius, kad galėtų parengti savo modelius. OpenAI pranešama perrašė daugiau nei milijoną valandų „YouTube“ vaizdo įrašų be „YouTube“ palaiminimo (arba kūrėjų palaiminimo), kad būtų pateiktas pavyzdinis modelis GPT-4. „Google“ neseniai iš dalies išplėtė savo paslaugų teikimo sąlygas, kad galėtų naudoti viešuosius „Google“ dokumentus, restoranų apžvalgas „Google“ žemėlapiuose ir kitą savo AI produktų internetinę medžiagą. O Meta esą svarstė rizikuoti su ieškiniais mokyti savo modelius dėl IP apsaugoto turinio.

Tuo tarpu didelės ir mažos įmonės remiasi darbuotojų trečiojo pasaulio šalyse mokėjo vos kelis dolerius už valandą treniruočių rinkinių komentarams kurti. Kai kurie iš šių anotatorių dirba mamutų startuolių kaip „Scale AI“ – dirbkite pažodžiui ištisas dienas, kad atliktumėte užduotis, kuriose vaizdingai pavaizduotas smurtas ir kraujo praliejimas be jokios naudos ar garantijų dėl būsimų koncertų.

Augančios išlaidos

Kitaip tariant, net ir didesni duomenų sandoriai ne visai skatina atvirą ir teisingą generatyvinę AI ekosistemą.

„OpenAI“ išleido šimtus milijonų dolerių, kad licencijuotų naujienų leidėjų, vertybinių popierių žiniasklaidos bibliotekų ir kt. turinį, kad apmokytų savo dirbtinio intelekto modelius – šis biudžetas gerokai viršija daugelio akademinių tyrimų grupių, ne pelno organizacijų ir pradedančiųjų įmonių biudžetą. „Meta“ nuėjo taip toli, kad pasvėrė leidėjo „Simon & Schuster“ įsigijimą dėl teisių į el. knygų ištraukas (galiausiai „Simon & Schuster“ 2023 m. pardavė privataus kapitalo įmonei KKR už 1,62 mlrd. USD).

Tikimasi, kad AI mokymo duomenų rinka augti nuo maždaug 2,5 milijardo JAV dolerių dabar iki beveik 30 milijardų dolerių per dešimtmetį, duomenų brokeriai ir platformos skuba imti didžiausią mokestį – kai kuriais atvejais dėl savo vartotojų bazės prieštaravimų.

„Shutterstock“ turi akcijų žiniasklaidos biblioteką rašalu dirba su dirbtinio intelekto pardavėjais nuo 25 iki 50 milijonų dolerių, o Reddit pretenzijas uždirbo šimtus milijonų iš licencijų duomenų tokioms organizacijoms kaip Google ir OpenAI. Keletas platformų su daugybe duomenų, organiškai sukauptų bėgant metams neturiu pasirašė sutartis su generatyviais AI kūrėjais, atrodo – nuo Photobucket iki Tumblr iki Klausimų ir atsakymų svetainė „Stack Overflow“..

Tai yra platformų duomenys, kuriuos reikia parduoti – bent jau atsižvelgiant į tai, kokiais teisiniais argumentais tikite. Tačiau daugeliu atvejų vartotojai nemato nė cento pelno. Ir tai kenkia platesnei AI tyrimų bendruomenei.

„Mažesni žaidėjai negalės sau leisti šių duomenų licencijų, todėl negalės kurti ar tirti AI modelių“, – sakė Lo. „Aš nerimauju, kad dėl to gali trūkti nepriklausomos AI kūrimo praktikos kontrolės.

Nepriklausomos pastangos

Jei per niūrią niūrumą šviečia saulės spindulys, tai yra kelios nepriklausomos, ne pelno siekiančios pastangos sukurti didžiulius duomenų rinkinius, kuriuos kiekvienas gali panaudoti kurdamas generatyvųjį AI modelį.

EleutherAI, paprasti ne pelno siekianti tyrimų grupė, kuri 2020 m. pradėjo veikti kaip laisvai susiformavęs „Discord“ kolektyvas, bendradarbiauja su Toronto universitetu, AI2 ir nepriklausomais tyrėjais, kad sukurtų „The Pile v2“ – milijardų teksto ištraukų rinkinį, pirmiausia gaunamą iš viešosios srities. .

AI startuolis „Hugging Face“ balandį išleido „FineWeb“, filtruotą „Common Crawl“ versiją – to paties pavadinimo duomenų rinkinį, kurį tvarko ne pelno organizacija „Common Crawl“, kurį sudaro milijardai milijardų tinklalapių. „Hugging Face“ teigia, kad pagerina modelio našumą pagal daugelį etalonų.

Kelios pastangos išleisti atvirus mokymo duomenų rinkinius, pvz., grupės LAION vaizdų rinkinius, susidūrė su autorių teisėmis, duomenų privatumu ir kt. vienodai rimtų etinių ir teisinių iššūkių. Tačiau kai kurie labiau atsidavę duomenų kuratoriai įsipareigojo padaryti geriau. Pavyzdžiui, „Pile v2“ pašalina probleminę autorių teisių saugomą medžiagą, randamą jos pirmtakų duomenų rinkinyje „The Pile“.

Kyla klausimas, ar kuri nors iš šių atvirų pastangų gali tikėtis neatsilikti nuo Big Tech. Kol duomenų rinkimas ir tvarkymas tebėra išteklių reikalas, atsakymas greičiausiai yra neigiamas – bent jau tol, kol kai kurių tyrimų proveržis nepadarys sąlygos.

Source link