Apple paskelbė a techninis popierius išsamiai aprašomi modeliai, kuriuos ji sukūrė „Apple Intelligence“.generatyvių AI funkcijų asortimentas per ateinančius kelis mėnesius bus nukreiptas į iOS, macOS ir iPadOS.
Popieriuje „Apple“ stumiasi atgal kaltinimai kad ji ėmėsi etiškai abejotino požiūrio į kai kurių savo modelių mokymą, pakartodama, kad nenaudojo privačių naudotojų duomenų ir rėmėsi viešai prieinamų ir licencijuotų „Apple Intelligence“ duomenų deriniu.
“[The] išankstinio mokymo duomenų rinkinį sudaro… duomenys, kuriuos licencijavome iš leidėjų, kuruojami viešai prieinami arba atvirojo kodo duomenų rinkiniai ir viešai prieinama informacija, kurią tikrino mūsų žiniatinklio tikrinimo programa Applebot “, – rašo Apple. „Atsižvelgiant į tai, kad mes sutelkiame dėmesį į vartotojų privatumo apsaugą, pastebime, kad į duomenų mišinį neįtraukiami jokie privatūs Apple naudotojų duomenys.
Liepos mėnesį Proof News pranešė kad „Apple“ naudojo duomenų rinkinį „The Pile“, kuriame yra šimtų tūkstančių „YouTube“ vaizdo įrašų subtitrai, kad išmokytų modelių, skirtų apdoroti įrenginiuose, šeimą. Daugelis „YouTube“ kūrėjų, kurių subtitrai buvo iššluoti „The Pile“, to nežinojo ir su tuo nesutiko; Vėliau „Apple“ paskelbė pareiškimą, kuriame teigiama, kad ji neketina naudoti tų modelių, kad galėtų naudoti savo gaminių dirbtinio intelekto funkcijas.
Techninį dokumentą, kuris nuplėšia modelių užuolaidas, Apple pirmą kartą atskleidė WWDC 2024 m birželį, pavadintas „Apple Foundation Models“ (AFM), pabrėžia, kad AFM modelių mokymo duomenys buvo gauti „atsakingai“ arba bent jau atsakingai pagal „Apple“ apibrėžimą.
AFM modelių mokymo duomenys apima viešai prieinamus žiniatinklio duomenis ir licencijuotus duomenis iš neatskleistų leidėjų. Pasak „The New York Times“, „Apple“. kreipėsi į keletą leidėjų iki 2023 m. pabaigos, įskaitant NBC, Condé Nast ir IAC, apie daugiamečius sandorius, kurių vertė ne mažesnė kaip 50 mln. USD, kad modeliai būtų mokomi leidėjų naujienų archyvuose. „Apple“ AFM modeliai taip pat buvo mokomi atvirojo kodo, priglobto „GitHub“, ypač „Swift“, „Python“, C, „Objective-C“, C++, „JavaScript“, „Java“ ir „Go“ kodu.
Kodo modelių mokymas be leidimo, net atvirojo kodo, yra a ginčų taškas tarp kūrėjų. Kai kurie kūrėjai teigia, kad kai kurios atvirojo kodo kodų bazės nėra licencijuotos arba neleidžia mokytis dirbtinio intelekto pagal jų naudojimo sąlygas. Tačiau „Apple“ teigia, kad ji „filtravo“ kodą, siekdama įtraukti tik saugyklas su minimaliais naudojimo apribojimais, pvz., turinčias MIT, ISC arba Apache licenciją.
Siekdama pagerinti AFM modelių matematikos įgūdžius, Apple į mokymo rinkinį specialiai įtraukė matematikos klausimus ir atsakymus iš tinklalapių, matematikos forumų, tinklaraščių, vadovėlių ir seminarų. Bendrovė taip pat panaudojo „aukštos kokybės, viešai prieinamus“ duomenų rinkinius (kurių dokumentas neįvardija) su „licencijomis, leidžiančiomis naudoti mokymams… modelius“, filtruojamas, kad pašalintų neskelbtiną informaciją.
Apskritai, AFM modelių mokymo duomenų rinkinys sveria apie 6,3 trilijonus žetonų. (Žetonai yra smulkūs duomenų fragmentai, kuriuos generatyviems dirbtinio intelekto modeliams paprastai lengviau įsisavinti.) Palyginimui, tai yra mažiau nei pusė žetonų skaičiaus – 15 trilijonų. Lama 3.1 405B.
„Apple“ gavo papildomų duomenų, įskaitant duomenis iš žmonių atsiliepimų ir sintetinių duomenų, kad būtų galima tiksliai suderinti AFM modelius ir bandyti sušvelninti bet kokį nepageidaujamą elgesį, pvz., snapelio toksiškumas.
„Mūsų modeliai buvo sukurti siekiant padėti naudotojams atlikti kasdienę veiklą „Apple“ produktuose
„Apple“ vertybėse ir kiekviename etape remiasi atsakingais dirbtinio intelekto principais“, – teigia bendrovė.
Popieriuje nėra rūkstančio ginklo ar šokiruojančių įžvalgų – ir tai yra dėl kruopštaus dizaino. Tokie dokumentai retai būna labai atskleidžiantys ne tik dėl konkurencinio spaudimo, bet ir dėl atskleidimo taip pat daug kas galėtų patekti į teisinių problemų turinčias įmones.
Kai kurios įmonės, rengdamos modelius, rinkdamos viešus žiniatinklio duomenis, tvirtina, kad jų praktika yra apsaugota sąžiningas naudojimas doktrina. Bet tai jau reikalas labai tinka diskusijoms ir vis daugiau ieškinių.
„Apple“ pažymi, kad ji leidžia žiniatinklio valdytojams užblokuoti tikrinimo programą, kad ji nenuskaitytų jų duomenų. Tačiau dėl to atskiri kūrėjai atsiduria nesėkmėje. Ką daryti menininkui, jei, pavyzdžiui, jo aplankas yra svetainėje, kuri atsisako blokuoti „Apple“ duomenų rinkimą?
Mūšiai teismo salėje nulems generatyvių dirbtinio intelekto modelių likimą ir jų mokymo būdą. Tačiau kol kas „Apple“ bando save pozicionuoti kaip etišką žaidėją, vengdama nepageidaujamo teisinio patikrinimo.