Nondik lortzen du IAk bere informazioa?

Inoiz egon al zara hor burua urratzen, nondik dator hau benetan? Alegia, IA ez dabil liburutegi hautsak hartutako piloetan arakatzen edo YouTubeko film laburrak isilpean ikusten. Hala ere, nolabait, denetari erantzunak ematen dizkio -lasagna trikimailuetatik hasi eta zulo beltzen fisikaraino-, barruan artxibo-armairu amaigabe bat balu bezala. Errealitatea uste baino arraroagoa da, eta agian interesgarriagoa. Azter dezagun pixka bat (eta bai, agian bidean mito batzuk apur ditzagun).

Sorginkeria al da? 🌐

Ez da sorginkeria, nahiz eta batzuetan horrela iruditu. Kanpoan gertatzen dena, funtsean, ereduen iragarpena. Hizkuntza-eredu handiek (HHE) ez dituzte datuak gordetzen zure garunak zure amonaren gaileta-errezeta gordetzen duen bezala; horren ordez, hurrengo hitza (tokena) asmatzeko trebatzen dira aurrekoaren arabera [2]. Praktikan, horrek esan nahi du erlazioei heltzen zaizkiela: zein hitz lotzen diren elkarrekin, nola hartzen duten forma esaldiek normalean, nola eraikitzen diren ideia osoak aldamio gisa. Horregatik dirudi zuzena, nahiz eta -zintzotasun osoa- mimika estatistikoa izan, ez ulermena [4].

Beraz, zerk egiten du benetan erabilgarria IA bidez sortutako informazioa ? Hainbat gauza:

Datuen aniztasuna - iturri amaigabeetatik hartua, ez jario estu batetik.
Eguneraketak - freskatze ziklorik gabe, azkar zaharkitzen da.
Iragaztea - idealki zaborra harrapatzea barrura sartu aurretik (nahiz eta, egia esan, sare horrek zuloak ditu).
Gurutzaketa - iturri autoritarioetan oinarritzea (NASA, OME, unibertsitate nagusiak, adibidez), eta hori ezinbestekoa da IA gobernantzaren eskuliburu gehienetan [3].

Hala ere, batzuetan asmatzen ditu, konfiantzaz. Haluzinazio deituriko horiek ? Funtsean, aurpegi serio batekin esandako zentzugabekeria leunduak [2][3].

Honen ondoren irakurri nahi izango dituzun artikuluak:

🔗 Adimen artifizialak loteria zenbakiak iragar ditzake
IA loteriaren iragarpenei buruzko mitoak eta egiak aztertzen.

🔗 Zer esan nahi du IArako ikuspegi holistiko bat hartzeak?
IA ulertzea etika eta eraginari buruzko ikuspegi orekatuekin.

🔗 Zer dio Bibliak adimen artifizialari buruz
Teknologiari eta gizakiaren sorkuntzari buruzko ikuspegi biblikoak aztertzea.

Konparazio azkarra: Nondik datozen IAk 📊

Ez da iturri guztia berdina, baina bakoitzak bere eginkizuna betetzen du. Hona hemen laburpen bat.

Iturburu mota	Nork erabiltzen du (IA)	Kostua/Balioa	Zergatik funtzionatzen duen (edo ez...)
Liburuak eta artikuluak	Hizkuntza-eredu handiak	Preziorik gabekoa (gutxi gorabehera)	Ezagutza trinkoa eta egituratua - azkar zahartzen da.
Webguneak eta blogak	Ia IA guztiak	Doan (zarataz)	Barietate basatia; distira eta zabor hutsaren nahasketa.
Lan akademikoak	Ikerketa-asko erabiltzen diren IAak	Batzuetan ordainpeko horma	Zorroztasuna + sinesgarritasuna, baina hizkera astunean adierazita.
Erabiltzailearen datuak	Adimen artifizial pertsonalizatuak	Oso sentikorra ⚠️	Jostungintza zorrotza, baina pribatutasun-buruhauste ugari.
Denbora errealeko weba	Bilaketari lotutako IAak	Doan (online badago)	Informazioa fresko mantentzen du; alde txarra zurrumurruen anplifikazio arriskua da.

Prestakuntza Datuen Unibertsoa 🌌

Hau da “haurtzaroaren ikaskuntza” fasea. Imajinatu haur bati milioika ipuin-liburu, albiste-ebaki eta Wikipediako zulo ematen dizkiozula aldi berean. Hori da aurre-prestakuntzaren itxura. Mundu errealean, hornitzaileek publikoki eskuragarri dauden datuak, lizentziadun iturriak eta entrenatzaileak sortutako testua [2].

Gainean geruzatuta: giza adibideak zainduak -erantzun onak, erantzun txarrak, norabide egokian bultzadatxoak- indartzea hasi baino lehen [1].

Gardentasunari buruzko oharra: enpresek ez dituzte xehetasun guztiak ezagutarazten. Babes-hesi batzuk sekretuak dira (IP, segurtasun-kezkak), beraz, benetako nahasketaren ikuspegi partziala baino ez duzu lortzen [2].

Denbora Errealeko Bilaketa: Gehigarri Gehigarria 🍒

Modelo batzuek orain beren entrenamendu-burbuilatik kanpo begiratu dezakete. Hori da berreskuratze-gehitutako sorkuntza (RAG) -funtsean, indize edo dokumentu-biltegi batetik zatiak ateratzea, eta gero erantzunean txertatzea [5]. Ezin hobea da azkar aldatzen diren gauzetarako, hala nola albisteen titularrak edo akzioen prezioak.

Arazoa? Internet jenioa eta zabor-sua da neurri berean. Iragazkiak edo jatorri-egiaztapenak ahulak badira, zabor-datuak isilpean berriro sartzeko arriskua duzu, hain zuzen ere arrisku-esparruek ohartarazten duten horretaz [3].

Ohiko konponbide bat: enpresek modeloak beren barne-datu-baseetara lotzen dituzte, erantzunek uneko Giza Baliabideen politika edo produktuaren dokumentu eguneratua aipa dezaten, inprobisatu beharrean. Pentsa ezazu: "ai ene" une gutxiago, erantzun fidagarriagoak.

Doikuntza fina: IAren leuntze-urratsa 🧪

Aurrez entrenatutako eredu gordinak traketsak dira. Beraz, findu:

Lagungarriak, kaltegabeak eta zintzoak izaten irakastea (gizakien feedbacketik lortutako indartze-ikaskuntzaren bidez, RLHF) [1].
Ertz arriskutsuak edo toxikoak lixatzea (lerrokatzea) [1].
Tonua egokitzea - lagunartekoa, formala edo jostalari modu sarkastikoan izan.

Ez da diamante bat leuntzea hainbeste, baizik eta elur-jausi estatistiko bat elkarrizketa-kide baten antzera jokatzera bultzatzea.

Kolpeak eta porrotak 🚧

Ez dezagun itxuratu akatsik gabekoa dela:

Haluzinazioak - erantzun zehatzak, guztiz okerrak [2][3].
Alborapena - datuetan txertatutako ereduak islatzen ditu; kontrolatzen ez badira, anplifikatu ere egin ditzake [3][4].
Ez du lehen eskuko esperientziarik - zopa errezetei buruz hitz egin dezake, baina ez du inoiz bat ere dastatu [4]
Gehiegizko konfiantza - prosak badakiela dirudi, nahiz eta ez den horrela gertatzen. Arrisku-esparruek seinaleztapen-hipotesiak azpimarratzen dituzte [3].

Zergatik sentitzen 🧠

Ez du sinesmenik, ez du memoriarik giza zentzuan, eta noski ez du bere bururik. Hala ere, esaldiak leunki lotzen dituenez, zure garunak ulertzen balu. Gertatzen ari dena hurrengo tokenaren eskala masiboko iragarpena: bilioi probabilitate segundo zatitan kalkulatzea [2].

«Adimen» sentsazioa portaera emergentea da; ikertzaileek, txantxa pixka bat eginez, «loro estokastikoaren» efektua deitzen diote [4].

Haurrentzako Analogia 🎨

Imajinatu liburutegiko liburu guztiak irakurri dituen loro bat. Ez ditu ulertzen , baina hitzak nahastu ditzake jakintsu bihurtzen duen zerbait sortzeko. Batzuetan zehatza da; beste batzuetan zentzugabea da, baina nahikoa trebetasunarekin, ezin da beti aldea nabaritu.

Amaitzeko: Nondik datorren IAren informazioa 📌

Hitz gutxitan esanda:

Prestakuntza-datu masiboak (publikoak + lizentziadunak + prestatzaileak sortutakoak) [2].
doikuntza fina egitea tonua/portaera moldatzeko [1].
Berreskuratze sistemak datu-jario zuzenetara konektatuta daudenean [5].

Adimen artifizialak ez ditu gauzak “daki” - testua iragartzen du. Hori da bere superboterea eta bere Akilesen orpoa aldi berean. Azken finean? Egiaztatu beti gauza garrantzitsuak iturri fidagarri batekin [3].

Erreferentziak

Ouyang, L. et al. (2022). Hizkuntza-ereduak entrenatzea argibideak jarraitzeko giza feedbackarekin (InstructGPT). arXiv.
OpenAI (2023). GPT-4 Txosten Teknikoa - lizentziadun, publiko eta gizakiek sortutako datuen nahasketa; hurrengo tokenaren iragarpenaren helburua eta mugak. arXiv.
NIST (2023). AI Arriskuen Kudeaketa Esparrua (AI RMF 1.0) - jatorria, fidagarritasuna eta arriskuen kontrolak. PDF.
Bender, EM, Gebru, T., McMillan-Major, A., Mitchell, S. (2021). Loro estokastikoen arriskuei buruz: hizkuntza-ereduak handiegiak izan daitezke? PDF.
Lewis, P. et al. (2020). Berreskurapen-gehitutako sorkuntza ezagutza-intentsiboko NLPrako. arXiv.

Aurkitu azken IA AI Laguntzaileen Denda Ofizialean

Guri buruz

Blogera itzuli