Inoiz egon al zara hor burua urratzen, nondik dator hau benetan ? Alegia, IA ez dabil liburutegi hautsak hartutako piloetan arakatzen edo YouTubeko film laburrak isilpean ikusten. Hala ere, nolabait, denetari erantzunak ematen dizkio -lasagna trikimailuetatik hasi eta zulo beltzen fisikaraino-, barruan artxibo-armairu amaigabe bat balu bezala. Errealitatea uste baino arraroagoa da, eta agian interesgarriagoa. Azter dezagun pixka bat (eta bai, agian bidean mito batzuk apur ditzagun).
Sorginkeria al da? 🌐
Ez da sorginkeria, nahiz eta batzuetan horrela iruditu. Kanpoan gertatzen dena, funtsean, ereduen iragarpena . Hizkuntza-eredu handiek (HHE) ez dituzte datuak gordetzen zure garunak zure amonaren gaileta-errezeta gordetzen duen bezala; horren ordez, hurrengo hitza (tokena) asmatzeko trebatzen dira aurrekoaren arabera [2]. Praktikan, horrek esan nahi du erlazioei heltzen zaizkiela: zein hitz lotzen diren elkarrekin, nola hartzen duten forma esaldiek normalean, nola eraikitzen diren ideia osoak aldamio gisa. Horregatik dirudi zuzena, nahiz eta -zintzotasun osoa- mimika estatistikoa izan, ez ulermena [4].
erabilgarria IA bidez sortutako informazioa ? Hainbat gauza:
-
Datuen aniztasuna - iturri amaigabeetatik hartua, ez jario estu batetik.
-
Eguneraketak - freskatze ziklorik gabe, azkar zaharkitzen da.
-
Iragaztea - idealki zaborra harrapatzea barrura sartu aurretik (nahiz eta, egia esan, sare horrek zuloak baditu).
-
Gurutzaketa - iturri autoritarioetan oinarritzea (NASA, OME, unibertsitate nagusiak, adibidez), eta hori ezinbestekoa da IA gobernantzaren eskuliburu gehienetan [3].
Haluzinazio deituriko horiek ? Funtsean, aurpegi serio batekin esandako zentzugabekeria leunduak [2][3].
Honen ondoren irakurri nahi izango dituzun artikuluak:
🔗 Adimen artifizialak loteria zenbakiak iragar ditzake
IA loteriaren iragarpenei buruzko mitoak eta egiak aztertzen.
🔗 Zer esan nahi du IArako ikuspegi holistiko bat hartzeak?
IA ulertzea etika eta eraginari buruzko ikuspegi orekatuekin.
🔗 Zer dio Bibliak adimen artifizialari buruz
Teknologiari eta gizakiaren sorkuntzari buruzko ikuspegi biblikoak aztertzea.
Konparazio azkarra: Nondik datozen IAk 📊
Ez da iturri guztia berdina, baina bakoitzak bere eginkizuna betetzen du. Hona hemen laburpen bat.
| Iturburu mota | Nork erabiltzen du (IA) | Kostua/Balioa | Zergatik funtzionatzen duen (edo ez...) |
|---|---|---|---|
| Liburuak eta artikuluak | Hizkuntza-eredu handiak | Preziorik gabekoa (gutxi gorabehera) | Ezagutza trinkoa eta egituratua - azkar zahartzen da. |
| Webguneak eta blogak | Ia IA guztiak | Doan (zarataz) | Barietate basatia; distira eta zabor hutsaren nahasketa. |
| Lan akademikoak | Ikerketa-asko erabiltzen diren IAak | Batzuetan ordainpeko horma | Zorroztasuna + sinesgarritasuna, baina hizkera astunean adierazita. |
| Erabiltzailearen datuak | Adimen artifizial pertsonalizatuak | Oso sentikorra ⚠️ | Jostungintza zorrotza, baina pribatutasun-buruhauste ugari. |
| Denbora errealeko weba | Bilaketari lotutako IAak | Doan (online badago) | Informazioa fresko mantentzen du; alde txarra zurrumurruen anplifikazio arriskua da. |
Prestakuntza Datuen Unibertsoa 🌌
Hau da “haurtzaroaren ikaskuntza” fasea. Imajinatu haur bati milioika ipuin-liburu, albiste-ebaki eta Wikipediako zulo ematen dizkiozula aldi berean. Hori da aurre-prestakuntzaren itxura. Mundu errealean, hornitzaileek publikoki eskuragarri dauden datuak, lizentziadun iturriak eta entrenatzaileak sortutako testua [2].
Gainean geruzatuta: giza adibideak zainduak -erantzun onak, erantzun txarrak, norabide egokian bultzadatxoak- indartzea hasi baino lehen [1].
Gardentasunari buruzko oharra: enpresek ez dituzte xehetasun guztiak ezagutarazten. Babes-hesi batzuk sekretuak dira (IP, segurtasun-kezkak), beraz, benetako nahasketaren ikuspegi partziala baino ez duzu lortzen [2].
Denbora Errealeko Bilaketa: Gehigarri Gehigarria 🍒
Modelo batzuek orain beren entrenamendu-burbuilatik kanpo begiratu dezakete. Hori da berreskuratze-gehitutako sorkuntza (RAG) - funtsean, indize edo dokumentu-biltegi batetik zatiak ateratzea, eta gero erantzunean txertatzea [5]. Ezin hobea da azkar aldatzen diren gauzetarako, hala nola albisteen titularrak edo akzioen prezioak.
Arazoa? Internet jenioa eta zabor-sua da neurri berean. Iragazkiak edo jatorri-egiaztapenak ahulak badira, zabor-datuak isilpean berriro sartzeko arriskua duzu, hain zuzen ere arrisku-esparruek ohartarazten duten horretaz [3].
Ohiko konponbide bat: enpresek modeloak beren barne-datu-baseetara lotzen dituzte, erantzunek uneko Giza Baliabideen politika edo produktuaren dokumentu eguneratua aipa dezaten, inprobisatu beharrean. Pentsa ezazu: "ai ene" une gutxiago, erantzun fidagarriagoak.
Doikuntza fina: IAren leuntze-urratsa 🧪
Aurrez entrenatutako eredu gordinak traketsak dira. Beraz, findu :
-
Lagungarriak, kaltegabeak eta zintzoak izaten irakastea (gizakien feedbacketik lortutako indartze-ikaskuntzaren bidez, RLHF) [1].
-
Ertz arriskutsuak edo toxikoak lixatzea (lerrokatzea) [1].
-
Tonua egokitzea - lagunartekoa, formala edo jostalari modu sarkastikoan izan.
Ez da diamante bat leuntzea hainbeste, baizik eta elur-jausi estatistiko bat elkarrizketa-kide baten antzera jokatzera bultzatzea.
Kolpeak eta porrotak 🚧
Ez dezagun itxuratu akatsik gabekoa dela:
-
Haluzinazioak - erantzun zehatzak, guztiz okerrak [2][3].
-
Alborapena - datuetan txertatutako ereduak islatzen ditu; kontrolatzen ez badira, anplifikatu ere egin ditzake [3][4].
-
Ez du lehen eskuko esperientziarik zopa errezetei buruz hitz egin dezake,
-
Gehiegizko konfiantza - prosak badakiela dirudi, nahiz eta ez den horrela gertatzen. Arrisku-esparruek seinaleztapen-hipotesiak azpimarratzen dituzte [3].
Zergatik sentitzen 🧠
Ez du sinesmenik, ez du memoriarik giza zentzuan, eta noski ez du bere bururik. Hala ere, esaldiak leunki lotzen dituenez, zure garunak ulertzen balu . Gertatzen ari dena hurrengo tokenaren eskala masiboko iragarpena : bilioi probabilitate segundo zatitan kalkulatzea [2].
«Adimen» sentsazioa portaera emergentea da; ikertzaileek, txantxa pixka bat eginez, «loro estokastikoaren» efektua deitzen diote [4].
Haurrentzako Analogia 🎨
Imajinatu liburutegiko liburu guztiak irakurri dituen loro bat. Ez ditu ulertzen , baina hitzak nahastu ditzake jakintsu bihurtzen duen zerbait sortzeko. Batzuetan zehatza da; beste batzuetan zentzugabea da, baina nahikoa trebetasunarekin, ezin da beti aldea nabaritu.
Amaitzeko: Nondik datorren IAren informazioa 📌
Hitz gutxitan esanda:
-
Prestakuntza-datu masiboak (publikoak + lizentziadunak + prestatzaileak sortutakoak) [2].
-
doikuntza fina egitea tonua/portaera moldatzeko [1].
-
Berreskuratze sistemak datu-jario zuzenetara konektatuta daudenean [5].
Adimen artifizialak ez ditu gauzak “daki” - testua iragartzen du . Hori da bere superboterea eta bere Akilesen orpoa aldi berean. Azken finean? Beti egiaztatu gauza garrantzitsuak iturri fidagarri batekin [3].
Erreferentziak
-
Ouyang, L. et al. (2022). Hizkuntza-ereduak entrenatzea argibideak jarraitzeko giza feedbackarekin (InstructGPT) . arXiv .
-
OpenAI (2023). GPT-4 Txosten Teknikoa - lizentziadun, publiko eta gizakiek sortutako datuen nahasketa; hurrengo tokenaren iragarpenaren helburua eta mugak. arXiv .
-
NIST (2023). AI Arriskuen Kudeaketa Esparrua (AI RMF 1.0) - jatorria, fidagarritasuna eta arriskuen kontrolak. PDF .
-
Bender, EM, Gebru, T., McMillan-Major, A., Mitchell, S. (2021). Loro estokastikoen arriskuei buruz: hizkuntza-ereduak handiegiak izan daitezke? PDF .
-
Lewis, P. et al. (2020). Berreskurapen-gehitutako sorkuntza ezagutza-intentsiboko NLPrako . arXiv .