Nondik lortzen du IAk informazioa

Nondik lortzen du IAk bere informazioa?

Inoiz egon al zara hor burua urratzen, nondik dator hau benetan ? Alegia, IA ez dabil liburutegi hautsak hartutako piloetan arakatzen edo YouTubeko film laburrak isilpean ikusten. Hala ere, nolabait, denetari erantzunak ematen dizkio -lasagna trikimailuetatik hasi eta zulo beltzen fisikaraino-, barruan artxibo-armairu amaigabe bat balu bezala. Errealitatea uste baino arraroagoa da, eta agian interesgarriagoa. Azter dezagun pixka bat (eta bai, agian bidean mito batzuk apur ditzagun).


Sorginkeria al da? 🌐

Ez da sorginkeria, nahiz eta batzuetan horrela iruditu. Kanpoan gertatzen dena, funtsean, ereduen iragarpena . Hizkuntza-eredu handiek (HHE) ez dituzte datuak gordetzen zure garunak zure amonaren gaileta-errezeta gordetzen duen bezala; horren ordez, hurrengo hitza (tokena) asmatzeko trebatzen dira aurrekoaren arabera [2]. Praktikan, horrek esan nahi du erlazioei heltzen zaizkiela: zein hitz lotzen diren elkarrekin, nola hartzen duten forma esaldiek normalean, nola eraikitzen diren ideia osoak aldamio gisa. Horregatik dirudi zuzena, nahiz eta -zintzotasun osoa- mimika estatistikoa izan, ez ulermena [4].

erabilgarria IA bidez sortutako informazioa ? Hainbat gauza:

  • Datuen aniztasuna - iturri amaigabeetatik hartua, ez jario estu batetik.

  • Eguneraketak - freskatze ziklorik gabe, azkar zaharkitzen da.

  • Iragaztea - idealki zaborra harrapatzea barrura sartu aurretik (nahiz eta, egia esan, sare horrek zuloak baditu).

  • Gurutzaketa - iturri autoritarioetan oinarritzea (NASA, OME, unibertsitate nagusiak, adibidez), eta hori ezinbestekoa da IA ​​gobernantzaren eskuliburu gehienetan [3].

Haluzinazio deituriko horiek ? Funtsean, aurpegi serio batekin esandako zentzugabekeria leunduak [2][3].

Honen ondoren irakurri nahi izango dituzun artikuluak:

🔗 Adimen artifizialak loteria zenbakiak iragar ditzake
IA loteriaren iragarpenei buruzko mitoak eta egiak aztertzen.

🔗 Zer esan nahi du IArako ikuspegi holistiko bat hartzeak?
IA ulertzea etika eta eraginari buruzko ikuspegi orekatuekin.

🔗 Zer dio Bibliak adimen artifizialari buruz
Teknologiari eta gizakiaren sorkuntzari buruzko ikuspegi biblikoak aztertzea.


Konparazio azkarra: Nondik datozen IAk 📊

Ez da iturri guztia berdina, baina bakoitzak bere eginkizuna betetzen du. Hona hemen laburpen bat.

Iturburu mota Nork erabiltzen du (IA) Kostua/Balioa Zergatik funtzionatzen duen (edo ez...)
Liburuak eta artikuluak Hizkuntza-eredu handiak Preziorik gabekoa (gutxi gorabehera) Ezagutza trinkoa eta egituratua - azkar zahartzen da.
Webguneak eta blogak Ia IA guztiak Doan (zarataz) Barietate basatia; distira eta zabor hutsaren nahasketa.
Lan akademikoak Ikerketa-asko erabiltzen diren IAak Batzuetan ordainpeko horma Zorroztasuna + sinesgarritasuna, baina hizkera astunean adierazita.
Erabiltzailearen datuak Adimen artifizial pertsonalizatuak Oso sentikorra ⚠️ Jostungintza zorrotza, baina pribatutasun-buruhauste ugari.
Denbora errealeko weba Bilaketari lotutako IAak Doan (online badago) Informazioa fresko mantentzen du; alde txarra zurrumurruen anplifikazio arriskua da.

Prestakuntza Datuen Unibertsoa 🌌

Hau da “haurtzaroaren ikaskuntza” fasea. Imajinatu haur bati milioika ipuin-liburu, albiste-ebaki eta Wikipediako zulo ematen dizkiozula aldi berean. Hori da aurre-prestakuntzaren itxura. Mundu errealean, hornitzaileek publikoki eskuragarri dauden datuak, lizentziadun iturriak eta entrenatzaileak sortutako testua [2].

Gainean geruzatuta: giza adibideak zainduak -erantzun onak, erantzun txarrak, norabide egokian bultzadatxoak- indartzea hasi baino lehen [1].

Gardentasunari buruzko oharra: enpresek ez dituzte xehetasun guztiak ezagutarazten. Babes-hesi batzuk sekretuak dira (IP, segurtasun-kezkak), beraz, benetako nahasketaren ikuspegi partziala baino ez duzu lortzen [2].


Denbora Errealeko Bilaketa: Gehigarri Gehigarria 🍒

Modelo batzuek orain beren entrenamendu-burbuilatik kanpo begiratu dezakete. Hori da berreskuratze-gehitutako sorkuntza (RAG) - funtsean, indize edo dokumentu-biltegi batetik zatiak ateratzea, eta gero erantzunean txertatzea [5]. Ezin hobea da azkar aldatzen diren gauzetarako, hala nola albisteen titularrak edo akzioen prezioak.

Arazoa? Internet jenioa eta zabor-sua da neurri berean. Iragazkiak edo jatorri-egiaztapenak ahulak badira, zabor-datuak isilpean berriro sartzeko arriskua duzu, hain zuzen ere arrisku-esparruek ohartarazten duten horretaz [3].

Ohiko konponbide bat: enpresek modeloak beren barne-datu-baseetara lotzen dituzte, erantzunek uneko Giza Baliabideen politika edo produktuaren dokumentu eguneratua aipa dezaten, inprobisatu beharrean. Pentsa ezazu: "ai ene" une gutxiago, erantzun fidagarriagoak.


Doikuntza fina: IAren leuntze-urratsa 🧪

Aurrez entrenatutako eredu gordinak traketsak dira. Beraz, findu :

  • Lagungarriak, kaltegabeak eta zintzoak izaten irakastea (gizakien feedbacketik lortutako indartze-ikaskuntzaren bidez, RLHF) [1].

  • Ertz arriskutsuak edo toxikoak lixatzea (lerrokatzea) [1].

  • Tonua egokitzea - ​​lagunartekoa, formala edo jostalari modu sarkastikoan izan.

Ez da diamante bat leuntzea hainbeste, baizik eta elur-jausi estatistiko bat elkarrizketa-kide baten antzera jokatzera bultzatzea.


Kolpeak eta porrotak 🚧

Ez dezagun itxuratu akatsik gabekoa dela:

  • Haluzinazioak - erantzun zehatzak, guztiz okerrak [2][3].

  • Alborapena - datuetan txertatutako ereduak islatzen ditu; kontrolatzen ez badira, anplifikatu ere egin ditzake [3][4].

  • Ez du lehen eskuko esperientziarik zopa errezetei buruz hitz egin dezake,

  • Gehiegizko konfiantza - prosak badakiela dirudi, nahiz eta ez den horrela gertatzen. Arrisku-esparruek seinaleztapen-hipotesiak azpimarratzen dituzte [3].


Zergatik sentitzen 🧠

Ez du sinesmenik, ez du memoriarik giza zentzuan, eta noski ez du bere bururik. Hala ere, esaldiak leunki lotzen dituenez, zure garunak ulertzen balu . Gertatzen ari dena hurrengo tokenaren eskala masiboko iragarpena : bilioi probabilitate segundo zatitan kalkulatzea [2].

«Adimen» sentsazioa portaera emergentea da; ikertzaileek, txantxa pixka bat eginez, «loro estokastikoaren» efektua deitzen diote [4].


Haurrentzako Analogia 🎨

Imajinatu liburutegiko liburu guztiak irakurri dituen loro bat. Ez ditu ulertzen , baina hitzak nahastu ditzake jakintsu bihurtzen duen zerbait sortzeko. Batzuetan zehatza da; beste batzuetan zentzugabea da, baina nahikoa trebetasunarekin, ezin da beti aldea nabaritu.


Amaitzeko: Nondik datorren IAren informazioa 📌

Hitz gutxitan esanda:

  • Prestakuntza-datu masiboak (publikoak + lizentziadunak + prestatzaileak sortutakoak) [2].

  • doikuntza fina egitea tonua/portaera moldatzeko [1].

  • Berreskuratze sistemak datu-jario zuzenetara konektatuta daudenean [5].

Adimen artifizialak ez ditu gauzak “daki” - testua iragartzen du . Hori da bere superboterea eta bere Akilesen orpoa aldi berean. Azken finean? Beti egiaztatu gauza garrantzitsuak iturri fidagarri batekin [3].


Erreferentziak

  1. Ouyang, L. et al. (2022). Hizkuntza-ereduak entrenatzea argibideak jarraitzeko giza feedbackarekin (InstructGPT) . arXiv .

  2. OpenAI (2023). GPT-4 Txosten Teknikoa - lizentziadun, publiko eta gizakiek sortutako datuen nahasketa; hurrengo tokenaren iragarpenaren helburua eta mugak. arXiv .

  3. NIST (2023). AI Arriskuen Kudeaketa Esparrua (AI RMF 1.0) - jatorria, fidagarritasuna eta arriskuen kontrolak. PDF .

  4. Bender, EM, Gebru, T., McMillan-Major, A., Mitchell, S. (2021). Loro estokastikoen arriskuei buruz: hizkuntza-ereduak handiegiak izan daitezke? PDF .

  5. Lewis, P. et al. (2020). Berreskurapen-gehitutako sorkuntza ezagutza-intentsiboko NLPrako . arXiv .


Aurkitu azken IA AI Laguntzaileen Denda Ofizialean

Guri buruz

Blogera itzuli