Koaderno batean distira egin baina ekoizpenean trabatu den modelo bat bidali baduzu inoiz, badakizu sekretua: IAren errendimendua nola neurtu ez da neurri magiko bat. Mundu errealeko helburuei lotutako egiaztapen sistema bat da. Zehaztasuna polita da. Fidagarritasuna, segurtasuna eta negozio-eragina hobeak dira.
Honen ondoren irakurri nahi izango dituzun artikuluak:
🔗 Nola hitz egin IArekin
Emaitza hobeak lortzeko, IArekin modu eraginkorrean komunikatzeko gida.
🔗 Zer da IA bultzada?
Azaltzen du nola moldatzen dituzten galderek IAren erantzunak eta irteeraren kalitatea.
🔗 Zer da IA datuen etiketatzea?
Entrenamendu-ereduetarako datuei etiketa zehatzak esleitzeko ikuspegi orokorra.
🔗 Zer da IAren etika?
IAren garapen eta hedapen arduratsua gidatzen duten printzipio etikoen sarrera.
Zerk egiten du IAren errendimendu ona? ✅
Laburbilduz: IAren errendimendu onak esan nahi du zure sistema erabilgarria, fidagarria eta errepikagarria baldintza nahasi eta aldakorrenetan. Zehazki:
-
Zereginaren kalitatea - arrazoi egokiengatik erantzun egokiak lortzen ditu.
-
Kalibrazioa - konfiantza puntuazioak errealitatearekin bat datoz, ekintza adimentsuak har ditzazun.
-
Sendotasuna - drift, ertzeko kasu eta aurkarien fuzz-ari eusten dio.
-
Segurtasuna eta zuzentasuna - jokabide kaltegarriak, alboratuak edo arau-hausleak saihesten ditu.
-
Eraginkortasuna - eskala handian funtzionatzeko bezain azkarra, nahikoa merkea eta nahikoa egonkorra da.
-
Negozio-eragina - benetan axola zaizun KPIa mugitzen du.
Metrikak eta arriskuak lerrokatzeko erreferentzia-puntu formal bat nahi baduzu, NIST AI Arriskuen Kudeaketa Esparrua sistemaren ebaluazio fidagarrirako izar sendoa da. [1]

IAren errendimendua neurtzeko goi-mailako errezeta 🍳
Hiru geruzatan pentsatu :
-
Zereginaren metrikak - zeregin motaren zuzentasuna: sailkapena, erregresioa, sailkapena, sorrera, kontrola, etab.
-
Sistemaren metrikak - latentzia, errendimendua, dei bakoitzeko kostua, hutsegite-tasak, desbideratze-alarmak, funtzionamendu-denboraren SLAk.
-
Emaitzen neurriak - benetan nahi dituzun negozio eta erabiltzaileen emaitzak: bihurketa, atxikipena, segurtasun-intzidenteak, eskuzko berrikuspenen karga, txartelen bolumena.
Neurketa-plan bikain batek nahita nahasten ditu hirurak. Bestela, jaurtiketa-plataformatik inoiz irteten ez den suziri bat lortuko duzu.
Arazo motaren araberako oinarrizko metrikak - eta noiz erabili zein 🎯
1) Sailkapena
-
Zehaztasuna, Berreskuratzea, F1 - lehen eguneko hirukotea. F1 zehaztasunaren eta berreskuratzearen batez besteko harmonikoa da; erabilgarria klaseak desorekatuta daudenean edo kostuak asimetrikoak direnean. [2]
-
ROC-AUC - sailkatzaileen sailkapen atalase-agnostikoa; positiboak arraroak direnean, ikuskatu PR-AUC . [2]
-
Zehaztasun orekatua - klaseen arteko oroimenaren batez bestekoa; erabilgarria etiketa okerrak egiteko. [2]
Tranpa-zaintza: zehaztasuna bera oso engainagarria izan daiteke desoreka izanez gero. Erabiltzaileen % 99 zilegiak badira, beti zilegi den eredu ergela batek % 99ko puntuazioa lortzen du eta zure iruzur-taldeari huts egiten dio bazkalordu aurretik.
2) Erregresioa
-
MAE gizakiak irakur dezakeen errorearentzat; RMSE huts handiak zigortu nahi dituzunean; R² bariantza azalduta. Ondoren, banaketak eta hondar-diagramak egiaztatu. [2]
(Erabili domeinu-unitate egokiak, interesdunek errorea benetan senti dezaten.)
3) Sailkapena, berreskurapena, gomendioak
-
nDCG - posizioaz eta graduatutako garrantziaz arduratzen da; bilaketa-kalitatearen estandarra.
-
MRR - lehenengo elementu garrantzitsua zein azkar agertzen den aztertzen du ("erantzun on bat aurkitzeko" zereginetarako bikaina).
(Inplementazio erreferentziak eta adibide praktikoak metrika liburutegi nagusietan daude.) [2]
4) Testua sortzea eta laburbiltzea
-
BLEU eta ROUGE - gainjartze metrika klasikoak; oinarri gisa erabilgarriak.
-
Txertatze-oinarritutako metrikak (adibidez, BERTScore ) askotan hobeto korrelazionatzen dira gizakien irizpidearekin; beti parekatu estilo, fideltasun eta segurtasunari buruzko gizakien balorazioekin. [4]
5) Galderen erantzunak
-
Zehatz-mehatz bat etortzea eta token mailako F1 ohikoak dira erauzketa-kalitaterako; erantzunek iturriak aipatu behar badituzte, neurtu oinarria (erantzunen euskarri-egiaztapenak).
Kalibrazioa, konfiantza eta Brier lentea 🎚️
Konfiantza puntuazioak dira sistema asko isilean dauden lekuak. Errealitatea islatzen duten probabilitateak nahi dituzu, eragiketek atalaseak, gizakietara bidea edo prezio arriskua ezarri ahal izateko.
-
Kalibrazio-kurbak - aurreikusitako probabilitatea maiztasun enpirikoaren aurka bistaratu.
-
Brier puntuazioa probabilitatearen kalitatea axola zaizunean
Oharra: F1 apur bat “okerragoa” baina kalibrazio askoz hobeago batek izugarri hobetu dezake, jendeak azkenean puntuazioetan konfiantza izan dezakeelako.
Segurtasuna, alborapena eta zuzentasuna - neurtu garrantzitsua dena 🛡️⚖️
Sistema bat zehatza izan daiteke oro har, eta hala ere talde espezifikoei kalte egin diezaieke. Jarraitu taldekatutako metrikak eta bidezko irizpideak:
-
Parekotasun demografikoa - talde guztien arteko tasa positibo berdinak.
-
Aukera berdinduak / Aukera berdinak - errore-tasa berdinak edo benetako positiboen tasak taldeen artean; erabili hauek oreka detektatu eta kudeatzeko, ez behin-behineko gainditze-huts zigilu gisa. [5]
Aholku praktikoa: hasi oinarrizko metrikak atributu nagusien arabera banatzen dituzten aginte-panelekin, eta gero gehitu bidezko neurri espezifikoak zure gidalerroek eskatzen duten moduan. Zaila dirudi, baina intzidente bat baino merkeagoa da.
LLMak eta RAG - benetan funtzionatzen duen neurketa-liburuxka bat 📚🔍
Sistema sortzaileak neurtzea... korapilatsua da. Egin hau:
-
emaitzak definitu : zuzentasuna, lagungarritasuna, kaltegabetasuna, estiloarekiko atxikimendua, markaren tonua, aipamenaren oinarria, uko egiteko kalitatea.
-
Automatizatu oinarrizko ebaluazioak esparru sendoekin (adibidez, zure pilako ebaluazio-tresnekin) eta mantendu itzazu zure datu-multzoekin bertsionatuta.
-
Gehitu metrika semantikoak (txertatzean oinarritutakoak) eta gainjartze metrikak (BLEU/ROUGE) osasun mentala bermatzeko. [4]
-
Tresnaren oinarriak RAG-n: berreskurapen-tasa, testuinguruaren zehaztasuna/berreskurapena, erantzunaren eta laguntzaren gainjartzea.
-
Giza berrikuspena adostasunarekin - neurtu ebaluatzailearen koherentzia (adibidez, Cohen-en κ edo Fleiss-en κ) zure etiketak bibrazioak izan ez daitezen.
Gehigarria: latentzia pertzentilak eta zeregin bakoitzeko token edo kalkulu kostua erregistratu. Inori ez zaio gustatzen datorren asteartean iristen den erantzun poetiko bat.
Konparazio taula - IAren errendimendua neurtzen laguntzen dizuten tresnak 🛠️📊
(Bai, nahita pixka bat nahasia da - benetako oharrak nahasiak dira.)
| Tresna | Publiko onena | Prezioa | Zergatik funtzionatzen duen - laburpen azkarra |
|---|---|---|---|
| scikit-learn metrikak | ML praktikatzaileak | Doan | Sailkapenerako, erregresiorako eta sailkapenerako inplementazio kanonikoak; erraz txertatzeko probetan. [2] |
| MLflow Ebaluatu / GenAI | Datu-zientzialariak, MLOp-ak | Doakoa + ordainpekoa | Exekuzio zentralizatuak, neurketa automatizatuak, LLM epaileak, puntuazio pertsonalizatuak; artefaktuak garbi erregistratzen ditu. |
| Bistan denez | Taldeek aginte-panelak azkar nahi dituzte | OSS + hodeia | 100 metrika baino gehiago, noraezeko eta kalitate txostenak, jarraipen kakoak - irudi politak larrialdi batean. |
| Pisuak eta alborapenak | Esperimentuetan oinarritutako erakundeak | Doako maila | Alboz alboko konparaketak, ebaluazio datu-multzoak, epaileak; taulak eta arrastoak nahiko txukunak dira. |
| LangSmith | LLM aplikazioen eraikitzaileak | Ordainduta | Jarrai ezazu urrats bakoitza, nahastu gizakien berrikuspena arau edo LLM ebaluatzaileekin; bikaina RAGrako. |
| TruLens | Kode irekiko LLM ebaluazio zaleak | OSS | Toxikotasuna, lurrazaletasuna eta garrantzia puntuatzeko feedback funtzioak; edozein lekutan integratzea. |
| Itxaropen Handiak | Datuen kalitatea lehenesten duten erakundeak | OSS | Formalizatu datuen inguruko itxaropenak - datu txarrek metrika guztiak hondatzen baitituzte nolanahi ere. |
| Egiaztapen sakonak | Probak eta CI/CD MLrako | OSS + hodeia | Bateriak - datuen desbideratzea, modeloaren arazoak eta monitorizazioa probatzea barne; babes-hesi onak. |
Prezioak aldatu egiten dira - begiratu dokumentuak. Eta bai, hauek nahastu ditzakezu tresnen polizia agertu gabe.
Atalaseak, kostuak eta erabaki-kurbak - saltsa sekretua 🧪
atalasearen eta kostu-ratioen arabera .
Eraikitzeko fitxa azkarra:
-
Ezarri positibo faltsu baten eta negatibo faltsu baten kostua dirutan edo denboran.
-
Atalaseak aztertu eta 1000 erabaki bakoitzeko espero den kostua kalkulatu.
-
Aukeratu gutxieneko kostu -atalasea, eta blokeatu monitorizazioarekin.
Erabili PR kurbak positiboak arraroak direnean, ROC kurbak forma orokorrerako eta kalibrazio kurbak erabakiak probabilitateetan oinarritzen direnean. [2][3]
Mini-kasua: F1 apalarekin baina kalibrazio bikainarekin, eskuzko birbideratzeak murriztu ziren eragiketek atalase gogor batetik mailakatutako bideratzera (adibidez, "automatikoki konpontzea", "gizakiaren berrikuspena", "eskalatzea") kalibratutako puntuazio-bandei lotuta.
Lineako monitorizazioa, noraezean ibiltzea eta alertak 🚨
Lineaz kanpoko ebaluazioak hasiera dira, ez amaiera. Ekoizpenean:
-
Jarrai ezazu sarrerako desbideratzea , irteerako desbideratzea eta errendimenduaren gainbehera segmentuka.
-
Ezarri babes-egiaztapenak - haluzinazio-tasa maximoa, toxikotasun-atalaseak, bidezkotasun-deltak.
-
Gehitu Canary kontrol-panelak p95 latentzia, denbora-mugak eta eskaera bakoitzeko kostua zehazteko.
-
Erabili espresuki sortutako liburutegiak hau bizkortzeko; desbideratzea, kalitatea eta monitorizazio primitiboei buruzkoak eskaintzen dituzte hasieratik.
Metafora txiki akastun bat: pentsa ezazu zure eredua ogi garratz baten antzera - ez duzu behin labean egiten eta alde egiten; elikatzen duzu, ikusten duzu, usaintzen duzu eta batzuetan berrabiarazten duzu.
Giza ebaluazioa, hondatzen ez dena 🍪
Jendeak emaitzak kalifikatzen dituenean, prozesuak uste baino garrantzi handiagoa du.
-
Idatzi errubrika zehatzak gainditu, mugako mailan eta suspentsoaren adibideekin.
-
Ahalik eta gehien ausaz antolatu eta itsutu laginak.
-
Neurtu ebaluatzaileen arteko adostasuna (adibidez, Cohenen κ bi ebaluatzailerentzat, Fleissen κ askorentzat) eta freskatu errubrikak adostasuna galtzen bada.
Horrela, zure giza etiketak aldartearen edo kafe-horniduraren arabera aldatzea eragozten da.
Sakontzea: nola neurtu RAG-eko LLM-en IA errendimendua 🧩
-
Berreskuratze kalitatea - recall@k, precision@k, nDCG; urrearen datuen estaldura. [2]
-
Erantzunaren fideltasuna - aipatu eta egiaztatu egiaztapenak, oinarri-puntuazioak, aurkarien zundaketak.
-
Erabiltzailearen gogobetetasuna - erpuruak, zereginaren osatzea, zirriborro iradokietatik editatzeko distantzia.
-
Segurtasuna - toxikotasuna, informazio pertsonalaren isurketa, politika betetzea.
-
Kostua eta latentzia - tokenak, cache-kopuruak, p95 eta p99 latentziak.
Lotu hauek negozio-ekintzekin: lur-harremanak muga baten azpitik jaisten badira, automatikoki modu zorrotzera edo gizakiaren berrikuspenera bideratu.
Gaur hasteko koaderno sinple bat 🪄
-
Definitu lana - idatzi esaldi bat: zer egin behar du IAk eta norentzat.
-
Aukeratu 2-3 zereginen neurketa - gehi kalibrazioa eta gutxienez bidezkotasun zati bat. [2][3][5]
-
Erabaki atalaseak kostua erabiliz - ez asmatu.
-
Sortu ebaluazio multzo txiki bat - ekoizpen nahasketa islatzen duten 100-500 adibide etiketatu.
-
Automatizatu zure ebaluazioak - konektatu ebaluazioa/monitorizazioa CI-ra, aldaketa guztiek egiaztapen berdinak egin ditzaten.
-
Monitoreatu ekoizpenean - noraeza, latentzia, kostua, gorabehera-markatzaileak.
-
Hilero berrikusi - inork erabiltzen ez dituen neurriak kendu; benetako galderei erantzuten dietenak gehitu.
-
Dokumentatu erabakiak - zure taldeak benetan irakurtzen duen puntuazio-txartel bizia.
Bai, horixe da, literalki. Eta funtzionatzen du.
Ohiko akatsak eta nola saihestu 🕳️🐇
-
Metrika bakar batera gehiegi egokitzea erabaki testuinguruarekin bat datorren metrika saski bat erabili
-
Kalibrazioa alde batera utzita - kalibraziorik gabeko konfiantza harrokeria hutsa da. [3]
-
Segmentaziorik ez - beti erabiltzaile taldeen, geografiaren, gailuaren eta hizkuntzaren arabera banatu. [5]
-
Kostu zehaztugabeak - akatsen prezioa ezartzen ez baduzu, atalase okerra aukeratuko duzu.
-
Giza ebaluazio-desbideratzea - adostasuna neurtu, errubrikak freskatu, berrikusleak berriro trebatu.
-
Segurtasun-tresnarik ez - gehitu bidezkotasuna, toxikotasuna eta politika-egiaztapenak orain, ez geroago. [1][5]
Bila etorri zinen esaldia: nola neurtu IAren errendimendua - Luzeegia da, ez dut irakurri 🧾
-
Emaitza argiekin hasi , eta gero zereginen , sistemaren eta negozioaren metrikak pilatu. [1]
-
Erabili lanerako metrika egokiak - F1 eta ROC-AUC sailkapenerako; nDCG/MRR sailkapenerako; gainjartzea + metrika semantikoak sorkuntzarako (gizakiekin parekatuta). [2][4]
-
Kalibra itzazu zure probabilitateak eta kalkulatu zure erroreen prezioa atalaseak aukeratzeko. [2][3]
-
Gehitu bidezkotasun -egiaztapenak talde-zatiekin eta kudeatu konpentsazioak esplizituki. [5]
-
Automatizatu ebaluazioak eta jarraipena, beldurrik gabe errepikatu ahal izateko.
Badakizu nola den - neurtu garrantzitsua dena, edo hobetu egingo duzu ez dena.
Erreferentziak
[1] NIST. AI Arriskuen Kudeaketa Esparrua (AI RMF). Irakurri gehiago
[2] scikit-learn. Ereduaren ebaluazioa: iragarpenen kalitatea kuantifikatzea (Erabiltzailearen Gida). Irakurri gehiago
[3] scikit-learn. Probabilitatearen kalibrazioa (kalibrazio kurbak, Brier puntuazioa). Irakurri gehiago
[4] Papineni et al. (2002). BLEU: Itzulpen Automatikoaren Ebaluazio Automatikorako Metodo bat. ACL. Irakurri gehiago
[5] Hardt, Price, Srebro (2016). Aukera Berdintasuna Gainbegiratutako Ikaskuntzan. NeurIPS. Irakurri gehiago