Zer da IA ​​aurreprozesamendua?

Zer da IA ​​aurreprozesamendua?

Erantzun laburra: IA aurreprozesamendua errepika daitezkeen urrats multzo bat da, datu gordinak eta aldakortasun handikoak modelo sarrera koherente bihurtzen dituena, besteak beste, garbiketa, kodeketa, eskalatzea, tokenizazioa eta irudi eraldaketak. Garrantzitsua da, entrenamendu sarrerak eta ekoizpen sarrerak desberdinak badira, modeloek isilean huts egin dezaketelako. Urrats batek parametroak "ikasten" baditu, egokitu entrenamendu datuetan soilik, ihesak saihesteko.

IA aurreprozesamendua datu gordinei entrenamenduaren edo inferentziaren aurretik (eta batzuetan bitartean) egiten diezun guztia da, modelo batek horietatik benetan ikas dezan. Ez da "garbiketa" soilik. Datuak garbitzea, moldatzea, eskalatzea, kodetzea, handitzea eta ontziratzea da, geroago zure modeloa isil-isilik oztopatu ez dezan irudikapen koherente batean. [1]

Ondorio nagusiak:

Definizioa : Aurreprozesamenduak taula, testu, irudi eta erregistro gordinak modelorako prest dauden ezaugarri bihurtzen ditu.

Koherentzia : Entrenamenduan eta inferentzian zehar eraldaketa berdinak aplikatu, desadostasun-akatsak saihesteko.

Ihesaldia : Eskalatzaileak, kodetzaileak eta tokenizatzaileak entrenamendu datuetan soilik egokitu.

Erreproduzigarritasuna : Eraiki ikuska daitezkeen estatistikak dituzten hodiak, ez ad-hoc koadernoko zelula-sekuentziak.

Ekoizpenaren monitorizazioa : Jarrai ezazu asimetria eta desbideratzea, sarrerek errendimendua pixkanaka higatu ez dezaten.

Honen ondoren irakurri nahi izango dituzun artikuluak:

🔗 Nola probatu IA ereduak benetako munduaren errendimendurako
Zehaztasuna, sendotasuna eta alborapena azkar ebaluatzeko metodo praktikoak.

🔗 Testutik ahotsera IA da eta nola funtzionatzen du
TTS oinarriak, erabilera nagusiak eta gaur egungo muga ohikoenak azaltzen ditu.

🔗 Gaur egun, IA-k eskuizkribu etzana zehatz-mehatz irakur dezake?
Ezagutza erronkak, tresna onenak eta zehaztasun aholkuak biltzen ditu.

🔗 Zein zehatza da IA ​​ohiko zereginetan
Zehaztasun faktoreak, erreferentziak eta benetako munduko fidagarritasuna aztertzen ditu.


IA aurreprozesamendua hizkuntza arruntean (eta zer ez den) 🤝

IA aurreprozesamendua sarrera gordinak (taulak, testua, irudiak, erregistroak) modeloetarako prest dauden ezaugarri bihurtzea da. Datu gordinak garaje nahasi bat badira, aurreprozesamendua kutxak etiketatzea, zabor hautsia botatzea eta gauzak pilatzea da, minik gabe zeharkatu ahal izateko.

Ez da eredua bera. Eredua posible egiten duen gauzak dira:

  • kategoriak zenbaki bihurtzea (bat-beroa, ordinala, etab.) [1]

  • zenbakizko tarte handiak tarte egokietan eskalatzea (estandarizazioa, min-max, etab.) [1]

  • testua sarrera IDetan (eta normalean arreta maskara batean) tokenizatzea [3]

  • Irudien tamaina aldatzea/moztea eta transformazio deterministak vs. ausazko transformazioak behar bezala aplikatzea [4]

  • errepikagarriak diren hodiak eraikitzea, prestakuntza eta "benetako bizitzako" sarrerak modu sotiletan ez bereizteko [2]

Ohar praktiko txiki bat: "aurreprozesamenduak" sarrera modeloak ikusi aurretik etengabe gertatzen den guztia . Talde batzuek hau "ezaugarrien ingeniaritza" eta "datuen garbiketa" bi zatitan banatzen dute, baina benetako bizitzan lerro horiek lausoak dira.

 

IA aurreprozesamendua

Zergatik IA aurreprozesamendua jendeak onartzen duena baino garrantzitsuagoa da 😬

Modelo bat ereduak parekatzen dituen pertsona da, ez gogo-irakurlea. Zure sarrerak koherenteak ez badira, modeloak arau koherenteak ikasten ditu. Hori ez da filosofikoa, literalki mingarria baizik.

Aurreprozesamenduak honako hau laguntzen dizu:

  • Hobetu ikaskuntzaren egonkortasuna ezaugarriak estimatzaileek fidagarritasunez erabil ditzaketen irudikapenetan sartuz (batez ere eskalatzea/kodetzea tartean denean). [1]

  • Murriztu zarata errealitate nahasia modelo batek orokortu dezakeen zerbait bezala agerraraziz (artefaktu arraroak buruz ikasi beharrean).

  • Saihestu ihesak eta tren/zerbitzu desadostasunak bezalako hutsegite isilak (balidazioan "harrigarria" diruditen motakoak eta gero ekoizpenean aurpegi-plantak). [2]

  • Bizkortu iterazioa , errepika daitezkeen eraldaketak asteko egunero koadernoen espagetiak gainditzen baititu.

Gainera, “ereduaren errendimendu” asko hortik dator. Harrigarria bada ere, asko. Batzuetan bidegabea iruditzen zait, baina hori da errealitatea 🙃


Zerk egiten du IA aurreprozesatzeko hodi ona ✅

Aurreprozesamenduaren "bertsio on" batek normalean ezaugarri hauek ditu:

  • Erreproduzigarria : sarrera bera → irteera bera (ausazkotasun misteriotsurik ez, nahitako gehikuntza ez bada izan ezik).

  • Trenaren zerbitzuaren koherentzia : entrenamendu garaian egiten duzun guztia modu berean aplikatzen da inferentzia garaian (parametro egokitu berdinak, kategoria mapa berdinak, tokenizatzailearen konfigurazio bera, etab.). [2]

  • Ihes-segurua : ebaluazioan/proban ezerk ez du eraginik doikuntza- urratsetan. (Tranpa honi buruz gehiago laster.) [2]

  • Behagarria : aldatu dena ikuskatu dezakezu (ezaugarrien estatistikak, falta direnak, kategoria kopurua), beraz, arazketa ez da bibrazioetan oinarritutako ingeniaritza.

final_v7_really_final_ok izeneko koaderno-gelaxka pila bat bada ... badakizu nola den. Funtzionatzen du desagertu arte 😬


IA aurreprozesamenduaren oinarrizko eraikuntza-blokeak 🧱

Pentsa ezazu aurreprozesamendua hodi batean konbinatzen dituzun eraikuntza-bloke multzo gisa.

1) Garbiketa eta balidazioa 🧼

Ohiko zereginak:

  • kendu bikoiztuak

  • falta diren balioak kudeatu (falta kendu, egotzi edo esplizituki adierazi)

  • motak, unitateak eta barrutiak betearazi

  • sarrera okerrak detektatu

  • testu formatuak estandarizatzea (espazio zuriak, maiuskula/minuskula arauak, Unicode berezitasunak)

Zati hau ez da liluragarria, baina akats oso tontoak saihesten ditu. Maitasunez esaten dut hori.

2) Datu kategorikoak kodetzea 🔤

Modelo gehienek ezin dituzte zuzenean erabili "red" edo "premium_user" .

Ohiko ikuspegiak:

  • Kodeketa bero bakarra (kategoria → zutabe bitarrak) [1]

  • Kodeketa ordinala (kategoria → zenbaki osoko IDa) [1]

Garrantzitsuena ez da zein kodetzaile aukeratzen duzun, baizik eta mapaketa koherentea mantentzea eta ez “forma aldatzea” entrenamenduaren eta ondorioaren artean. Horrela lortzen duzu lineaz kanpo itxura ona duen eta sarean mamu baten moduan jokatzen duen eredu bat. [2]

3) Ezaugarrien eskalatzea eta normalizazioa 📏

Eskalatzea garrantzitsua da ezaugarriak oso tarte desberdinetan bizi direnean.

Bi klasiko:

  • Estandarizazioa : batez bestekoa kendu eta bariantza unitatera eskalatu [1]

  • Eskalatze minimoa-maximagoa : ezaugarri bakoitza zehaztutako tarte batean eskalatu [1]

"Gehienetan moldatzen" diren ereduak erabiltzen dituzunean ere, eskalatzeak askotan errazago egiten du hodien inguruan arrazoitzea, eta zailagoa nahi gabe haustea.

4) Ezaugarrien ingeniaritza (hau da, tranpa erabilgarria) 🧪

Hemen errazten duzu modeloaren lana seinale hobeak sortuz:

  • ratioak (klikak / inpresioak)

  • leiho mugikorrak (azken N egunak)

  • kontaketak (erabiltzaile bakoitzeko gertaerak)

  • logaritmoen transformazioak isats astuneko banaketetarako

Badago arte bat hemen. Batzuetan ezaugarri bat sortuko duzu, harro sentituko zara... eta ez du ezer egiten. Edo okerrago, min egingo dizu. Hori normala da. Ez zaitez emozionalki lotu ezaugarriekin - ez zaituzte maite 😅

5) Datuak modu egokian banatzea ✂️

Hau agerikoa dirudi, harik eta ez den arte:

  • IID datuen ausazko zatiketak

  • denbora-serieetarako denboran oinarritutako zatiketak

  • Entitateak errepikatzen direnean (erabiltzaileak, gailuak, pazienteak) taldekatutako zatiketak

Eta funtsezkoa: datuetatik ikasten duen aurreprozesamendua egokitu aurretik zatitu . Zure aurreprozesamendu urratsak parametroak "ikasten" baditu (batez bestekoak, hiztegia, kategoria mapak bezala), entrenamendutik bakarrik ikasi behar ditu. [2]


IA aurreprozesamendua datu motaren arabera: taula, testua, irudiak 🎛️

Aurreprozesatzeak forma aldatzen du modeloari zer ematen diozun arabera.

Datu tabularrak (kalkulu-orriak, erregistroak, datu-baseak) 📊

Ohiko urratsak:

  • balio faltaren estrategia

  • kategoria kodeketa [1]

  • zenbakizko zutabeak eskalatzea [1]

  • kanpokoen kudeaketa (domeinu-arauak "ausazko mozketa" gainditzen dute gehienetan)

  • eratorritako ezaugarriak (agregazioak, atzerapenak, estatistikak)

Aholku praktikoa: definitu zutabe-taldeak esplizituki (zenbakizkoak vs. kategorikoak vs. identifikatzaileak). Zure etorkizuneko niak eskertuko dizu.

Testu datuak (NLP) 📝

Testu aurreprozesamenduak askotan honako hauek barne hartzen ditu:

  • tokenizazioa token/azpihitzetan

  • sarrera IDetara bihurtzea

  • betegarria/mozketa

  • arreta-maskarak eraikitzea multzokatze-lanetarako [3]

Arau txiki bat mina aurrezten duena: transformadoreetan oinarritutako konfigurazioetarako, jarraitu modeloaren tokenizatzailearen ezarpen esperoei eta ez egin estilo librerik arrazoirik ez baduzu. Estilo librea ematea da "entrenatzen da baina arraroa da" esateko modua

Irudiak (ikusmen artifiziala) 🖼️

Aurreprozesaketa tipikoa:

  • tamaina aldatu / forma koherenteetara moztu

  • ebaluaziorako transformazio deterministak

  • ausazko eraldaketak entrenamenduaren handitzerako (adibidez, ausazko mozketa) [4]

Jendeak ahazten duen xehetasun bat: “ausazko eraldaketak” ez dira soilik bibrazio bat, literalki parametroak lagintzen dituzte deitzen diren bakoitzean. Bikaina da aniztasuna entrenatzeko, baina txarra ebaluaziorako ausazkotasuna desaktibatzea ahazten baduzu. [4]


Denok erortzen garen tranpa: datuen ihesa 🕳️🐍

Ihesa ebaluazio-datuetatik informazioa entrenamendura isilpean sartzen denean gertatzen da, askotan aurreprozesamenduaren bidez. Balidazioan zehar zure eredua magikoa agertzea eragin dezake, eta gero mundu errealean hutsik egin.

Ohiko isurketa-ereduak:

  • eskalatzea datu-multzo osoko estatistikak erabiliz (entrenamenduaren ordez soilik) [2]

  • kategoria-mapak eraikitzea train+test elkarrekin erabiliz [2]

  • edozein fit() edo fit_transform() urrats proba-multzoa “ikusten” duen [2]

Arau orokorra (sinplea, bortitza, eraginkorra):

  • egokia duen edozer entrenamenduetan bakarrik izan beharko litzateke egokia.

  • Ondoren, transformazio- balidazioa/proba egiten duzu egokitutako transformadore hori erabiliz. [2]

Eta "zenbat txarra izan daiteke?" galdera bat nahi baduzu, scikit-learn-en dokumentuek ihes baten adibidea erakusten dute, non aurreprozesatzeko ordena oker batek 0,76 ausazko helburuetan, eta gero ~ 0,5era ihesa konpondu ondoren. Horrelako sinesgarritasunez itxura izan dezakeen ihes oker batek. [2]


Aurreprozesaketa ekoizpenera kaosarik gabe sartzea 🏗️

Modelo askok huts egiten dute ekoizpenean, ez modeloa "txarra" delako, baizik eta sarrerako errealitatea aldatzen delako -edo zure prozesu-lerroa aldatzen delako-.

Ekoizpen-orientatutako aurreprozesamenduak normalean honako hauek barne hartzen ditu:

  • Gordetako artefaktuak (kodetzailearen mapaketak, eskalatzailearen parametroak, tokenizatzailearen konfigurazioa), ondorioztatzeak ikasitako eraldaketa berdinak erabil ditzan [2]

  • Sarrera-kontratu zorrotzak (espero diren zutabeak/motak/barrutiak)

  • Ekoizpen-datuak alde batera utziko baitituzte, asimetria eta desbideratzea kontrolatzea [5]

Definizio zehatzak nahi badituzu: Google-ren Vertex AI Model Monitoring-ek entrenamendu-zerbitzuaren asimetria (ekoizpenaren banaketa entrenamendutik aldentzen da) eta inferentziaren desbideratzea (ekoizpenaren banaketa denboran zehar aldatzen da) bereizten ditu, eta ezaugarri kategorikoen eta numerikoen monitorizazioa onartzen du. [5]

Sorpresak garestiak direlako. Eta ez dibertigarriak.


Konparazio taula: aurreprozesatzeko + monitorizatzeko tresna ohikoenak (eta norentzat diren) 🧰

Tresna / liburutegia Onena honetarako Prezioa Zergatik funtzionatzen duen (eta zintzotasun pixka bat)
scikit-learn aurreprozesamendua Taula formako ML hodiak Doan Kodetzaile solidoak + eskalatzaileak (OneHotEncoder, StandardScaler, etab.) eta portaera aurreikusgarria [1]
Aurpegi Besarkatua tokenizatzaileak NLP sarrera prestatzea Doan Sarrerako IDak + arreta-maskarak sortzen ditu modu koherentean exekuzio/eredu guztietan [3]
torchvision-ek eraldatzen ditu Ikusmenaren eraldaketa + handitzea Doan Transformazio deterministak eta ausazko transformazioak kanalizazio bakarrean nahasteko modu garbia [4]
Erpinen AI ereduaren monitorizazioa Produktuan desbideratze/okertze detekzioa Ordaindua (hodeia) Monitoreek asimetria/desbideratzea dute ezaugarri eta atalaseak gainditzen direnean alertak ematen dituzte [5]

(Bai, mahaiak oraindik iritziak ditu. Baina gutxienez iritzi zintzoak dira 😅)


Aurreprozesatzeko kontrol-zerrenda praktiko bat, benetan erabil dezakezuna 📌

Entrenamenduaren aurretik

  • Definitu sarrera-eskema bat (motak, unitateak, baimendutako barrutiak)

  • Auditatu falta diren balioak eta bikoiztuak

  • Datuak modu egokian banatu (ausazkoa / denboran oinarritua / taldekatuta)

  • Aurreprozesaketa egokitzea entrenamenduan bakarrik ( egokitzea / egokitze_transformazioa entrenamenduan geratzen da) [2]

  • Gorde aurreprozesatzeko artefaktuak, ondorioak berrerabili ahal izan ditzan [2]

Entrenamenduan zehar

  • Ausazko handitzea egokia den lekuetan bakarrik aplikatu (normalean entrenamendu zatiketa bakarrik) [4]

  • Mantendu ebaluazio aurreprozesamendua determinista [4]

  • Jarrai ezazu aurreprozesatzeko aldaketak modelo aldaketak bezala (hala direlako)

Hedapenaren aurretik

  • Ziurtatu inferentziak aurreprozesatzeko bide eta artefaktu berdinak erabiltzen dituela [2]

  • Konfiguratu desbideratze/okertze monitorizazioa (oinarrizko ezaugarrien banaketaren egiaztapenek ere asko laguntzen dute) [5]


Sakontzea: aurreprozesatzeko ohiko akatsak (eta nola saihestu) 🧯

1. akatsa: «Dena azkar normalizatuko dut» 😵

Eskalatze-parametroak datu-multzo osoan kalkulatzen badituzu, ebaluazio-informazioa galtzen ari zara. Egokitu trenean, eraldatu gainerakoa. [2]

2. akatsa: kategoriak kaosean murgilduta 🧩

Zure kategoria-mapak entrenamenduaren eta inferentziaren artean aldatzen badira, zure ereduak mundua isilean gaizki irakur dezake. Mantendu mapaketak finko gordetako artefaktuen bidez. [2]

3. akatsa: ausazko gehikuntza ebaluazioan isilpean sartzen da 🎲

Ausazko eraldaketak bikainak dira entrenamenduan, baina ez lirateke "isilpean aktibatuta" egon behar errendimendua neurtzen saiatzean. (Ausazkoak ausazkoa esan nahi du.) [4]


Azken oharrak 🧠✨

Adimen artifizialaren aurreprozesamendua errealitate nahasia sarrera koherente bihurtzeko arte diziplinatua da. Garbiketa, kodeketa, eskalatzea, tokenizazioa, irudien eraldaketak eta, garrantzitsuena, errepika daitezkeen hodiak eta artefaktuak hartzen ditu barne.

  • Egin aurreprozesamendua nahita, ez kasualitatez. [2]

  • Lehenengo zatitu, entrenamenduan bakarrik egokitu eraldaketak, saihestu ihesak. [2]

  • Erabili modalitate egokia duen aurreprozesamendua (tokenizatzaileak testurako, transformazioak irudietarako). [3][4]

  • Kontrolatu ekoizpenaren asimetria/noraezea, zure eredua poliki-poliki zentzugabekeriara ez joateko. [5]

Eta inoiz trabatuta bazaude, galdetu zeure buruari:
"Aurreprozesatzeko urrats honek zentzurik izango al luke bihar datu berriekin exekutatuko banu?".
Erantzuna "agian...?" bada, hori da zure pista 😬


Maiz egiten diren galderak

Zer da IA ​​aurreprozesamendua, modu sinplean esanda?

Adimen artifizialaren aurreprozesamendua errepika daitezkeen urrats multzo bat da, zarata handiko datu gordinak modelo batek ikas ditzakeen sarrera koherente bihurtzen dituena. Garbiketa, balidazioa, kategoriak kodetzea, balio numerikoak eskalatzea, testua tokenizatzea eta irudien eraldaketak aplikatzea barne har ditzake. Helburua da entrenamenduak eta ekoizpen-inferentziak sarrera "mota bera" ikusten dutela ziurtatzea, modeloak geroago portaera aurreikusezinetan ez erortzeko.

Zergatik da hainbeste garrantzitsua IA aurreprozesamendua ekoizpenean?

Aurreprozesamendua garrantzitsua da, modeloak sarrerako irudikapenarekiko sentikorrak direlako. Prestakuntza-datuak ekoizpen-datuekin alderatuta modu ezberdinean eskalatzen, kodetzen, tokenizatzen edo eraldatzen badira, lineaz kanpo ondo dauden baina linean isilean huts egiten duten prestaketa/zerbitzu desadostasun-hutsegiteak gerta daitezke. Aurreprozesamendu-hodi sendoek zarata murrizten dute, ikaskuntza-egonkortasuna hobetzen dute eta iterazioa bizkortzen dute, ez baituzu koadernoetako espagetiak askatzen.

Nola saihestu dezaket datu-ihesa aurreprozesatzean?

Arau sinple batek funtzionatzen du: doikuntza -urrats bat duen edozer entrenamendu-datuetan bakarrik egokitu behar da. Horrek eskalatzaileak, kodetzaileak eta tokenizatzaileak barne hartzen ditu, batez bestekoak, kategoria-mapak edo hiztegia bezalako parametroak ikasten dituztenak. Lehenik zatitu, entrenamendu-zatiketa batean egokitu, eta gero baliozkotzea/proba eraldatu, egokitutako transformadorea erabiliz. Ihesak balidazioa "magikoki" ona agertzea eragin dezake eta gero ekoizpen-erabileran kolapsatu.

Zeintzuk dira taula-datuetarako aurreprozesatzeko urrats ohikoenak?

Datu tabularrentzat, ohiko prozesuak garbiketa eta balidazioa (motak, barrutiak, falta diren balioak), kategoria-kodeketa (bakarra edo ordinala) eta eskalatze numerikoa (estandarizazioa edo minimoa-maxima) barne hartzen ditu. Prozesu-hodi askok domeinuetan oinarritutako ezaugarrien ingeniaritza gehitzen dute, hala nola ratioak, leiho mugikorrak edo zenbaketak. Ohitura praktiko bat zutabe-taldeak esplizituki definitzea da (zenbakizkoa vs. kategorikoa vs. identifikatzailea), zure eraldaketak koherenteak izan daitezen.

Nola funtzionatzen du testu-ereduetarako aurreprozesamenduak?

Testua aurreprozesatzea normalean esan nahi du tokenizazioa token/azpihitzetan, sarrera IDetan bihurtuz eta betedura/mozketa kudeatuz multzokatzeko. Transformadore-lan-fluxu askok arreta-maskara bat ere sortzen dute IDekin batera. Ikuspegi ohikoa da ereduaren tokenizatzailearen konfigurazio espero dena erabiltzea inprobisatu beharrean, tokenizatzailearen ezarpenetan desberdintasun txikiek "entrenatzen da baina modu ezustekoan jokatzen du" emaitzak ekar ditzaketelako.

Zer desberdintasun dago irudiak makina-ikaskuntzarako aurreprozesatzean?

Irudien aurreprozesamenduak normalean forma eta pixelen kudeaketa koherentea bermatzen du: tamaina aldatzea/moztea, normalizazioa eta transformazio deterministen eta ausazkoen arteko bereizketa argia. Ebaluaziorako, transformazioak deterministak izan behar dira, metrikak konparagarriak izan daitezen. Entrenamendurako, ausazko handitzeak (ausazko mozketak bezala) sendotasuna hobetu dezake, baina ausazkotasuna nahita entrenamendu zatiketara mugatu behar da, ez nahi gabe ebaluazioan zehar piztuta utzi.

Zerk egiten du aurreprozesatzeko hodi bat "ona" hauskorra izan beharrean?

IA aurreprozesatzeko kanalizazio ona erreproduzigarria, ihesen aurkakoa eta behagarria da. Erreproduzigarriak esan nahi du sarrera berak irteera bera sortzen duela, ausazkotasuna nahita handitzen ez bada behintzat. Ihes-seguruak esan nahi du egokitze-urratsek ez dutela inoiz balidazioa/proba ukitzen. Behagarriak esan nahi du falta diren datuak, kategoria kopurua eta ezaugarrien banaketak bezalako estatistikak ikuskatu ditzakezula, beraz, arazketa ebidentzian oinarritzen da, ez intuizioan. Kanariek beti gainditzen dituzte ad-hoc koaderno-sekuentziak.

Nola mantendu dezaket entrenamendua eta inferentzia aurreprozesamendua koherenteak?

Gakoa ikasitako artefaktu berberak berrerabiltzea da inferentzia-unean: eskalatzailearen parametroak, kodetzailearen mapaketak eta tokenizatzailearen konfigurazioak. Sarrera-kontratu bat ere nahi duzu (espero diren zutabeak, motak eta barrutiak), ekoizpen-datuak isilean forma baliogabeetan erori ez daitezen. Koherentzia ez da soilik "urrats berdinak egitea", baizik eta "urrats berdinak parametro eta mapaketa berdinekin egitea"

Nola kontrola ditzaket denboran zehar aurreprozesatzeko arazoak, hala nola desbideratzea eta asimetria?

Produkzio-hodi sendo bat izan arren, ekoizpen-datuak aldatu egiten dira. Ohiko ikuspegia ezaugarrien banaketaren aldaketak monitorizatzea eta entrenamendu-zerbitzuaren asimetria (ekoizpena entrenamendutik aldentzen bada) eta inferentziaren desbideratzea (ekoizpenaren aldaketak denboran zehar) abisatzea da. Monitorizazioa arina (oinarrizko banaketa-egiaztapenak) edo kudeatua izan daiteke (Vertex AI Model Monitoring bezala). Helburua sarrera-aldaketak goiz detektatzea da, modeloaren errendimendua poliki-poliki higatu aurretik.

Erreferentziak

[1] scikit-learn APIa:
sklearn.preprocessing (kodetzaileak, eskalatzaileak, normalizazioa) [2] scikit-learn: Ohiko tranpak - Datuen ihesa eta nola saihestu
[3] Hugging Face Transformers dokumentuak: Tokenizatzaileak (sarrera IDak, arreta maskarak)
[4] PyTorch Torchvision dokumentuak: Transformazioak (tamaina aldatu/normalizatu + ausazko transformazioak)
[5] Google Cloud Vertex AI dokumentuak: Modeloen monitorizazioaren ikuspegi orokorra (ezaugarrien asimetria eta desbideratzea)

Aurkitu azken IA AI Laguntzaileen Denda Ofizialean

Guri buruz

Blogera itzuli