Nola bereizten da IA eskalatzea tamaina aldatzeko metodo tradizionaletatik?

IAren eskalatze-moduak irudi bateko ereduetan bereizmen handiko xehetasunak falta direla aurreikusten du, interpolazio bikubiko bezalako metodo tradizionalek egiten duten bezala pixelak luzatu beharrean. Horren ondorioz, irudi zorrotzagoak eta zehatzagoak lortzen dira.

Zein dira IA eskalatzea erabiltzean kontuan hartu behar ditudan ohiko artefaktuak?

Ohiko artefaktuen artean daude ertzetan haloak, ehundura-eredu errepikatuak, aurpegi leun edo argizaritsu gehiegi, eta "ia letrak" bihurtzen den testua. Garrantzitsua da arazo hauek kontrolatzea emaitza naturala lortzeko.

Zergatik agertzen dira batzuetan aurpegiak leunregiak edo errealistagabeak eskala handitu ondoren?

Aurpegiak leunregiak izan daitezke zarata kentzeko eta zorrozteko prozesu oldarkorraren ondorioz, poroak bezalako ehundurak kendu baititzake. Itxura naturalagoa lortzeko, kontuan hartu zarata kentzeko eta zorrozteko ezarpenak murriztea.

Zer egin behar dut nire irudiak kurruskariak edo zarata gehiegi badute IA eskalatzea erabili ondoren?

Irudiak kurruskariak badira, saiatu zarata kentzeko eta xehetasunak hobetzeko graduatzaileak doitzen. Pikor sotila gehitzeak ere lagun dezake argazki-itxura berreskuratzen.

Nola alderatzen dira GAN eta CNN ereduak AI eskalatze emaitzetan?

CNN ereduak, oro har, egonkorrak eta aurreikusgarriak dira, GAN ereduek, berriz, xehetasun zorrotzagoak ematen dituzte, baina elementu errealistak sartzeko arriskua dute. Horien artean aukeratzea errealismoaren beharraren eta ehundura hobetuaren beharraren araberakoa da.

IAren eskalatzea egokia al da bideo edukietarako, eta zer erronka ditu?

Bai, IAren eskalatzea egokia da bideoetarako, baina erronka bat izan daiteke, fotograma arteko koherentzia funtsezkoa baita. Xehetasun keinukariek edo distiratsuek ikusleak arreta galarazi ditzakete, beraz, bideoetan oinarritutako metodo espezializatuak gomendatzen dira.

Noiz ez da egokia IAren eskalatzeaz fidatzea?

IAren eskalatzea kontu handiz erabili behar da arrisku handiko egoeretan, hala nola kazetaritzan edo analisi forentsean, non zehaztasuna funtsezkoa den. Hobe da hobekuntza gisa hartzea, froga definitiboa baino, eta IA prozesuei buruzko gardentasuna ezinbestekoa da.

Zer kontuan hartu behar ditut oso konprimitutako irudiak eskala handiagoz handitzerakoan?

Oso konprimituta dauden irudietarako, hasi artefaktuak kentzen nahi ez diren blokeoak gutxitzeko. Ondoren, eskala handitu eta zorroztasun arina aplika dezakezu beharrezkoa bada xehetasunak mantentzeko konpresio-artefaktuak anplifikatu gabe.

Nola funtzionatzen du AI Upscaling-ak?

Erantzun laburra: IAren eskalatzea eredu bat bereizmen baxuko eta handiko irudi parekatuetan entrenatuz funtzionatzen du, eta gero pixel gehigarri sinesgarriak aurreikusteko erabiliz eskalatzean. Ereduak antzeko ehundurak edo aurpegiak ikusi baditu entrenamenduan, xehetasun sinesgarriak gehi ditzake; bestela, bideoan haloak, azal argizaria edo keinuak bezalako artefaktuak "haluzinatu" ditzake.

Ondorio nagusiak:

Iragarpena: Modeloak xehetasun sinesgarriak sortzen ditu, ez errealitatearen berreraikuntza bermatua.

Ereduaren aukera: CNNek egonkorragoak izan ohi dira; GANek zorrotzagoak izan daitezke, baina ezaugarriak asmatzeko arriskua dute.

Artefaktuen egiaztapenak: Kontuz haloekin, ehundura errepikatuekin, “ia letrak” eta aurpegi plastikoekin.

Bideoaren egonkortasuna: Erabili denborazko metodoak, bestela fotograma batetik bestera distira eta desbideratzea ikusiko duzu.

Erabilera arriskutsua: Zehaztasuna axola bada, prozesamendua jakinarazi eta emaitzak ilustratibo gisa tratatu.

Nola funtzionatzen du IAren eskalatzea? Infografia.

Ziurrenik ikusi duzu: irudi txiki eta kurruskari bat inprimatzeko, erreproduzitzeko edo aurkezpen batean zimurtu gabe jartzeko bezain garbi bihurtzen da. Iruzurra bezala sentitzen da. Eta - modurik onenean - nolabait hala da 😅

Beraz, IAren eskalatzea nola funtzionatzen duen "ordenagailuak xehetasunak hobetzen ditu" (esku uhintsua) baino zerbait zehatzagoa da, eta "eredu batek bereizmen handiko egitura sinesgarria iragartzen du adibide askotatik ikasitako ereduetan oinarrituta" esamoldeari hurbilago dago (Irudi superbereizmenerako ikaskuntza sakona: inkesta bat). Iragarpen urrats hori da joko osoa, eta horregatik izan daiteke IAren eskalatzea harrigarria... edo pixka bat plastikoa... edo zure katuak bibote gehigarriak hazi izan balitu bezala.

Honen ondoren irakurri nahi izango dituzun artikuluak:

🔗 Nola funtzionatzen duen IAk
Ikasi AI-ko modeloen, datuen eta inferentziaren oinarriak.

🔗 Nola ikasten du IAk
Ikusi nola hobetzen duten entrenamendu-datuek eta feedbackak modeloaren errendimendua denboran zehar.

🔗 Nola detektatzen dituen IAk anomaliak
Ulertu oinarrizko ereduak eta nola adimen artifizialak portaera ezohikoak azkar markatzen dituen.

🔗 Nola aurreikusten duen IAk joerak
Arakatu seinaleak hautematen dituzten eta etorkizuneko eskaria aurreikusten duten aurreikuspen metodoak.

Nola funtzionatzen duen IAren eskalatzea: ideia nagusia, eguneroko hitzetan 🧩

Eskalatzea handitzeak bereizmena handitzea esan nahi du: pixel gehiago, irudi handiagoa. Eskalatze tradizionalak (bikubikoa bezala) funtsean pixelak luzatzen ditu eta trantsizioak leuntzen ditu (interpolazio bikubikoa). Ondo dago, baina ezin ditu berriak - interpolatu besterik ez du egiten.

IA eskalatzeak zerbait ausartagoa saiatzen da (ikerketaren munduan "super-bereizmena" bezala ere ezagutzen dena) (Irudiaren super-bereizmenerako ikaskuntza sakona: inkesta bat):

Bereizmen baxuko sarrerari begiratzen dio
Ereduak ezagutzen ditu (ertzak, ehundurak, aurpegiko ezaugarriak, testu-trazuak, ehunen ehundura...)
Bereizmen handiagoko bertsio batek nolako itxura izan beharko lukeen aurreikusten du
Eredu horiei egokitzen zaizkien pixel datu gehigarriak sortzen ditu

Ez da "errealitatea ezin hobeto leheneratu", baizik eta "asmakizun oso sinesgarria egin" (Irudi Superbereizmena Sare Konboluzional Sakonak Erabiliz (SRCNN)). Susmagarria iruditzen bazaizu, ez zaude oker - baina horregatik funtzionatzen du hain ondo 😄

Eta bai, honek esan nahi du AI eskalatzea funtsean haluzinazio kontrolatua dela... baina modu produktiboan eta pixelak errespetatuz.

Zerk egiten du IAren eskalatze-bertsio ona? ✅🛠️

IA eskalatzaile bat (edo aurrezarpen bat) epaitzen ari bazara, hona hemen garrantzitsuena dena:

Xehetasunak berreskuratzea gehiegi egosi gabe
Eskalatze onak kurruskaria eta egitura gehitzen ditu, ez zarata kurruskaria edo poro faltsuak.
Ertzen diziplina
Lerro garbiek garbi mantentzen dute. Modelo txarrek ertzak dardarka edo haloak sortzen dituzte.
Ehundura errealismoa
Ileak ez luke pintzelkada bihurtu behar. Adreilua ez luke errepikatzen den eredu-zigilu bihurtu behar.
Zarata eta konpresioaren kudeaketa
Eguneroko irudi asko JPEG formatuan hiltzeraino bihurtzen dira. Eskalatzaile on batek ez du kalte hori anplifikatuko (Benetako ESRGAN).
Aurpegi eta testuaren kontzientzia
Aurpegiak eta testua dira akatsak antzemateko lekurik errazenak. Modelo onek astiro tratatzen dituzte (edo modu espezializatuak dituzte).
Fotograma arteko koherentzia (bideoarentzat)
Xehetasunak fotogramaz fotograma keinuka badabiltza, zure begiek oihu egingo dute. Bideoaren eskalatzea denbora-egonkortasunaren araberakoa da (BasicVSR (CVPR 2021)).
Zentzua duten kontrolak
Benetako emaitzara egokitzen diren graduatzaileak nahi dituzu: zarata kentzea, lausotasuna kentzea, artefaktuen kentzea, pikorren atxikipena, zorroztzea... gauza praktikoak.

Arau lasai bat, baina indarrean dagoena: eskalatze “onena” askotan ia nabaritzen ez duzuna da. Hasieran kamera hobea zenuela dirudi, besterik gabe 📷✨

Konparazio taula: IA eskalatzeko aukera ezagunak (eta zertarako diren onak) 📊🙂

Jarraian, konparazio praktiko bat dago. Prezioak nahita lausoak dira, tresnak lizentziaren, paketeen, kalkulu-kostuen eta gauza dibertigarri horien guztien arabera aldatzen direlako.

Tresna / Ikuspegia	Onena honetarako	Prezioaren giroa	Zergatik funtzionatzen duen (gutxi gorabehera)
Topaz estiloko mahaigaineko eskalatzaileak (Topaz Photo, Topaz Video)	Argazkiak, bideoa, lan-fluxu erraza	Ordainpeko samarra	Modelo orokor sendoak + doikuntza asko, "funtzionatzeko" joera dute... gehienetan
Adobe "Super Bereizmena" motako ezaugarriak (Adobe Hobetu > Super Bereizmena)	Ekosistema horretan dagoeneko dauden argazkilariak	Harpidetza-y	Xehetasun sendoen berreraikuntza, normalean kontserbadorea (drama gutxiago)
ESRGAN erreala / ESRGAN aldaerak (ESRGAN erreala, ESRGAN)	Brikolajea, garatzaileak, multzoko lanak	Doakoa (baina denbora asko eskatzen duena)	Ehundura xehetasunetan bikaina, aurpegietan pikantea izan daiteke kontuz ez bazaude
Difusioan oinarritutako eskalatze moduak (SR3)	Sormen lana, emaitza estilizatuak	Mistoa	Xehetasun ederrak sor ditzake - zentzugabekeriak asmatu ere egin ditzake, beraz... bai
Jokoen eskalatzaileak (DLSS/FSR estilokoak) (NVIDIA DLSS, AMD FSR 2)	Denbora errealeko jokoak eta errendatzea	Multzokatua	Mugimendu datuak eta ikasitako aurretikoak erabiltzen ditu - errendimendu leuna irabazten du 🕹️
Hodeiko eskalatze zerbitzuak	Erosotasuna, garaipen azkarrak	Erabilera bakoitzeko ordainketa	Azkarra + eskalagarria, baina kontrola eta batzuetan sotiltasuna trukatzen dituzu
Bideoetan oinarritutako IA eskalatzaileak (BasicVSR, Topaz Video)	Antzinako irudiak, animeak, artxiboak	Ordainpeko samarra	Denbora-trikimailuak keinua murrizteko + bideo-eredu espezializatuak
"Telefono adimendunaren"/galeriaren eskalatzea	Erabilera arrunta	Barne	Emaitza atseginerako egokitutako modelo arinak, ez perfekziorako (oraindik ere erabilgarriak)

Formatuaren bitxikeriaren aitorpena: "Ordaindutako" hitzak lan handia egiten ari da taula horretan. Baina ideia ulertzen duzu 😅

Sekretu handia: modeloek bereizmen baxukotik bereizmen handikorako mapaketa bat ikasten dute 🧠➡️🖼️

IA eskalatze gehienen muinean gainbegiratutako ikaskuntza konfigurazio bat dago (Irudi Super-Erresoluzioa Sare Konvoluzional Sakonak Erabiliz (SRCNN)):

Hasi bereizmen handiko irudiekin ("egia")
Txikitu bereizmen baxuko bertsioetara ("sarrera")
Entrenatu eredu bat jatorrizko bereizmen handiko irudia bereizmen txikiko iruditik berreraikitzeko

Denborarekin, ereduak korrelazioak ikasten ditu, hala nola:

"Begi inguruko lausotasun mota hau normalean betileei dagokie"
"Pixel multzo honek askotan serif testua adierazten du"
"Ertz-gradiente honek teilatu-lerro baten itxura du, ez zarata ausazkoa"

Ez da irudi zehatzak buruz ikastea (zentzu sinplean), egitura estatistikoa ikastea baizik (Irudi Superbereizmenerako Ikaskuntza Sakona: Inkesta bat). Pentsa ezazu ehunduren eta ertzen gramatika ikastea bezala. Ez poesiaren gramatika, gehiago... IKEAren eskuliburuko gramatika 🪑📦 (metafora traketsa, baina nahiko antzekoa).

Torlojuak eta azkoinak: zer gertatzen da inferentzian zehar (eskala handitzen duzunean) ⚙️✨

Irudi bat AI eskalatzaile batera bidaltzen duzunean, normalean honelako hodi bat egoten da:

Aurreprozesamendua
- Kolore-espazioa bihurtu (batzuetan)
- Normalizatu pixelen balioak
- Irudia zatitan teilakatu handia bada (VRAM errealitatearen egiaztapena 😭) (Real-ESRGAN biltegia (teila aukerak))
Ezaugarrien erauzketa
- Lehen geruzek ertzak, izkinak eta gradienteak detektatzen dituzte
- Geruza sakonagoek ereduak detektatzen dituzte: ehundurak, formak, aurpegiko osagaiak
Berreraikuntza
- Modeloak bereizmen handiagoko ezaugarrien mapa sortzen du
- Ondoren, hori benetako pixel irteera bihurtzen du
Postprozesamendua
- Zorroztze aukerakoa
- Zarata kentzeko aukera
- Aukerako artefaktuen ezabapena (txirrin-hotsa, haloak, bloke-egoerak)

Xehetasun sotil bat: tresna askok teilak handitu eta gero josturak nahasten dituzte. Tresna bikainak teilen mugak ezkutatzen dituzte. Tresna bikainek sare-marka ahulak uzten dituzte begiak estutu egiten badituzu. Eta bai, begiak estutu egingo dituzu, gizakiok inperfekzio txikiak % 300eko zoomarekin ikuskatzea maite dugulako, gremlin txikiak bezala 🧌

IA eskalatzeko erabiltzen diren modelo familia nagusiak (eta zergatik diren desberdinak) 🤖📚

1) CNNn oinarritutako super-bereizmena (lanerako zaldi klasikoa)

Sare neuronal konboluzionalak bikainak dira eredu lokaletan: ertzak, ehundurak, egitura txikiak (Irudi Superbereizmena Sare Konboluzional Sakonak Erabiliz (SRCNN)).

Alde onak: azkarra, egonkorra, sorpresa gutxiago
Alde txarrak: gogor estutzen bada, "prozesatu" samarra dirudi

2) GAN oinarritutako eskalatzea (ESRGAN estilokoa) 🎭

GANek (Sare Aurkari Sortzaileek) sorgailu bat entrenatzen dute bereizle batek benetako irudietatik bereizi ezin ditzakeen bereizmen handiko irudiak sortzeko (Sare Aurkari Sortzaile).

Alde onak: xehetasun biziak, ehundura ikusgarria
Alde txarrak: ez zeuden xehetasunak asmatu ditzake - batzuetan okerrak, batzuetan harrigarriak (SRGAN, ESRGAN)

GAN batek zorroztasun hori eman diezazuke. Erretratuko subjektuari bekain gehigarri bat ere eman diezaioke. Beraz... aukeratu zure borrokak 😬

3) Difusioan oinarritutako eskalatzea (sormen-komodina) 🌫️➡️🖼️

Difusio-ereduek zarata pausoz pauso kentzen dute eta bereizmen handiko xehetasunak sortzeko gidatu daitezke (SR3).

Alde onak: xehetasun sinesgarrietan izugarri ona izan daiteke, batez ere sormenezko lanetarako
Alde txarrak: jatorrizko identitate/egituratik urrundu daiteke giro oldarkorra bada (SR3)

Hemen hasten da “eskalatzea” “berriro irudikatzea”rekin nahasten. Batzuetan horixe da nahi duzuna. Batzuetan ez.

4) Bideoaren eskalatzea denbora-koherentziarekin 🎞️

Bideoaren eskalatzea sarritan mugimenduaren araberako logika gehitzen du:

Xehetasunak egonkortzeko ondoko fotogramak erabiltzen ditu (BasicVSR (CVPR 2021))
Distira eta arakatzeko artefaktuak saihesten saiatzen da
Askotan superbereizmena zarata-kentzearekin eta desgurutzelatzearekin konbinatzen du (Topaz Video)

Irudien eskala handitzea margolan bat zaharberritzea bezalakoa bada, bideoen eskala handitzea liburu elektroniko bat zaharberritzea bezalakoa da, pertsonaiaren sudurra orrialde bakoitzean forma aldatu gabe. Eta hori... dirudiena baino zailagoa da.

Zergatik dirudien batzuetan IA eskalatzea faltsua (eta nola antzeman) 👀🚩

IA eskalatzea modu ezagunetan huts egiten du. Patroiak ikasten dituzunean, nonahi ikusiko dituzu, auto berri bat erosi eta bat-batean modelo hori kale guztietan ikustea bezala 😵💫

Komunak dio:

azala argizariz depilatzea (zarata gehiegi kentzea + leuntzea)
Ertzetan gehiegi zorroztutako haloak ("gehiegizko" lurralde klasikoa) ( Interpolazio bikubikoa )
Errepikatutako ehundurak (adreiluzko hormak kopiatu-itsatsi eredu bihurtzen dira)
"Algoritmoa" oihukatzen duen mikrokontraste kurruskaria
Testu-nahasketa, non letrak ia-letra bihurtzen diren (mota txarrena)
Xehetasunen desbideratzea, non ezaugarri txikiak sotilki aldatzen diren, batez ere difusio-lan-fluxuetan (SR3)

Zati korapilatsua: batzuetan artefaktu hauek “hobeto” ikusten dira begirada batean. Zure garunak zorroztasuna gustuko du. Baina une baten ondoren,… arraroa iruditzen da.

Taktika duin bat zooma urruntzea eta distantzia normalean naturala den ikustea da. % 400eko zoomarekin bakarrik ondo ikusten bada, ez da garaipena, zaletasuna da 😅

Nola funtzionatzen duen IAren igoerak: prestakuntza aldea, matematikako buruhausterik gabe 📉🙂

Superbereizmeneko modeloak entrenatzeak normalean honako hauek dakartza:

Datu-multzo parekatuak (sarrera bereizmen baxukoa, helburu bereizmen handikoa) (Irudi Superbereizmena Sare Konboluzional Sakonak Erabiliz (SRCNN))
Berreraikuntza okerrak zigortzen dituzten galera-funtzioak ( SRGAN )

Ohiko galera motak:

Pixel galera (L1/L2)
Zehaztasuna sustatzen du. Emaitza apur bat ahulak eman ditzake.
Pertzepzio-galerak pixel zehatzak baino ezaugarri sakonagoak alderatzen ditu (adibidez, "hau antzekoa da") ( Pertzepzio-galerak (Johnson et al., 2016) ).
Aurkarien galerak (GAN)
errealismoa sustatzen du, batzuetan zehaztasun literalaren kaltetan (SRGAN, Sare Aurkari Generatiboak).

Sokatira etengabea dago:

Jatorrizkoarekiko leial izan dadin vs.
Egin ezazu bisualki atsegina

Tresna desberdinak espektro horretan leku desberdinetan kokatzen dira. Eta bat nahiago izan dezakezu familiako argazkiak zaharberritzen ari zaren edo poster bat prestatzen ari zaren, non "itxura ona" zehaztasun forentsea baino gehiago axola duen.

Lan-fluxu praktikoak: argazkiak, eskaneatu zaharrak, animeak eta bideoak 📸🧾🎥

Argazkiak (erretratuak, paisaiak, produktuen argazkiak)

Praktika onena normalean hau da:

Zarata arina kendu lehenik (beharrezkoa bada)
Doikuntza-maila altua ezarpen kontserbadoreekin
Gehitu alea berriro gauzak leunak iruditzen bazaizkizu (bai, benetan)

Zerealak gatza bezalakoak dira. Gehiegi jateak afaria hondatzen du, baina bat ere ez da zapore apur bat laua izango 🍟

Eskaneatu zaharrak eta irudi oso konprimituak

Hauek zailagoak dira, ereduak konpresio-blokeak "ehundura" gisa trata ditzakeelako.
Saiatu:

Artefaktuak kentzea edo desblokeatzea
Ondoren, maila igo
Gero zorroztze arina (ez gehiegi... Badakit, denek esaten dute hori, baina hala ere)

Animea eta lerro-artea

Lerro-arteak onura hauek ditu:

Ertz garbiak mantentzen dituzten modeloak
Ehundura-haluzinazio murriztua
Animearen eskalatzea askotan itxura bikaina du formak sinpleagoak eta koherenteagoak direlako. (Zortea.)

Bideoa

Bideoak urrats gehigarriak gehitzen ditu:

Zarata kendu
Desgurutzelarkatzea (iturri batzuetarako)
Goi-mailako
Denboraren leuntzea edo egonkortzea (BasicVSR (CVPR 2021))
Kohesiorako aukerako aleen birsartzea

Denbora-koherentzia saltatzen baduzu, xehetasun distiratsu hori lortzen duzu. Behin ohartzen zarenean, ezin duzu ikusi gabe utzi. Gela isil batean kirrinka egiten duen aulki bat bezala 😖

Ezarpenak aukeratzea asmatu gabe (aholku txiki bat) 🎛️😵💫

Hona hemen hasierako pentsamolde duin bat:

Aurpegiak plastikozkoak badira
, murriztu zarata, murriztu zorroztasuna, eta saiatu aurpegia kontserbatzen duen modelo edo modu bat.
Ehundurak biziegiak badira,
jaitsi "xehetasunen hobekuntza" edo "xehetasunen berreskurapena" graduatzaileak, eta gehitu pikor sotila ondoren.
Ertzak distira egiten badute
Jaitsi zorroztasuna, egiaztatu haloa kentzeko aukerak.
Irudia gehiegi “AI” dela iruditzen bada,
kontserbadoreagoa izan. Batzuetan, mugimendurik onena… gutxiago da, besterik gabe.

Gainera: ez handitu 8x eskala, ahal duzulako bakarrik. 2x edo 4x garbi bat izaten da aukerarik onena. Hortik aurrera, modeloari zure pixelei buruzko fanfikzioa idazteko eskatzen ari zara 📖😂

Etika, benetakotasuna eta "egiaren" galdera deserosoa 🧭😬

IAren eskalatzeak lerro bat lausotzen du:

Zaharberritzeak bazegoena berreskuratzea esan nahi du
Hobekuntzak ez zegoena gehitzea dakar

Argazki pertsonalekin, normalean ondo dago (eta ederra). Kazetaritza, froga legal, irudi mediko edo fideltasunak garrantzia duen edozein gauzarekin... kontuz ibili behar duzu (OSAC/NIST: Irudi Digitalen Kudeaketa Forentseko Gida Estandarra, SWGDE Irudien Analisi Forentseko Jarraibideak).

Arau sinple bat:

Arrisku handia badago, hartu IAren eskalatzea adibide, ez behin betiko gisa.

Gainera, dibulgazioa garrantzitsua da testuinguru profesionaletan. Ez IA gaiztoa delako, baizik eta publikoak xehetasunak berreraiki edo jaso diren jakin behar duelako. Hori... errespetuzkoa da, besterik gabe.

Amaierako oharrak eta laburpen azkar bat 🧡✅

Beraz, IAren eskalatzea nola funtzionatzen duen hau da: modeloek bereizmen handiko xehetasunak bereizmen baxuko ereduekin nola erlazionatzen diren ikasten dute, eta gero pixel gehigarri sinesgarriak aurreikusten dituzte eskalatzean zehar ( Irudi Superbereizmenerako Ikaskuntza Sakona: Inkesta bat ). Modelo familiaren arabera (CNN, GAN, difusioa, bideo-denborala), iragarpen hori kontserbadorea eta fidela izan daiteke... edo ausarta eta batzuetan desorekatua 😅

Laburpen azkarra

Ohiko eskalatze-moduak pixelak luzatzen ditu (interpolazio bikubikoa)
Adimen artifizialaren eskalatzeak falta diren xehetasunak aurreikusten ditu ikasitako ereduak erabiliz (Irudi Superbereizmena Sare Konboluzional Sakonak Erabiliz (SRCNN))
Emaitza bikainak eredu egokiarekin + neurritasunarekin datoz
Bideoan haloak, aurpegi argizariak, ehundura errepikatuak eta keinuak ikusi (BasicVSR (CVPR 2021))
Eskalatzea askotan "berreraikuntza sinesgarria" da, ez egia perfektua (SRGAN, ESRGAN)

Nahi baduzu, esan iezadazu zer ari zaren handitzen (aurpegiak, argazki zaharrak, bideoak, animeak, testu eskaneatuak), eta "IA itxuraren" ohiko akatsak saihesteko estrategia bat proposatuko dizut 🎯🙂

Benetako munduko adibidea: merkatuko produktuen argazki zaharrak handitzea 📸

Eszenatokia

Bigarren eskuko kamera-denda txiki batek 40 produktu-argazki esportatu ditu webgune zahar batetik, 800px zabalerakoak. Jabeak berrerabili nahi ditu merkataritza elektronikoko orrialde berri batean, non gomendatutako irudi-tamaina 1.600px zabalerakoa den.

Arazoa: tamaina aldatzeak kamerak bigunagoak ematen ditu, eta IA eskalatze oldarkorrak, berriz, gomazko heldulekuak, serie-zenbakiak eta lenteen markak susmagarri faltsuak iruditu ditzake. Hori garrantzitsua da, erosleek xehetasun horietan oinarritzen baitira erosi aurretik.

Helburua ez da falta den informazioa ezin hobeto “berreskuratzea”. Jatorrizko fitxategiak eskuragarri mantenduz, zeren eta IAren eskalatzeak xehetasun sinesgarriak aurreikusten baititu egia bermatua baino.

Lan-fluxuak zer behar duen

Jatorrizko produktuen argazkiak, ahal dela eskuragarri dauden bertsio gutxien konprimituak

Irteerako tamaina helburu bat, adibidez, 800px-tik 1.600px-ra 2× eskala handitzea

Zarata kentzeko, zorrozteko eta artefaktuak kentzeko kontrol bereiziak dituen tresna edo modeloa

Testua, ertzak, logotipoak, torlojuak, botoiak, larruaren alea eta islapenak berrikusteko kontrol-zerrenda sinple bat

Jatorrizkoentzako karpeta bat eta editatutako esportazioentzako karpeta bereizi bat, ezer ez gainidatziko dezan

Adibide-argibidea

Erabili argibide mota hau IA eskalatzaile bat probatzerakoan:

Handitu produktuaren argazki hau 2x merkataritza elektronikoko zerrenda baterako. Mantendu objektuaren forma, logotipoaren kokapena, lenteen markak, botoien ertzak eta gainazalaren ehundura ahalik eta gehien jatorrizkotik. Erabili konpresio garbiketa leuna, zorroztasun txikia, eta saihestu testu gehigarria, marradurak, etiketak, serie-zenbakiak edo xehetasun apaingarriak asmatzea. Azken irudia naturala izan behar da produktuaren orrialdearen tamaina normalean, ez artifizialki zorrotza % 400eko zoomarekin.

Nola probatu

Hasi bost irudi nahasiekin multzo osoa prozesatu aurretik:

Produktuaren argazki garbi bat, argiztapen onarekin

JPEG konprimitutako irudi bat bloke-formatuarekin

Argazki bat testu inprimatu txikiekin edo lenteen markak dituena

Irudi ilun bat itzaletan zarata duena

Irudi bat metal edo beira islatzailea duena

Eskala handitu ondoren, alderatu emaitza bakoitza jatorrizkoarekin % 100ean eta % 200ean. Egiaztatu marken izenak, markagailuak, torlojuak, atakak eta ehundura-ereduak bat datozen oraindik. Modeloak “ia letrak” edo gainazaleko marka faltsuak sortzen baditu, jaitsi zorrozte- edo xehetasun-berreskuratze-ezarpena.

Emaitza

Emaitza ilustratiboa: lan-fluxu hau erabili aurretik eta ondoren bost irudiko proba baten denboran oinarrituta.

Eskuzko garbiketak eta tamaina aldatzeak 9 minutu inguru behar izan zituen irudi bakoitzeko, edo 45 minutu bost irudirentzat.

AI bidezko lan-fluxuak 3 minutu inguru behar izan zituen irudi bakoitzeko, edo 15 minutu bost irudirentzat.

Hori kalkulatzen da 30 minutu aurrezten direla bost iruditan, edo 40 irudiko multzo batean 4 ordu inguru aurrezten direla.

Kalitate-egiaztapenaren emaitza: 5 iruditik 4k gainditu zuten lehen berrikuspena. Irudi batek huts egin zuen eskalatzaile hobetzaileak lente txikiko testua desitxuratu zuelako, beraz, berriro prozesatu zen zorroztasun txikiagoarekin eta testua hobetu gabe.

Neurketa baliotsua ez da soilik "zorrotzagoa dirudi". Hauxe da: zenbat irudik gainditzen dute alboz alboko berrikuspen bat xehetasun asmatu gabe?

Zer gaizki atera daiteke?

Modeloak hautsa, JPEG blokeak edo marradurak "benetako" ehundura bihur ditzake.

Testu txikiak testu faltsu bihur daitezke, eta sinesgarria dirudi zooma handitu arte.

Zarata gehiegi kentzeak kautxua, larrua edo metal eskuilatuduna argizariaren itxura eman dezake.

Zorroztu egin behar izanez gero, haloak sor daitezke produktuaren ertzen inguruan.

Multzo-prozesamenduak akatsak ezkutatu ditzake, beraz, berrikusi lagin bat dena esportatu aurretik.

Merkataritza elektronikorako, araurik seguruena sinplea da: ez erabili inoiz IA eskalatzea kalteak ezkutatzeko, egoera aldatzeko edo produktu bat dena baino berriago agertzeko.

Ondorio praktikoak

IAren eskalatzea hobekien funtzionatzen du akabera-urrats kontrolatu gisa hartzen duzunean, eta ez konponketa-botoi magiko gisa. Erabili 2× ezarpen kontserbadoreak, egiaztatu erosleei axola zaizkien xehetasunak eta mantendu jatorrizko irudia, editatutako bertsioa sinesgarria izan dadin.

Benetako adibidea: Prestakuntza-bideo zahar bat eskalatzea distira egin gabe

Eszenatokia

Prestakuntza-enpresa txiki batek 7 minutuko segurtasun-erakustaldi-bideo bat du 2014an 720p-tan grabatua. Edukiak balioa du oraindik, baina irudiak ahulagoak dira enpresaren webgune berrian, batez ere ordenagailu eramangarrien pantaila handiagoetan.

Taldeak 1080p-ko bertsio garbiago bat esportatu nahi du berriro grabatu gabe. Arriskua da IA eskalatze oldarkorrak aurpegiak argizariz itxura eman ditzakeela, seinaleetako testua "ia hitz" bihur dezakeela edo fotograma batetik bestera ehundura keinukaria sor dezakeela.

Helburua ez da bideoa berria bezala agertzea. Argiagoa, egonkorragoa eta gutxiago konprimituta egotea da helburua, irakaslearen aurpegia, abisu-etiketak, eskuen mugimenduak eta ekipamenduaren xehetasunak jatorrizkoarekiko fidelak mantenduz.

Lan-fluxuak zer behar duen

Jatorrizko bideo fitxategia, ez sare sozialetako deskarga konprimitua, ahal bada

Helburuko esportazio-tamaina, adibidez, 720p-tik 1080p-ra, zuzenean 4K-ra salto egin beharrean

Bideo eskalatzaile bat zarata kentzeko, zorrozteko, konpresio konpontzeko eta denborazko koherentzia aukerekin

Aurpegiak, mugimendua, testua eta gainazal xehatuak dituen proba-klip labur bat

Keinuka, halo, testu deformatu, aurpegi-ehundura eta ertz mugikorrak berrikusteko kontrol-zerrenda

Jatorrizko bideoaren gordetako kopia bat, behar izanez gero alderatzeko eta zabaltzeko

Adibide-argibidea

Erabili argibide mota hau bideo osoa prozesatu aurretik:

Eskalatu 720p-ko prestakuntza-bideo hau 1080p-ra. Lehentasuna eman mugimendu naturalari, ertz egonkorrei, irakurtzeko moduko testuari eta azalaren ehundura errealistari. Erabili konpresio-konponketa arina eta zorroztasun txikia. Ez asmatu falta den testua, logotipoak, etiketak, marradurak, aurpegiko xehetasunak edo ekipamendu-markaketak. Saihestu fotograma arteko distira. Azken emaitza argiagoa izan behar da ikusteko tamaina normalean, ez artifizialki zorrotz pausatuta eta handituta dagoenean.

Nola probatu

7 minutuko fitxategi osoa prozesatu aurretik, esportatu 20 segundoko lagin bat, honako hauek barne hartzen dituena:

Irakaslearen aurpegia hitz egiten ari den bitartean

Esku bat markoan zehar mugitzen

Abisu-etiketa edo testu inprimatu txiki bat

Gainazal testuratua, hala nola ehuna, hormigoia, metal eskuilatuduna edo plastikoa

Kameraren mugimendu panoramiko bat edo edozein mugimendu dardarti

Ikusi lagina bi aldiz: behin abiadura normalean eta behin fotogramaz fotograma pausatuta. Abiadura normalean, bilatu keinuka, ehundura arakatzailerik edo mugimendu ez-naturalik ertzetan. Pausatuta dagoenean, alderatu jatorrizko eta handitutako bertsioak testua, botoiak, tresnak eta aurpegiko ezaugarriak oraindik bat datozen egiaztatzeko.

Emaitza

Emaitza ilustratiboa: 20 segundoko proba-klip baten denbora neurtu eta ezarpen berdinak 7 minutuko bideo bati aplikatu ondoren oinarrituta.

Eskuzko "tamaina aldatu eta zorroztu" lan-fluxuak 35 minutu inguru iraun zuen, esportazioa eta berrikuspena barne, baina emaitzak distira ikusgaia erakutsi zuen irakaslearen ilean eta segurtasun-seinaleen inguruan haloak.

Adimen artifizialaren bidezko lan-fluxuak 55 minutu inguru iraun zuen, proba-esportazioak barne, baina berrikuspen-arazoak lehenengo esportazioko 8 arazo ikusgarritik azken esportazioko 2 arazo txikira murriztu zituen.

Azken bertsioak berrikuspen-zerrendako 12 egiaztapenetatik 10 gainditu zituen. Geratzen ziren bi arazoak atzeko planoko testuaren leuntasun arina eta txoko ilun bateko zarata arina ziren. Biak onartu ziren, irakaslea, ekipamendua eta segurtasun-urratsak bisualki koherenteak izan zirelako.

Neurketa esanguratsua ez da "1080p lortuta". Bideoak zenbat segundotan erakusten ditu arreta galarazten duten artefaktuak erreprodukzio normalean zehar?

Zer gaizki atera daiteke?

Modeloak konpresio-blokeak zorroztu eta benetako ehunduraren itxura eman diezaieke.

Testu finak itxura sendoagoa izan dezake, baina zehaztasun gutxiagokoa.

Zarata kentzea altuegia bada, aurpegiak leunduegiak bihur daitezke.

Ertz mugikorrak distira egin dezakete tresnak fotograma bakoitza modu independentean tratatzen badu.

4K esportazio batek 1080p esportazio mugatu bat baino okerragoa izan daiteke, modeloak xehetasun gehiegi asmatu behar dituelako.

Akats handiena pausatutako fotograma bat bakarrik epaitzea da. Bideoaren eskalatzea mugimenduan naturala izan behar da, ez irudi finko gisa ikusgarria bakarrik.

Ondorio praktikoak

Bideoetarako, IAren eskalatzea hobekien funtzionatzen du lehenik atal labur bat probatzen duzunean, eskalatze maila apala mantentzen duzunean eta mugimendua zorroztasunaren aurretik ebaluatzen duzunean. Emaitza apur bat leunagoa baina egonkorragoa normalean hobea da norbait mugitzen den bakoitzean keinuka hasten den bertsio garbi bat baino.

Maiz egiten diren galderak

AI eskalatzea eta nola funtzionatzen duen

Adimen artifizialaren eskalatzeak (askotan "super-bereizmena" deitzen zaio) irudi baten bereizmena handitzen du entrenamenduan ikasitako ereduetatik bereizmen handiko xehetasun falta iragarriz. Interpolazio bikubikoa bezala pixelak luzatu beharrean, eredu batek ertzak, ehundurak, aurpegiak eta testu-antzeko trazuak aztertzen ditu, eta gero ikasitako eredu horiekin bat datozen pixel datu berriak sortzen ditu. Ez da "errealitatea leheneratzea" baizik eta naturaltasunez irakurtzen den "asmakizun sinesgarri bat egitea".

AI eskalatzea tamaina bikubiko edo tradizionalaren aldean

Eskalatze-metodo tradizionalek (bikuboa bezala) batez ere pixel daudenen artean interpolatzen dute, trantsizioak leunduz xehetasun berririk sortu gabe. IA eskalatzeak egitura sinesgarria berreraikitzea du helburu, seinale bisualak ezagutuz eta seinale horien bereizmen handiko bertsioek nolako itxura izango duten iragarriz. Horregatik, IA emaitzak askoz zorrotzagoak izan daitezke, eta baita ere horregatik sar ditzakete artefaktuak edo iturrian ez zeuden xehetasunak "asmatu".

Zergatik aurpegiak argizarizkoak edo gehiegi leunak izan daitezkeen

Argizari koloreko aurpegiak normalean zarata kentzeko eta leuntzeko prozesu oldarkorraren ondorioz sortzen dira, eta horrek azalaren ehundura naturala kentzen du zorroztearekin batera. Tresna askok zarata eta ehundura fina modu berean tratatzen dituzte, beraz, irudi bat "garbitzeak" poroak eta xehetasun sotilak ezaba ditzake. Ikuspegi ohikoa zarata kentzeko eta zorrozteko prozesua murriztea da, aurpegia zaintzeko modu bat erabiltzea eskuragarri badago, eta gero ale ukitu bat berriro sartzea, emaitza plastiko gutxiago eta fotografikoagoa izan dadin.

Kontuan hartu beharreko ohiko IA eskalatze-artefaktuak

Ohiko seinaleen artean daude ertzetan haloak, errepikatutako ehundura-ereduak (kopiatu-itsatsi adreiluak bezala), mikrokontraste kurruskaria eta "ia letrak" bihurtzen den testua. Difusioan oinarritutako lan-fluxuetan, xehetasunen desbideratzea ere ikus daiteke, non ezaugarri txikiak sotilki aldatzen diren. Bideoan, keinua eta fotograma arteko xehetasunen arakatzea seinale gorri handiak dira. Zoom muturrean bakarrik ikusten bada ondo, ezarpenak ziurrenik oldarkorregiak dira.

Nola GAN, CNN eta difusio-maila handitzaileek emaitzetan duten desberdintasun joera

CNNn oinarritutako superbereizmena egonkorragoa eta aurreikusgarriagoa izan ohi da, baina gogor sakatzen bada "prozesatua" dirudi. GANn oinarritutako aukerekin (ESRGAN estilokoak) ehundura indartsuagoa eta zorroztasun handiagoa hautematen da askotan, baina xehetasun okerrak haluzinatu ditzakete, batez ere aurpegietan. Difusioan oinarritutako eskalatzeak xehetasun ederrak eta sinesgarriak sor ditzake, baina jatorrizko egituratik alden daiteke gidaritza edo indar ezarpenak oso indartsuak badira.

"IA gehiegi" itxura saihesteko ezarpen estrategia praktiko bat

Hasi kontserbadorea: handitu 2× edo 4× faktore muturrekoetara joan aurretik. Aurpegiak plastikozkoak badira, murriztu zarata eta zorroztasuna eta probatu aurpegiaren araberako modu bat. Ehundurak biziegiak badira, murriztu xehetasunen hobekuntza eta kontuan hartu ondoren pikor sotila gehitzea. Ertzak distira egiten badute, murriztu zorroztasuna eta egiaztatu halo edo artefaktuen ezabapena. Hainbat prozesutan, "gutxiago" izateak irabazten du, sinesgarritasuna mantentzen duelako errealismoa.

Eskaneatu aurretik eskaneatu zaharrak edo JPEG konprimitutako irudiak kudeatzea

Irudi konprimituak zailak dira, modeloek bloke-artefaktuak benetako ehunduratzat hartu eta anplifikatu ditzaketelako. Lan-fluxu ohikoa lehenik artefaktuak kentzea edo blokeatzea da, gero eskalatzea handitzea eta, ondoren, behar izanez gero, zorroztasun arina handitzea. Eskaneatzeetarako, garbiketa leunak modeloari kalteen ordez benetako egituran zentratzen lagun diezaioke. Helburua "ehundura faltsuen zantzuak" murriztea da, eskalatzailea sarrera zaratatsuetatik asmakizun fidagarriak egitera behartuta ez egoteko.

Zergatik den bideoen eskalatzea argazkien eskalatzea baino zailagoa

Bideoaren eskalatzea koherentea izan behar da fotograma guztietan, ez bakarrik irudi finko batean ona. Xehetasunak fotogramaz fotograma keinuka badaude, emaitza azkar bihurtzen da arreta galarazten duena. Bideoan oinarritutako ikuspegiek ondoko fotogrametako denbora-informazioa erabiltzen dute berreraikuntza egonkortzeko eta distira-artefaktuak saihesteko. Lan-fluxu askok zarata kentzea, iturri jakin batzuetarako desgurutzelarkatzea eta aukerako pikor-berreskuratzea ere barne hartzen dituzte, sekuentzia osoa artifizialki zorrotza izan beharrean kohesionatua senti dadin.

IAren eskalatzea egokia ez denean edo arriskutsua denean fidatzea

Adimen artifizialaren eskalatzea hobe da hobekuntza gisa hartzea, ez froga gisa. Kazetaritzan, froga juridikoetan, irudi medikoetan edo auzitegi-lanetan bezalako testuinguru garrantzitsuetan, "sinesgarriak" diren pixelak sortzeak engainagarria izan daiteke, jaso ez diren xehetasunak gehi ditzakeelako. Seguruago markoa ilustrazio gisa erabiltzea da eta IA prozesu batek xehetasunak berreraiki dituela agerian uztea. Fideltasuna funtsezkoa bada, gorde jatorrizkoak eta dokumentatu prozesatzeko urrats eta ezarpen guztiak.

Erreferentziak

arXiv - Irudien Superbereizmenerako Ikaskuntza Sakona: Inkesta bat - arxiv.org
arXiv - Irudi Superbereizmena Sare Konboluzional Sakonak Erabiliz (SRCNN) - arxiv.org
arXiv - Benetako ESRGAN - arxiv.org
arXiv - ESRGAN - arxiv.org
arXiv - SR3 - arxiv.org
NVIDIA Garatzailea - NVIDIA DLSS - developer.nvidia.com
AMD GPUOpen - FidelityFX Super Resolution 2 - gpuopen.com
Computer Vision Foundation (CVF) Sarbide Irekia - BasicVSR: Bideo Superbereizmenean Osagai Esentzialen Bilaketa (CVPR 2021) - openaccess.thecvf.com
arXiv - Sare Aurkari Generatiboak - arxiv.org
arXiv - SRGAN - arxiv.org
arXiv - Pertzepzio-galerak (Johnson et al., 2016) - arxiv.org
GitHub - Real-ESRGAN biltegia (teila aukerak) - github.com
Wikipedia - Interpolazio bikubikoa - wikipedia.org
Topaz Labs - Topaz Argazkia - topazlabs.com
Topaz Labs - Topaz Bideoa - topazlabs.com
Adobe Laguntza Zentroa - Adobe Enhance > Super Bereizmena - helpx.adobe.com
NIST / OSAC - Irudi Digitalen Kudeaketa Forentserako Gida Estandarra (1.0 bertsioa) - nist.gov
SWGDE - Irudien analisi forentserako jarraibideak - swgde.org

Aurkitu azken IA AI Laguntzaileen Denda Ofizialean

Guri buruz

Blogera itzuli

Nola funtzionatzen duen IAren eskalatzea: ideia nagusia, eguneroko hitzetan 🧩

Zerk egiten du IAren eskalatze-bertsio ona? ✅🛠️

Konparazio taula: IA eskalatzeko aukera ezagunak (eta zertarako diren onak) 📊🙂

Sekretu handia: modeloek bereizmen baxukotik bereizmen handikorako mapaketa bat ikasten dute 🧠➡️🖼️

Torlojuak eta azkoinak: zer gertatzen da inferentzian zehar (eskala handitzen duzunean) ⚙️✨

IA eskalatzeko erabiltzen diren modelo familia nagusiak (eta zergatik diren desberdinak) 🤖📚

1) CNNn oinarritutako super-bereizmena (lanerako zaldi klasikoa)

2) GAN oinarritutako eskalatzea (ESRGAN estilokoa) 🎭

3) Difusioan oinarritutako eskalatzea (sormen-komodina) 🌫️➡️🖼️

4) Bideoaren eskalatzea denbora-koherentziarekin 🎞️

Zergatik dirudien batzuetan IA eskalatzea faltsua (eta nola antzeman) 👀🚩

Nola funtzionatzen duen IAren igoerak: prestakuntza aldea, matematikako buruhausterik gabe 📉🙂

Lan-fluxu praktikoak: argazkiak, eskaneatu zaharrak, animeak eta bideoak 📸🧾🎥

Argazkiak (erretratuak, paisaiak, produktuen argazkiak)

Eskaneatu zaharrak eta irudi oso konprimituak

Animea eta lerro-artea

Bideoa

Ezarpenak aukeratzea asmatu gabe (aholku txiki bat) 🎛️😵💫

Etika, benetakotasuna eta "egiaren" galdera deserosoa 🧭😬

Amaierako oharrak eta laburpen azkar bat 🧡✅

Benetako munduko adibidea: merkatuko produktuen argazki zaharrak handitzea 📸

Eszenatokia

Lan-fluxuak zer behar duen

Adibide-argibidea

Nola probatu

Emaitza

Zer gaizki atera daiteke?

Ondorio praktikoak

Benetako adibidea: Prestakuntza-bideo zahar bat eskalatzea distira egin gabe

Eszenatokia

Lan-fluxuak zer behar duen

Adibide-argibidea

Nola probatu

Emaitza

Zer gaizki atera daiteke?

Ondorio praktikoak

Maiz egiten diren galderak

AI eskalatzea eta nola funtzionatzen duen

AI eskalatzea tamaina bikubiko edo tradizionalaren aldean

Zergatik aurpegiak argizarizkoak edo gehiegi leunak izan daitezkeen

Kontuan hartu beharreko ohiko IA eskalatze-artefaktuak

Nola GAN, CNN eta difusio-maila handitzaileek emaitzetan duten desberdintasun joera

"IA gehiegi" itxura saihesteko ezarpen estrategia praktiko bat

Eskaneatu aurretik eskaneatu zaharrak edo JPEG konprimitutako irudiak kudeatzea

Zergatik den bideoen eskalatzea argazkien eskalatzea baino zailagoa

IAren eskalatzea egokia ez denean edo arriskutsua denean fidatzea

Erreferentziak

Aurkitu azken IA AI Laguntzaileen Denda Ofizialean

Guri buruz

Maiz egiten diren galdera gehigarriak

Nola bereizten da IA ​​eskalatzea tamaina aldatzeko metodo tradizionaletatik?

Zein dira IA eskalatzea erabiltzean kontuan hartu behar ditudan ohiko artefaktuak?

Zergatik agertzen dira batzuetan aurpegiak leunregiak edo errealistagabeak eskala handitu ondoren?

Zer egin behar dut nire irudiak kurruskariak edo zarata gehiegi badute IA eskalatzea erabili ondoren?

Nola alderatzen dira GAN eta CNN ereduak AI eskalatze emaitzetan?

IAren eskalatzea egokia al da bideo edukietarako, eta zer erronka ditu?

Noiz ez da egokia IAren eskalatzeaz fidatzea?

Zer kontuan hartu behar ditut oso konprimitutako irudiak eskala handiagoz handitzerakoan?

Nola bereizten da IA eskalatzea tamaina aldatzeko metodo tradizionaletatik?