Googles utrolige nye foto-AI gør 'Zoom And Enhance' til en rigtig ting

(Google Research)

Du har muligvis set sci-fi-film eller tv-shows, hvor hovedpersonen beder om at zoome ind på et billede og forbedre resultaterne – afsløre et ansigt, en nummerplade eller enhver anden nøgledetalje – og Googles nyestekunstig intelligensmotorer, baseret på det, der er kendt som diffusionsmodeller, er i stand til at udføre netop dette trick.

Det er en vanskelig proces at mestre, for det, der i bund og grund sker, er, at der tilføjes billeddetaljer, som kameraet ikke oprindeligt fangede, ved at bruge nogle supersmarte gætværk baseret på andre billeder, der ligner hinanden.

Teknikken kaldes naturlig billedsyntese af Google, og i dette særlige scenarie, billedsuperopløsning. Du starter med et lille, blokeret, pixeleret billede, og du ender med noget skarpt, klart og naturligt udseende. Det matcher måske ikke originalen nøjagtigt, men det er tæt nok til at se ægte ud for et par menneskelige øjne.



(Google Research)

Google har faktisk afsløret to nye AI-værktøjer til jobbet. Den første hedder SR3, eller Super-opløsning via gentagen forfining , og det virker ved at tilføje støj eller uforudsigelighed til et billede og derefter vende processen og fjerne det – ligesom en billededitor måske forsøger at skærpe dine feriebilleder.

'Diffusionsmodeller virker ved at ødelægge træningsdataene ved gradvist at tilføje Gaussisk støj , langsomt udslette detaljer i dataene, indtil det bliver ren støj, og derefter træne et neuralt netværk til at vende denne korruptionsproces,' forklarer forsker Jonathan Ho og softwareingeniør Chitwan Saharia fra Google Research .

Gennem en række sandsynlighedsberegninger baseret på en enorm database med billeder og nogle maskinelæring magi, er SR3 i stand til at forestille sig, hvordan en fuldopløsningsversion af et blokeret lavopløsningsbillede ser ud. Du kan læse mere om det i avisen Google har lagt ud på arXiv .

Det andet værktøj er CDM, eller Cascaded diffusionsmodeller . Google beskriver disse som 'pipelines', hvorigennem diffusionsmodeller – inklusive SR3 – kan dirigeres til billedopløsning i høj kvalitet. Det tager forbedringsmodellerne og laver større billeder ud af det, og det har Google udgivet et papir også på dette.

CDM i aktion. (Google Research)

Ved at bruge forskellige forbedringsmodeller i forskellige opløsninger er CDM-tilgangen i stand til at slå alternative metoder til at formindske billeder, siger Google. Den nye AI-motor blev testet på ImageNet , en gigantisk database med træningsbilleder, der almindeligvis bruges til forskning i visuel objektgenkendelse.

Slutresultaterne af SR3 og CDM er imponerende. I en standardtest med 50 menneskelige frivillige blev SR3-genererede billeder af menneskelige ansigter forvekslet med rigtige billeder omkring 50 procent af tiden – og i betragtning af, at en perfekt algoritme forventes at ramme en score på 50 procent, er det imponerende.

Det er værd at gentage, at disse forbedrede billeder ikke er nøjagtige matcher til originalerne, men de er omhyggeligt beregnede simuleringer baseret på nogle avancerede sandsynlighedsmatematik.

Google siger, at spredningstilgangen giver bedre resultater end alternative muligheder, herundergenerative kontradiktoriske netværk(GAN'er), der pit to neurale netværk mod hinanden for at forfine resultaterne.

(Google Research)

Google lover meget mere fra sine nye AI-motorer og tilhørende teknologier – ikke kun med hensyn til opskalering af billeder af ansigter og andre naturlige objekter, men også i andre områder af sandsynlighedsmodellering.

'Vi er glade for yderligere at teste grænserne for diffusionsmodeller for en lang række generative modelleringsproblemer,' holdet forklarer .

Populære Kategorier: Forklarer , Samfund , Fysik , Ukategoriseret , Sundhed , Mennesker , Tech , Plads , Natur , Miljø ,

Om Os

Offentliggørelse Af Uafhængige, Beviste Fakta Om Rapporter Om Sundhed, Rum, Natur, Teknologi Og Miljøet.