Google VLOGGER: Generativ AI för bild till video och röst

April 3, 2024

Google VLOGGER: Generativ AI för bild till video och röst

Google har nyligen släppt en banbrytande AI-modell vid namn VLOGGER, vilken låter användare skapa en kontrollerbar avatar med bara en stillbild. Denna innovation kommer som ett resultat av Googles framgångar med nya generativa diffusionsmodeller och öppnar upp för en rad spännande möjligheter inom virtuell kommunikation och underhållning.

Vad är VLOGGER?

Även om VLOGGER för närvarande endast är ett forskningsprojekt med några underhållande demovideor, kan det i framtiden bli ett nytt sätt att kommunicera i plattformar som Teams eller Slack. Det är en AI-modell som kan skapa en animerad avatar från en stillbild och behålla den fotorealistiska looken hos personen på bilden i varje bildruta i den slutliga videon. Modellen tar även in en ljudfil av personen som talar och hanterar kroppsrörelser och läpprörelser för att återspegla det naturliga sättet som personen skulle röra sig om det var de som sa orden.

Hur fungerar VLOGGER?

Modellen är byggd på diffusionsarkitekturen som driver text-till-bild, video och till och med 3D-modeller som MidJourney eller Runway, men lägger till ytterligare kontrollmekanismer. VLOGGER genomgår flera steg för att generera den skapade avataren. Först tar den ljudet och bilden som input, kör det genom en 3D-rörelsegenereringsprocess, sedan en "temporal diffusion" -modell för att bestämma timing och rörelse, slutligen skalar den upp och omvandlas till slutresultatet.

Vilka är begränsningarna för VLOGGER?

Detta är en forskningsförhandsvisning snarare än en faktisk produkt, och även om den kan generera realistiska rörelser, kanske videon inte alltid matchar sättet personen verkligen rör sig. Laget säger också att den har svårt med särskilt stora rörelser eller mångfacetterade miljöer. Dessutom kan den bara hantera relativt korta videor.

Vilka användningsområden finns för VLOGGER?

Enligt Googles forskare är en av de primära användningsområdena för VLOGGER översättning av video. Till exempel att ta en befintlig video på ett visst språk och redigera läpp- och ansikte för att matcha det nya, översatta ljudet. Andra potentiella användningsområden inkluderar skapande av animerade avatarer för virtuella assistenter, chatbots eller virtuella karaktärer som ser realistiska ut och rör sig i ett spel. Ett användningsområde är att tillhandahålla lågbandbreddsvideokommunikation. En framtida version av modellen kan tillåta videokonversationer från ljud genom att animera den stillbildade avataren.

Med Google VLOGGER öppnas dörrarna till en spännande framtid där avatarer och virtuella karaktärer kan skapas och styras med enastående realism, vilket öppnar upp för en mängd nya kreativa och kommunikativa möjligheter. Fortsätt följa med för att se hur denna banbrytande teknik utvecklas och integreras i vår digitala vardag.

När kom AI? En tidsresa genom utvecklingen av artificiell intelligens

September 16, 2024

När kom AI? En tidsresa genom utvecklingen av artificiell intelligens
Läs mer
Hur LLM:er (som ChatGPT) kommer att förändra din verksamhet

April 3, 2024

Hur LLM:er (som ChatGPT) kommer att förändra din verksamhet
Läs mer
Google VLOGGER: Generativ AI för bild till video och röst

April 3, 2024

Google VLOGGER: Generativ AI för bild till video och röst
Läs mer
AI Bildgenerator: Konstgjord Intelligens i Skapandet av Visuell Konst

March 13, 2024

AI Bildgenerator: Konstgjord Intelligens i Skapandet av Visuell Konst
Läs mer
Vad är AI? En Djupdykning i Artificiell Intelligens

March 13, 2024

Vad är AI? En Djupdykning i Artificiell Intelligens
Läs mer
Investeringsmöjligheter inom AI: Bästa Aktierna att Satsa på 2024

March 13, 2024

Investeringsmöjligheter inom AI: Bästa Aktierna att Satsa på 2024
Läs mer