top of page

Apple lanceert 'MGIE', AI voor instructiegebaseerde beeldbewerking

  • Writer: Pieter Weymans
    Pieter Weymans
  • Feb 9, 2024
  • 1 min read

Apple introduceert een revolutionair open-source AI-model genaamd MGIE, wat staat voor MLLM-Guided Image Editing. Dit model maakt gebruik van multimodale grote taalmodellen (MLLM's) om gebruikerscommando's te interpreteren en pixelniveau-manipulaties uit te voeren.


MGIE kan een breed scala aan bewerkingen aan, zoals Photoshop-stijl aanpassingen, globale foto-optimalisatie en lokale bewerkingen. Het resultaat van een samenwerking tussen Apple en onderzoekers van de Universiteit van Californië, Santa Barbara, werd MGIE gepresenteerd op de International Conference on Learning Representations (ICLR) 2024.


MGIE gebruikt MLLM's op twee manieren in het beeldbewerkingsproces. Ten eerste leiden ze expressieve instructies af uit gebruikersinput, zoals het verhogen van de verzadiging van een bepaald gebied. Ten tweede genereren ze een visuele voorstelling van de gewenste bewerking die dient als leidraad voor de pixelmanipulatie. Dit model kan niet alleen eenvoudige kleuraanpassingen uitvoeren, maar ook complexe objectmanipulaties, en biedt functies zoals Photoshop-stijl modificaties, globale foto-optimalisatie en lokale bewerkingen.

Gebruikers kunnen MGIE gemakkelijk gebruiken via een open-source project op GitHub, dat code, gegevens en vooraf getrainde modellen bevat.


Er is ook een demo beschikbaar die laat zien hoe MGIE voor verschillende bewerkingstaken gebruikt kan worden, evenals een online demo op Hugging Face Spaces. MGIE is niet alleen een belangrijke doorbraak in het veld van instructiegebaseerde beeldbewerking, maar benadrukt ook Apple's groeiende expertise in AI-onderzoek en -ontwikkeling. Dit model opent nieuwe mogelijkheden voor cross-modale interactie en communicatie en kan worden gebruikt voor een breed scala aan toepassingen, van sociale media tot kunst.

Comments


bottom of page