Generativ AI och språkmodeller
Multimodal AI
Förklaring
Multimodal AI kan förstå och bearbeta information från flera olika källor samtidigt: text, bilder, ljud och video. Precis som människor använder både syn och hörsel för att förstå sin omvärld. Detta gör att AI:n kan utföra mer komplexa uppgifter, som att beskriva innehållet i en bild med ord.
Ursprung och källa
Populariserades med framsteg inom djupinlärning under 2010-talet