Generativ AI och språkmodeller

Multimodal AI

Engelsk term
Multimodal AI
Svensk term
Multimodal AI

Vad är Multimodal AI?

Multimodal AI kan förstå och bearbeta information från flera olika källor samtidigt: text, bilder, ljud och video. Precis som människor använder både syn och hörsel för att förstå sin omvärld. Detta gör att AI:n kan utföra mer komplexa uppgifter, som att beskriva innehållet i en bild med ord.

Ursprung och källa

Populariserades med framsteg inom djupinlärning under 2010-talet

Se även

Läs mer