Multimodal AI

Engelsk term: Multimodal AI
Svensk term: Multimodal AI

Vad är Multimodal AI?

Multimodal AI kan förstå och bearbeta information från flera olika källor samtidigt: text, bilder, ljud och video. Precis som människor använder både syn och hörsel för att förstå sin omvärld. Detta gör att AI:n kan utföra mer komplexa uppgifter, som att beskriva innehållet i en bild med ord.

Ursprung och källa

Populariserades med framsteg inom djupinlärning under 2010-talet

Se även

Djupinlärning

Läs mer

Radford m.fl. (OpenAI), 2021: Learning Transferable Visual Models From Natural Language Supervision (CLIP)