Multimodal AI

Förklaring

Multimodal AI kan förstå och bearbeta information från flera olika källor samtidigt: text, bilder, ljud och video. Precis som människor använder både syn och hörsel för att förstå sin omvärld. Detta gör att AI:n kan utföra mer komplexa uppgifter, som att beskriva innehållet i en bild med ord.

Ursprung och källa

Populariserades med framsteg inom djupinlärning under 2010-talet

Läs mer

ibm.com