Multimodális keresés: képek, videók és hang optimalizálása AI SEO-hoz

A generatív motorok (pl. Google SGE , ChatGPT, Perplexity) egyre gyakrabban vonnak be képet, videót és hangot a válaszaikba. Ha szeretnéd, hogy a te vizuális tartalmaid is megjelenjenek, a klasszikus SEO-n túl multimodális jeleket kell következetesen építened: leíró alt, feliratok, schema markup , Q&A és lokális metaadatok.
Mi az a multimodális keresés, és miért fontos?
A multimodális keresés azt jelenti, hogy az AI a szöveg mellett képi, videós és hang alapú jeleket is értelmez. Ez a gyakorlatban azt jelenti, hogy egy "hogyan cseréljek SSD-t MacBookban?" kérdésnél a rendszer videóból és képsorozatból is idézhet – nem csak cikkből. Alapozó cikkek: Mi az az AI SEO? , Mi az az AEO? , GEO – Generative Engine Optimization .
Képoptimalizálás – a 7 fő jel
-
Beszédes fájlnév: budapest-laptop-szerviz-ssd-csere.jpg
-
Leíró alt és képaláírás: mit ábrázol, hol készült, milyen lépés.
-
Környező szöveg és címkék: az LLM-ek a kép környezetét is "olvassák".
-
Strukturált adatok (ImageObject): forrás, szerző, felbontás, tárgyalt entitások.
-
Egyediség: saját fotók > stock – erős E-E-A-T jel.
-
Formátum és teljesítmény: WebP/AVIF + méretezett, reszponzív képek.
-
Lokális kontextus: helyszín említése, ha releváns (utca/kerület/város).
Videóoptimalizálás – hogy idézhető legyen
-
Felirat és átirat: teljes transcript a lapon; kulcslépések időbélyegekkel.
-
Videó leírása Q&A-ban: "Kinek szól?", "Milyen eszköz kell?", "Mennyi idő?"
-
VideoObject schema: cím, leírás, miniatűr, időtartam, feltöltés dátuma.
-
"Kulcspillanatok" szakaszolás: a leírásban időkódok (00:45 – hátlap levétele).
-
Belső linkek: a videó a kapcsolódó chunkolt cikk megfelelő szakaszaira mutasson.
Hang és voice – rövid válaszokkal
A hangalapú keresésnél az AI rövid, kimondható válaszokat keres. Adj 1–3 mondatos TL;DR-t és Q&A-t minden fontos szakasz végén. Erről bővebben: hogyan kerülj be a ChatGPT válaszaiba .
Lokális multimodális jelek
-
LocalBusiness + ImageObject/VideoObject kombináció a helyi oldalakra – lásd: lokális AI SEO .
-
A képeken/videókon látható helyszíneket (utcafront, utcatábla) írd le az alt és leírás mezőben.
Minták – ImageObject és VideoObject JSON-LD
{{ "@context": "https://schema.org", "@type": "ImageObject", "contentUrl": "https://seoxai.hu/media/ssd-csere-lepesek.jpg", "license": "https://seoxai.hu/felhasznalasi-feltetelek", "creator": { "@type": "Organization", "name": "SEOxAI Ügynökség" }, "creditText": "SEOxAI saját fotó", "caption": "SSD csere 2. lépés – hátlap levétele (Budapest, XI. kerület)", "representativeOfPage": true } --- { "@context": "https://schema.org", "@type": "VideoObject", "name": "MacBook SSD csere – teljes útmutató", "description": "Lépésről lépésre videó, időkódokkal és szerszámlistával.", "thumbnailUrl": "https://seoxai.hu/media/macbook-ssd-thumb.jpg", "uploadDate": "2025-08-15", "duration": "PT6M20S", "embedUrl": "https://www.youtube.com/embed/VIDEO_ID", "transcript": "00:00 Bevezető... 00:45 Hátlap levétele... 02:10 SSD csere...", "publisher": { "@type": "Organization", "name": "SEOxAI Ügynökség" } }} ## Monitoring: működik-e? * Search Console – Képek/Videók megjelenések; kérdéses lekérdezések átvizsgálása.
- Manuális SGE/Perplexity tesztek – figyeld, idéznek-e képet/videót a válaszokban.
- Platform analitika – YouTube felirat-felhasználás, kulcspillanatok, retention.
Összegzés A multimodális AI akkor idéz, ha egyértelmű jeleket kap: leíró alt, feliratok, schema , Q&A és lokális kontextus. Gondolkodj chunkokban, jelöld a kulcslépéseket, és kösd össze a vizuális tartalmat a magyarázó cikkekkel – így leszel forrás a válaszban.
Gyakran ismételt kérdések
Elég az alt szöveg a képeknél?
Alap, de nem elég. Kell környező szöveg, képaláírás és – ha lehet – ImageObject schema. Az AI a jelek kombinációjából ért.
Kell EXIF geotag a helyi képekhez?
Nem elsődleges jel. Hasznos lehet, de ne erre építs: írd bele a helyet az alt-ba, a képaláírásba, és használd a LocalBusiness + ImageObject sémákat.
Melyik formátumot használjam képekhez/videóhoz?
Képnél WebP/AVIF fallbackkel (pl. JPEG); videónál platform (YouTube) + saját beágyazás, felirattal és VideoObject sémával.
Tetszett a cikk?
Ne maradj le a legújabb AI SEO stratégiákról. Nézd meg szolgáltatásainkat!