Multimodális keresés: képek, videók és hang optimalizálása AI SEO-hoz

A generatív motorok (pl. Google SGE, ChatGPT, Perplexity) egyre gyakrabban vonnak be képet, videót és hangot a válaszaikba. Ha szeretnéd, hogy a te vizuális tartalmaid is megjelenjenek, a klasszikus SEO-n túl multimodális jeleket kell következetesen építened: leíró alt, feliratok, schema markup, Q&A és lokális metaadatok.
Mi az a multimodális keresés, és miért fontos?
A multimodális keresés azt jelenti, hogy az AI a szöveg mellett képi, videós és hang alapú jeleket is értelmez. Ez a gyakorlatban azt jelenti, hogy egy "hogyan cseréljek SSD-t MacBookban?" kérdésnél a rendszer videóból és képsorozatból is idézhet – nem csak cikkből. Alapozó cikkek: Mi az az AI SEO?, Mi az az AEO?, GEO – Generative Engine Optimization.
Képoptimalizálás – a 7 fő jel
- Beszédes fájlnév: budapest-laptop-szerviz-ssd-csere.jpg
- Leíró altés képaláírás: mit ábrázol, hol készült, milyen lépés.
- Környező szöveg és címkék: az LLM-ek a kép környezetét is "olvassák".
- Strukturált adatok (ImageObject): forrás, szerző, felbontás, tárgyalt entitások.
- Egyediség: saját fotók > stock – erős E-E-A-T jel.
- Formátum és teljesítmény: WebP/AVIF + méretezett, reszponzív képek.
- Lokális kontextus: helyszín említése, ha releváns (utca/kerület/város).
Videóoptimalizálás – hogy idézhető legyen
- Felirat és átirat: teljes transcript a lapon; kulcslépések időbélyegekkel.
- Videó leírása Q&A-ban: "Kinek szól?", "Milyen eszköz kell?", "Mennyi idő?"
- VideoObject schema: cím, leírás, miniatűr, időtartam, feltöltés dátuma.
- "Kulcspillanatok" szakaszolás: a leírásban időkódok (00:45 – hátlap levétele).
- Belső linkek: a videó a kapcsolódó chunkolt cikk megfelelő szakaszaira mutasson.
Hang és voice – rövid válaszokkal
A hangalapú keresésnél az AI rövid, kimondható válaszokat keres. Adj 1–3 mondatos TL;DR-t és Q&A-t minden fontos szakasz végén. Erről bővebben: hogyan kerülj be a ChatGPT válaszaiba.
Lokális multimodális jelek
- LocalBusiness + ImageObject/VideoObject kombináció a helyi oldalakra – lásd: lokális AI SEO.
- A képeken/videókon látható helyszíneket (utcafront, utcatábla) írd le az altés leírás mezőben.
Minták – ImageObject és VideoObject JSON-LD
{
"@context": "https://schema.org",
"@type": "ImageObject",
"contentUrl": "https://seoxai.hu/media/ssd-csere-lepesek.jpg",
"license": "https://seoxai.hu/felhasznalasi-feltetelek",
"creator": { "@type": "Organization", "name": "SEOxAI Ügynökség" },
"creditText": "SEOxAI saját fotó",
"caption": "SSD csere 2. lépés – hátlap levétele (Budapest, XI. kerület)",
"representativeOfPage": true
}
---
{
"@context": "https://schema.org",
"@type": "VideoObject",
"name": "MacBook SSD csere – teljes útmutató",
"description": "Lépésről lépésre videó, időkódokkal és szerszámlistával.",
"thumbnailUrl": "https://seoxai.hu/media/macbook-ssd-thumb.jpg",
"uploadDate": "2025-08-15",
"duration": "PT6M20S",
"embedUrl": "https://www.youtube.com/embed/VIDEO_ID",
"transcript": "00:00 Bevezető... 00:45 Hátlap levétele... 02:10 SSD csere...",
"publisher": { "@type": "Organization", "name": "SEOxAI Ügynökség" }
}Monitoring: működik-e?
- Search Console – Képek/Videók megjelenések; kérdéses lekérdezések átvizsgálása.
- Manuális SGE/Perplexity tesztek – figyeld, idéznek-e képet/videót a válaszokban.
- Platform analitika – YouTube felirat-felhasználás, kulcspillanatok, retention.
Összegzés
A multimodális AI akkor idéz, ha egyértelmű jeleket kap: leíró alt, feliratok, schema, Q&A és lokális kontextus. Gondolkodj chunkokban, jelöld a kulcslépéseket, és kösd össze a vizuális tartalmat a magyarázó cikkekkel – így leszel forrás a válaszban.
Gyakran ismételt kérdések
Elég az alt szöveg a képeknél?
Alap, de nem elég. Kell környező szöveg, képaláírás és – ha lehet – ImageObject schema. Az AI a jelek kombinációjából ért.
Kell EXIF geotag a helyi képekhez?
Nem elsődleges jel. Hasznos lehet, de ne erre építs: írd bele a helyet az alt-ba, a képaláírásba, és használd a LocalBusiness + ImageObject sémákat.
Melyik formátumot használjam képekhez/videóhoz?
Képnél WebP/AVIF fallbackkel (pl. JPEG); videónál platform (YouTube) + saját beágyazás, felirattal és VideoObject sémával.