A digitális térben való navigálás bonyolult feladat lehet, és ez még inkább igaz a keresőmotorokra. Gondolj csak bele: naponta több milliárd weboldal jelenik meg, és a keresőóriások, mint a Google, fáradhatatlanul dolgoznak azon, hogy rendszerezzék ezt a hatalmas információhalmazt. Ehhez úgynevezett kúszórobotokat (crawlers) küldenek szét, amelyek felfedezik és elemzik a webhelyek tartalmát. De mi van akkor, ha nem szeretnéd, hogy minden oldaladat indexeljék? Vagy ha van egy olyan rész a webhelyeden, amitől távol tartanád a keresőmotorokat? Pontosan itt lép képbe a robots.txt
fájl. Ebben az átfogó útmutatóban lépésről lépésre bemutatjuk, hogyan állíthatod be helyesen a robots.txt
fájlt a WordPress webhelyeden, hogy optimalizáld SEO teljesítményedet és kontrolláld, hogyan látják a keresőmotorok az oldaladat.
Mi is az a robots.txt fájl és miért kulcsfontosságú?
A robots.txt
fájl egy egyszerű szöveges fájl, amelyet a webhelyed gyökérkönyvtárában (például a public_html
mappában) kell elhelyezni. Fő célja az, hogy útmutatást adjon a keresőmotor kúszórobotjainak arról, hogy a webhely mely részeit fedezhetik fel és indexelhetik, és melyeket nem. Fontos megjegyezni, hogy a robots.txt
nem egy biztonsági intézkedés. Ez egy kérés, nem pedig egy parancs. A jól viselkedő robotok betartják ezeket az utasításokat, de a rosszindulatú botok figyelmen kívül hagyhatják őket.
Miért kulcsfontosságú a WordPress webhelyeden?
- Crawl Budget optimalizálása: A keresőmotorok minden webhelyhez egy bizonyos „kúszási költségvetést” (crawl budget) rendelnek, ami azt jelenti, hogy mennyi ideig és mennyi oldalt vizsgálnak át egy adott időszakban. Ha felesleges, értéktelen vagy duplikált oldalakat zár ki a kúszásból, a robotok az energiájukat a valóban fontos tartalomra fordíthatják, ami javítja az indexelési esélyeidet.
- Duplikált tartalom elkerülése: A WordPress hajlamos duplikált tartalmak generálására (pl. archívumok, címkeoldalak, kategóriaoldalak, csatolmányoldalak). Ha ezeket kizárjuk az indexelésből, elkerülhetjük a Google által kiszabott büntetéseket, és biztosíthatjuk, hogy csak a kanonikus (eredeti) tartalmaink legyenek rangsorolva.
- Érzékeny információk védelme: Bár nem biztonsági intézkedés, megakadályozhatja, hogy a
/wp-admin/
mappád vagy más, bejelentkezést igénylő területek megjelenjenek a keresési eredmények között. - Szerver terhelés csökkentése: Azáltal, hogy megakadályozod a robotokat a szükségtelen fájlok vagy könyvtárak kúszásában, csökkentheted a szervered terhelését, ami gyorsabb oldalbetöltést eredményez.
Hogyan működik a robots.txt fájl? Az alapvető direktívák.
A robots.txt
fájl egyszerű szintaxissal rendelkezik, amely alapvető direktívákból áll. Íme a legfontosabbak:
1. User-agent
Ez a direktíva azonosítja azt a kúszórobotot, amelyre az alábbi szabályok vonatkoznak. Néhány gyakori példa:
User-agent: Googlebot
(A Google általános webkúszója)User-agent: Googlebot-Image
(A Google képkereső robotja)User-agent: Bingbot
(A Bing keresőrobotja)User-agent: *
(Minden robotra vonatkozik, a fenti speciális eseteket felülírja)
2. Disallow
Ez a direktíva megmondja a megadott User-agent
számára, hogy mely URL útvonalakat nem szabad kúsznia. Példák:
Disallow: /wp-admin/
(Tiltja awp-admin
könyvtárhoz való hozzáférést)Disallow: /wp-includes/
(Tiltja awp-includes
könyvtárhoz való hozzáférést)Disallow: /private-folder/
(Tiltja egy konkrét mappát)Disallow: /single-page.html
(Tilt egy konkrét fájlt)Disallow: /wp-content/plugins/
(Tiltja az összes plugin mappát)
3. Allow
Ez a direktíva felülírja a Disallow
direktívát egy adott fájl vagy alkönyvtár esetében egy egyébként tiltott könyvtáron belül. Különösen hasznos a WordPress esetében, hogy bizonyos alapvető funkciók működjenek, miközben a fő mappát tiltjuk.
- Példa: Ha tiltod a
/wp-admin/
mappát, de engedélyezned kell egy fájlt benne:User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php
Az
admin-ajax.php
fájl gyakran létfontosságú a WordPress irányítópultjának és számos bővítményének megfelelő működéséhez. Ha ezt is tiltod, az súlyos hibákat okozhat az oldaladon.
4. Sitemap
Ez a direktíva segít a keresőmotoroknak megtalálni az XML sitemap fájl(oka)dat. Ez nem befolyásolja a kúszást vagy az indexelést közvetlenül, de jelzi a robotoknak, hogy hol találhatják meg az oldalad fontos URL-jeinek listáját, ezzel felgyorsítva az indexelés folyamatát.
- Példa:
Sitemap: https://www.peldaoldal.hu/sitemap_index.xml
A WordPress és a robots.txt: Az alapértelmezett beállítások
A WordPress alapértelmezetten nem hoz létre fizikai robots.txt
fájlt a gyökérkönyvtárban. Ehelyett egy virtuális robots.txt
fájlt generál, amelyet a keresőmotorok látnak. Ezt a virtuális fájlt általában a következőképpen állítja be (és a domain.hu/robots.txt
címen érheted el):
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Ez az alapértelmezett konfiguráció általában jó kiindulópont, mivel megakadályozza a legkevésbé releváns és gyakran érzékeny területek, mint a wp-admin
(adminisztrációs felület) és a wp-includes
(WordPress magfájlok) indexelését. Az Allow: /wp-admin/admin-ajax.php
sor pedig biztosítja, hogy a webhely frontend funkciói ne sérüljenek.
Mikor van szükség testreszabásra? Példák a gyakorlatból.
Bár az alapértelmezett beállítások megfelelőek lehetnek, számos esetben szükségessé válhat a robots.txt
fájl finomhangolása, hogy maximalizáld a keresőoptimalizálási erőfeszítéseidet:
- Csatolmányoldalak: A WordPress minden feltöltött médiafájlhoz (kép, PDF) létrehoz egy külön oldalt. Ezek gyakran gyenge minőségű, duplikált tartalomnak minősülnek, ezért érdemes tiltani őket:
Disallow: /*/attachment/
- Keresési eredményoldalak: A belső keresési eredmények oldalai szintén feleslegesen fogyasztják a crawl budgetet és nem relevánsak a külső keresők számára:
Disallow: /*?s=
- Címke- és kategóriaarchívumok: Ha nem használod őket stratégiailag, vagy sok vékony tartalommal rendelkeznek, érdemes lehet tiltani őket:
Disallow: /tag/ Disallow: /category/
Fontos: Ha ezeket az oldalakat a felhasználók vagy a SEO stratégiád szempontjából fontosnak tartod, NE tiltsd le őket!
- Fejlesztési, Staging környezetek: Ha van egy fejlesztői vagy tesztverziód a webhelyedről, feltétlenül tiltsd le a robotok elől, hogy elkerüld a duplikált tartalom problémáit:
User-agent: * Disallow: /
Ez a direktíva az egész webhelyet tiltja!
- Plugin vagy téma mappák (részlegesen): Előfordulhat, hogy bizonyos bővítmények vagy témák olyan mappákat tartalmaznak, amelyek nem relevánsak az indexelés szempontjából, és szükségtelenül lassítják a kúszást. Például, ha egy builder pluginnek vannak olyan temp mappái, amikre nincs szükség:
Disallow: /wp-content/plugins/your-builder-plugin/temp/
Legyél rendkívül óvatos, hogy mit tiltsz a
wp-content/
alatt, mert a CSS és JavaScript fájlok tiltása súlyosan károsíthatja az oldalad renderelését és a SEO-t! - RSS feedek: Ha úgy gondolod, hogy az RSS feedek feleslegesen növelik az indexelt oldalak számát, letilthatod őket:
Disallow: /*/feed/
Hogyan hozz létre vagy módosíts robots.txt fájlt a WordPressben?
Két fő módszer létezik a robots.txt
fájl kezelésére a WordPressben, attól függően, hogy milyen szintű technikai tudással rendelkezel.
1. SEO bővítményekkel (ajánlott kezdőknek és haladóknak)
A legnépszerűbb SEO bővítmények, mint a Yoast SEO, Rank Math, vagy All in One SEO Pack, beépített eszközöket kínálnak a robots.txt
fájl szerkesztéséhez. Ez a legegyszerűbb és legbiztonságosabb módszer, mivel a bővítmények gyakran segítenek elkerülni a szintaktikai hibákat.
Példa: Yoast SEO
- Lépj be a WordPress admin felületére.
- Navigálj a Yoast SEO > Eszközök > Fájlszerkesztő menüpontra.
- Itt közvetlenül szerkesztheted a
robots.txt
fájlt. Ha még nincs fizikai fájl, a Yoast létrehozza neked. - Miután elvégezted a módosításokat, kattints a „Módosítások mentése a robots.txt fájlba” gombra.
Példa: Rank Math
- Lépj be a WordPress admin felületére.
- Navigálj a Rank Math > Általános beállítások > Robots.txt menüpontra.
- Itt található a szerkesztő felület, ahol hozzáadhatod vagy módosíthatod a direktívákat.
- Kattints a „Módosítások mentése” gombra.
Előnyök: Felhasználóbarát felület, beépített hibakezelés, könnyen visszavonhatók a változtatások, azonnal láthatók a módosítások. Ha fizikai robots.txt
fájl létezik, a bővítmények ezt fogják szerkeszteni. Ha nem, akkor a virtuális fájlt felülírva hoznak létre egy fizikai fájlt.
2. Manuálisan (haladóknak)
Ha nincs telepítve SEO bővítményed, vagy teljes kontrollra vágysz, manuálisan is létrehozhatod vagy szerkesztheted a robots.txt
fájlt.
- FTP/SFTP kliens vagy tárhelyszolgáltató fájlkezelője: Csatlakozz a webhelyedhez egy FTP klienssel (pl. FileZilla) vagy a tárhelyszolgáltatód cPanel/DirectAdmin/stb. fájlkezelőjével.
- Navigálj a gyökérkönyvtárba: Keresd meg a webhelyed gyökérkönyvtárát, ami általában a
public_html
vagywww
mappa. - Hozd létre/szerkeszd a fájlt:
- Ha nincs
robots.txt
fájl, hozz létre egy új szöveges fájlt pontosan ezzel a névvel:robots.txt
. - Ha már létezik, nyisd meg szerkesztésre.
- Ha nincs
- Írd be a direktívákat: Illeszd be a kívánt
User-agent
,Disallow
,Allow
ésSitemap
direktívákat. - Mentés és feltöltés: Mentsd el a fájlt, és töltsd fel a gyökérkönyvtárba.
Fontos megjegyzés: Ha manuálisan hozol létre egy fizikai robots.txt
fájlt, az felülírja a WordPress által generált virtuális fájlt. Győződj meg róla, hogy az összes szükséges direktíva szerepel benne (pl. az admin-ajax.php
engedélyezése!). Egyetlen rossz sor is súlyosan károsíthatja a webhelyed SEO-ját.
Gyakori WordPress specifikus direktívák és legjobb gyakorlatok
Íme egy javasolt robots.txt
konfiguráció, amelyet testreszabhatsz a WordPress webhelyedhez:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /wp-json/
Disallow: /*/attachment/
Disallow: /*/comments/feed/
Disallow: /*/trackback/
Disallow: /*?s=
Disallow: /tag/
Disallow: /category/
Disallow: /author/
Disallow: /page/*?
Disallow: /?s=
Disallow: /*.zip$
Disallow: /*.rar$
Disallow: /*.exe$
Disallow: /*.svg$
Disallow: /wp-content/cache/
Disallow: /wp-content/plugins/*.php
Disallow: /wp-content/themes/*.php
Allow: /wp-content/uploads/
Sitemap: https://www.yourdomain.com/sitemap_index.xml
Magyarázat az újonnan hozzáadott direktívákhoz:
Disallow: /wp-json/
: A WordPress REST API útvonala. Gyakran nem szükséges indexelni.Disallow: /*/attachment/
: Tiltja az összes csatolmányoldalt.Disallow: /*/comments/feed/
ésDisallow: /*/trackback/
: Tiltja a komment feedeket és a trackbackeket, amik általában nem relevánsak a keresőmotorok számára.Disallow: /*?s=
ésDisallow: /?s=
: Tiltja a belső keresési eredményoldalakat.Disallow: /tag/
,Disallow: /category/
,Disallow: /author/
: Tilthatja a címke-, kategória- és szerzői archívumokat, ha azok nem járulnak hozzá jelentős mértékben az SEO-hoz és duplikált tartalomnak minősülnek. De ismételten: gondold át, hogy ezek relevánsak-e a felhasználóid számára!Disallow: /page/*?
: Segít kizárni a paraméterekkel ellátott oldalakat.Disallow: /*.zip$
,/*.rar$
,/*.exe$
,/*.svg$
: Tiltja a letölthető fájlok és az SVG képek indexelését (ha nem szeretnéd, hogy megjelenjenek a keresőben).Disallow: /wp-content/cache/
: Megakadályozza a cache fájlok indexelését.Disallow: /wp-content/plugins/*.php
ésDisallow: /wp-content/themes/*.php
: Ez megakadályozza, hogy a PHP fájlok legyenek közvetlenül kúszva a plugin és téma mappákban. Legyél óvatos ezzel, és teszteld!Allow: /wp-content/uploads/
: Fontos, hogy ez engedélyezve legyen, hogy a képeid indexelhetők legyenek.
A robots.txt
fájl tervezésekor mindig tartsd szem előtt a következőket:
- Ne blokkolj fontos CSS és JavaScript fájlokat: A Google ma már úgy kúszik és indexel, hogy „rendereli” az oldalt, mint egy felhasználó. Ha blokkolod a CSS és JS fájlokat, a Google nem látja az oldalad teljes elrendezését és funkcionalitását, ami negatívan befolyásolja a rangsorolásodat. Győződj meg róla, hogy a
/wp-content/themes/
és/wp-content/plugins/
mappákban található releváns CSS/JS fájlok engedélyezve vannak a kúszásra. - Sitemap URL: Mindig add hozzá a XML sitemap fájlod URL-jét. Ez segíti a robotokat az oldalad struktúrájának megértésében.
- Rendszeres felülvizsgálat: A webhelyed fejlődésével a
robots.txt
fájlodnak is fejlődnie kell. Rendszeresen ellenőrizd, hogy a direktívák továbbra is relevánsak-e.
A robots.txt ellenőrzése és tesztelése
Miután elvégezted a módosításokat, elengedhetetlen, hogy ellenőrizd, megfelelően működik-e a robots.txt
fájlod.
- Google Search Console (Robots.txt Tesztelő): A Google Search Console egy ingyenes eszköz, amelyet minden webhelytulajdonosnak használnia kell. A „Robots.txt Tesztelő” eszköz (Régebbi eszközök és jelentések alatt) lehetővé teszi, hogy beilleszd a
robots.txt
fájlod tartalmát, és teszteld, hogy a Googlebot mely URL-eket engedélyezi és melyeket tiltja. Ez azonnal megmutatja az esetleges szintaktikai hibákat. - URL-ellenőrzési eszköz: Használd a Google Search Console URL-ellenőrzési eszközét, hogy megnézd, hogyan látja a Google egy adott oldaladat, és hogy a
robots.txt
blokkolja-e. - Monitorozd a kúszási statisztikákat: A Search Console-ban figyelemmel kísérheted a „Kúszási statisztikákat”, hogy lásd, a Googlebot hogyan interakcióba lép a webhelyeddel, és mennyire hatékonyan használja a crawl budgetet.
Gyakori hibák, amiket el kell kerülni
A robots.txt
fájl hatalmas erejű eszköz lehet, de hibás használata súlyos SEO problémákhoz vezethet:
- CSS és JavaScript fájlok blokkolása: Ahogy már említettük, ez az egyik leggyakoribb és legsúlyosabb hiba. A Googlebotnak látnia kell ezeket a fájlokat, hogy megfelelően renderelhesse és megértse az oldaladat.
- Egész webhely blokkolása (`Disallow: /`): Ha ezt a direktívát alkalmazod, a webhelyed teljesen eltűnik a keresési eredmények közül. CSAK akkor használd, ha egy fejlesztői vagy staging környezetben vagy, amit semmiképp sem szeretnél indexelni.
- Érzékeny adatok védelme robots.txt-tel: Ne feledd, a
robots.txt
fájl nyilvánosan hozzáférhető. Soha ne tegyél bele olyan információt (pl. jelszavakat, privát adatok útvonalát), amit nem szeretnél, hogy bárki lásson. A jelszóval védett könyvtárak vagy a szerver oldali hozzáférés-korlátozások a megfelelő megoldások erre. - Sitemap direktíva hiánya vagy elavulása: Ha változik a sitemap URL-ed, frissítsd a
robots.txt
-ben is. - Szintaktikai hibák: Egy rosszul elhelyezett perjel (
/
) vagy egy elgépelt szó az egész direktívát érvénytelenné teheti. Mindig ellenőrizd az írásmódot és a logikát. - Olyan oldalak blokkolása, amiket indexelni szeretnél: Gondosan válogasd meg, mit tiltasz le. Egy fontos kategóriaoldal letiltása komoly forgalomveszteséget okozhat.
Összefoglalás
A robots.txt
fájl helyes beállítása a WordPress webhelyeden kulcsfontosságú a keresőoptimalizálás szempontjából. Bár elsőre bonyolultnak tűnhet, a megfelelő megközelítéssel és eszközökkel (mint a SEO bővítmények vagy a Google Search Console) könnyedén kezelhető. Ne feledd, a cél az, hogy a kúszórobotokat a legfontosabb tartalmaid felé irányítsd, optimalizáld a crawl budgetet, elkerüld a duplikált tartalom problémáit, és ezzel jobb rangsorolást érj el a Google és más keresőmotorok találati listáin.
Fektess időt a robots.txt
fájl finomhangolására, tesztelésére és rendszeres felülvizsgálatára. Ez a kis szöveges fájl hatalmas hatással lehet webhelyed láthatóságára és sikerére a digitális térben!
Leave a Reply