Avertismente Google Search Console: "Indexat, desi blocat cu robots.txt"
Acesta este sectiunea de help pentru versiunea Legacy a panoului de control. Daca utilizati panoul de control Flex, puteti gasi aici sectiunea de help relevanta.
Aplicatia Google Search Console genereaza avertismentul "Indexat, desi blocat cu robots.txt" atunci cand anumite pagini din website sunt blocate prin intermediul fisierului robots.txt. Scopul blocarii acestor pagini este de a evita indexarea unui continut duplicat de catre motoarele de cautare.
Google sanctioneaza site-urile care au un continut duplicat, cum ar fi continutul identic cu cel prezent pe alte website-uri (ex: o stire ce are textul identic cu cel din site-ul sursa) sau continutul identic din propriul website, care inevitabil este generat intr-un magazin online (ex: pagini de listing produse cu mai multe filtre aplicate simultan).
- Blocarea indexarii anumitor pagini
- Continut duplicat in magazinul meu
- Ce ar trebui sa fac pentru a nu mai primi acest avertisment?
Blocarea indexarii anumitor pagini
Platforma MerchantPro foloseste marcajele "disallow", "nofollow" si "noindex" pentru a optimiza indexarea in rezultatele la cautari prin restrictionarea accesului robotilor motoarelor de cautare la anumite pagini ce pot genera continut duplicat.
Marcajele utilizate au urmatoarele roluri:
-
Tag-ul "disallow" este folosit in cadrul fisierului robots.txt pentru a nu permite motoarelor de cautare sa citeasca continutul din pagina respectiva, insa aceasta pagina poate fi in continuare indexata si astfel link-ul catre pagina va fi listat in rezultatele de cautare.
Exemplu: Disallow: /dashboard -
Tag-ul "nofollow" este o valoare care poate fi asignata unui link dintr-o pagina pentru a indica motoarelor de cautare ca acel hyperlink nu ar trebui luat in considerare in calcularea page ranking-ului. Adaugat in header-ul paginii, nofollow opreste citirea tuturor link-urilor din acea pagina, insa pagina si continutul din pagina vor putea fi indexate.
Exemplu tag in pagina: < meta name="robots" content="nofollow" />
Exemplu tag pe link individual: < a href="shop.demo.ro/dashboard" rel="nofollow" >Link< /a> -
Tag-ul "noindex" poate fi adaugat la nivel de pagina si permite motoarelor de cautare sa gaseasca acea pagina, dar este descurajata indexarea acelei pagini si nu va fi inclusa in rezultatele de cautare. Link-urile existente in acea pagina pot fi parcurse de crawleri, iar acele noi pagini vor fi indexate daca nu contin la randul lor tag-ul noindex.
Exemplu: < meta name="robots" content="noindex" />
Utilizarea tag-urilor "disallow" si "noindex" simultan
Odata setat tag-ul "disallow", crawlerii (botii) nu vor putea citi pagina si astfel nu vor putea gasi meta tag-ul "noindex". De aceea, paginile care au tag-ul "disallow" nu vor fi automat eliminate din rezultatele cautarilor in cazul in care au fost deja indexate.
Pentru a se evita indexarea, cat si citirea continutului unei pagini de catre crawleri, este necesar sa fie setat mai intai tag-ul "noindex" (daca pagina fost deja indexata). Dupa ce pagina este eliminata din rezultatele la cautari, poate fi adaugat si tag-ul "disallow" pentru ca informatiile din pagina sa nu mai fie citite de catre crawleri.
Continut duplicat in magazinul meu
In paginile de listing de produse, cum ar fi pagina de categorie, exista cele mai multe sanse de aparitie a continutului duplicat. Spre exemplu, in momentul in care aplici o serie de filtre intr-o pagina de categorie, in pagina de filtrare sunt afisate produsele care corespund filtrelor respective. Aceleasi produse pot sa corespunda insa si altor filtre si deci sa fie afisate si in alte pagini de filtrare pe categorie, ceea ce duce la generarea unui continut duplicat.
Iata cateva exemple de pagini care sunt marcate cu tag-urile "disallow" si "noindex" simultan, pentru a se evita indexarea continutului duplicat:
-
paginile de listing produse in care s-au aplicat simultan mai multe filtre:
http://shop.demo.ro/men?f=24-25-37-39
http://shop.demo.ro/men?f=24-25 -
paginile de filtrare produse in functie de tag, care nu a returnat niciun rezultat:
http://shop.demo.ro/laptop
Exista si pagini de listing produse care sunt indexate in mod normal, fara restrictii de accesare de catre motoarele de cautare, cum ar fi urmatoarele:
-
paginile de filtrare produse in functie de tag, care a returnat rezultate:
http://shop.demo.ro/shirt -
paginile de producatori:
http://shop.demo.ro/men/burberry -
paginile de categorie de produse:
http://shop.demo.ro/men -
paginile cu un singur filtru pe categorie:
http://shop.demo.ro/men/colour-black
Ce ar trebui sa fac pentru a nu mai primi acest avertisment?
Pentru a nu primi avertismentul "Indexat, desi blocat cu robots.txt", in Google Search Console, este necesar sa elimini linia Disallow: /*?f=* din cadrul fisierului robots.txt, pentru a permite accesarea de catre motoarele de cautare a paginilor de listing produse, in care sunt utilizate mai multe filtre (atribute produse).
Fisierul robots.txt poate fi editat din meniul Website, astfel:
- Acceseaza Pagini statice si mergi la sectiunea Resurse statice;
- Apasa butonul Editeaza din dreptul fisierului robots.txt;
- Modifica tipul continutului din Continut predefinit in Continut introdus;
- Sterge linia Disallow: /*?f=* din fisier;
- Apasa butonul Salveaza.