Ինչպես արգելափակել կայքի ինդեքսավորումը robots.txt-ում. հրահանգներ և առաջարկություններ

Բովանդակություն:

Ինչպես արգելափակել կայքի ինդեքսավորումը robots.txt-ում. հրահանգներ և առաջարկություններ
Ինչպես արգելափակել կայքի ինդեքսավորումը robots.txt-ում. հրահանգներ և առաջարկություններ
Anonim

SEO-օպտիմիզատորի աշխատանքը շատ լայնածավալ է: Սկսնակներին խորհուրդ է տրվում գրել օպտիմալացման ալգորիթմը՝ ոչ մի քայլ բաց չթողնելու համար։ Հակառակ դեպքում, առաջխաղացումը դժվար թե հաջողված անվանվի, քանի որ կայքը մշտապես բախվելու է ձախողումների և սխալների, որոնք երկար ժամանակ պետք է շտկվեն:

Օպտիմալացման քայլերից մեկը robots.txt ֆայլի հետ աշխատելն է: Յուրաքանչյուր ռեսուրս պետք է ունենա այս փաստաթուղթը, քանի որ առանց դրա ավելի դժվար կլինի հաղթահարել օպտիմալացումը։ Այն կատարում է բազմաթիվ գործառույթներ, որոնք դուք պետք է հասկանաք:

Ռոբոտի օգնական

Robots.txt ֆայլը պարզ տեքստային փաստաթուղթ է, որը կարելի է դիտել համակարգի ստանդարտ Notepad-ում: Այն ստեղծելիս պետք է կոդավորումը դնել UTF-8, որպեսզի այն ճիշտ ընթերցվի։ Ֆայլն աշխատում է http, https և FTP արձանագրություններով:

Այս փաստաթուղթը ռոբոտների որոնման օգնական է: Եթե չգիտեք, յուրաքանչյուր համակարգ օգտագործում է «սարդեր», որոնք արագ սողում են Համաշխարհային սարդոստայնը՝ հարցումների համար համապատասխան կայքեր վերադարձնելու համար:օգտվողներ. Այս ռոբոտները պետք է մուտք ունենան ռեսուրսի տվյալներին, robots.txt-ն աշխատում է դրա համար:

Որպեսզի սարդերը գտնեն իրենց ճանապարհը, դուք պետք է ուղարկեք robots.txt փաստաթուղթը արմատային գրացուցակ: Ստուգելու համար, թե արդյոք կայքը ունի այս ֆայլը, մուտքագրեք «https://site.com.ua/robots.txt» բրաուզերի հասցեագոտում: «site.com.ua»-ի փոխարեն անհրաժեշտ է մուտքագրել ձեզ անհրաժեշտ ռեսուրսը:

Աշխատանք robots.txt-ի հետ
Աշխատանք robots.txt-ի հետ

Փաստաթղթի գործառույթներ

Robots.txt ֆայլը սողացողներին տրամադրում է մի քանի տեսակի տեղեկատվություն: Այն կարող է մասնակի մուտք տալ, որպեսզի «սարդը» սկանավորի ռեսուրսի կոնկրետ տարրերը: Ամբողջական մուտքը թույլ է տալիս ստուգել բոլոր հասանելի էջերը: Ամբողջական արգելքը թույլ չի տալիս ռոբոտներին նույնիսկ սկսել ստուգել, և նրանք լքում են կայքը:

Ռեսուրս այցելելուց հետո «սարդերը» ստանում են համապատասխան պատասխան խնդրանքին։ Դրանցից կարող են լինել մի քանիսը, ամեն ինչ կախված է robots.txt-ի տեղեկատվությունից: Օրինակ, եթե սկանավորումը հաջող է, ռոբոտը կստանա 2xx կոդը:

Հնարավոր է կայքը վերահղվել է մի էջից մյուսը: Այս դեպքում ռոբոտը ստանում է 3xx կոդը: Եթե այս կոդը կրկնվում է մի քանի անգամ, ապա spider-ը կհետևի դրան, մինչև այն ստանա այլ պատասխան: Թեեւ, որպես կանոն, նա օգտագործում է ընդամենը 5 փորձ։ Հակառակ դեպքում հայտնվում է հայտնի 404 սխալը:

Եթե պատասխանը 4xx է, ապա ռոբոտին թույլատրվում է սողալ կայքի ողջ բովանդակությունը: Բայց 5xx կոդի դեպքում ստուգումը կարող է ամբողջությամբ դադարեցվել, քանի որ դա հաճախ ցույց է տալիս սերվերի ժամանակավոր սխալներ։

Որոնել ռոբոտներ
Որոնել ռոբոտներ

Ինչի համարպետք է robots.txt?

Ինչպես կարող եք կռահել, այս ֆայլը ռոբոտների ուղեցույցն է կայքի արմատին: Այժմ այն օգտագործվում է անպատշաճ բովանդակության մուտքը մասամբ սահմանափակելու համար:

  • էջեր՝ օգտատերերի անձնական տվյալներով;
  • հայելային կայքեր;
  • որոնման արդյունքներ;
  • տվյալների ներկայացման ձևեր և այլն:

Եթե կայքի արմատում robots.txt ֆայլ չկա, ռոբոտը կսողա բացարձակապես ողջ բովանդակությունը: Համապատասխանաբար, որոնման արդյունքներում կարող են հայտնվել անցանկալի տվյալներ, ինչը նշանակում է, որ կտուժեք և՛ դուք, և՛ կայքը։ Եթե robots.txt փաստաթղթում կան հատուկ հրահանգներ, ապա «սարդը» կհետևի դրանց և կտրամադրի ռեսուրսի սեփականատիրոջ ուզած տեղեկատվությունը։

Աշխատանք ֆայլի հետ

Robots.txt կայքի ինդեքսավորումն արգելափակելու համար օգտագործելու համար դուք պետք է պարզեք, թե ինչպես ստեղծել այս ֆայլը: Դա անելու համար հետևեք հրահանգներին՝

  1. Ստեղծեք փաստաթուղթ Notepad-ում կամ Notepad++-ում:
  2. Սահմանել ֆայլի ընդլայնումը «.txt»:
  3. Մուտքագրեք պահանջվող տվյալները և հրամանները:
  4. Պահպանեք փաստաթուղթը և վերբեռնեք այն կայքի արմատին:

Ինչպես տեսնում եք, փուլերից մեկում անհրաժեշտ է հրամաններ սահմանել ռոբոտների համար։ Դրանք երկու տեսակի են՝ թույլատրող (Թույլատրել) և արգելող (Արգելել): Նաև որոշ օպտիմիզատորներ կարող են նշել սողալու արագությունը, հոսթինգը և հղումը ռեսուրսի էջի քարտեզին:

Ինչպես փակել կայքը ինդեքսավորումից
Ինչպես փակել կայքը ինդեքսավորումից

Robots.txt-ի հետ աշխատելու և կայքի ինդեքսավորումն ամբողջությամբ արգելափակելու համար դուք պետք է հասկանաք նաև օգտագործվող նշանները: Օրինակ՝ փաստաթղթումօգտագործել «/», որը ցույց է տալիս, որ ամբողջ կայքը ընտրված է: Եթե օգտագործվում է «», ապա անհրաժեշտ է նիշերի հաջորդականություն: Այս կերպ հնարավոր կլինի նշել կոնկրետ թղթապանակ, որը կամ կարելի է սկանավորել, կամ ոչ:

Բոտերի հատկություն

«Սարդերը» որոնման համակարգերի համար տարբեր են, այնպես որ, եթե դուք աշխատում եք միանգամից մի քանի որոնման համակարգերի համար, ապա ստիպված կլինեք հաշվի առնել այս պահը: Նրանց անունները տարբեր են, ինչը նշանակում է, որ եթե ցանկանում եք կապ հաստատել կոնկրետ ռոբոտի հետ, ապա պետք է նշեք նրա անունը՝ «User Agent: Yandex» (առանց չակերտների):

Եթե ցանկանում եք դիրեկտիվներ սահմանել բոլոր որոնման համակարգերի համար, ապա պետք է օգտագործեք «User Agent: » հրամանը (առանց չակերտների): Որպեսզի պատշաճ կերպով արգելափակեք կայքի ինդեքսավորումը՝ օգտագործելով robots.txt, դուք պետք է իմանաք հայտնի որոնման համակարգերի առանձնահատկությունները:

Փաստն այն է, որ Yandex-ի և Google-ի ամենահայտնի որոնման համակարգերն ունեն մի քանի բոտ: Նրանցից յուրաքանչյուրն ունի իր առաջադրանքները: Օրինակ, Yandex Bot-ը և Googlebot-ը հիմնական «սարդերն» են, որոնք սողում են կայքը: Իմանալով բոլոր բոտերին՝ ավելի հեշտ կլինի կարգավորել ձեր ռեսուրսի ինդեքսավորումը:

Ինչպես է աշխատում robots.txt ֆայլը
Ինչպես է աշխատում robots.txt ֆայլը

Օրինակներ

Այսպիսով, robots.txt-ի օգնությամբ դուք կարող եք փակել կայքը ինդեքսավորումից պարզ հրամաններով, գլխավորը հասկանալն է, թե կոնկրետ ինչ է ձեզ անհրաժեշտ։ Օրինակ, եթե ցանկանում եք, որ Googlebot-ը չմոտենա ձեր ռեսուրսին, պետք է նրան համապատասխան հրաման տալ։ Այն կունենա հետևյալ տեսքը. «Օգտվողի գործակալ. Googlebot Թույլ չտալ. /» (առանց չակերտների):

Այժմ մենք պետք է հասկանանք, թե ինչ է այս հրամանում և ինչպես է այն աշխատում: Այսպիսով, «Օգտագործող-գործակալ»օգտագործվում է բոտերից մեկին ուղիղ զանգ օգտագործելու համար: Հաջորդը նշում ենք, թե որ մեկը, մեր դեպքում դա Google-ն է։ «Disallow» հրամանը պետք է սկսվի նոր տողից և արգելի ռոբոտին մուտք գործել կայք: Շեղի նշանն այս դեպքում ցույց է տալիս, որ ռեսուրսի բոլոր էջերը ընտրված են հրամանի կատարման համար:

Ինչի՞ համար է robots.txt-ը
Ինչի՞ համար է robots.txt-ը

Robots.txt-ում դուք կարող եք անջատել ինդեքսավորումը բոլոր որոնման համակարգերի համար պարզ հրամանով. «User-agent. Disallow: /» (առանց չակերտների): Աստղանիշը այս դեպքում նշանակում է բոլոր որոնման ռոբոտները: Սովորաբար, նման հրաման է անհրաժեշտ՝ կայքի ինդեքսավորումը դադարեցնելու և դրա վրա հիմնական աշխատանք սկսելու համար, ինչը հակառակ դեպքում կարող է ազդել օպտիմալացման վրա:

Եթե ռեսուրսը մեծ է և ունի բազմաթիվ էջեր, այն հաճախ պարունակում է գույքային տեղեկատվություն, որը կամ ցանկալի չէ հրապարակել, կամ կարող է բացասաբար ազդել առաջխաղացման վրա: Այս դեպքում դուք պետք է հասկանաք, թե ինչպես փակել էջը robots.txt-ում ինդեքսավորումից:

Դուք կարող եք թաքցնել կամ թղթապանակը կամ ֆայլը: Առաջին դեպքում պետք է նորից սկսել՝ կապվելով կոնկրետ բոտի կամ բոլորի հետ, ուստի մենք օգտագործում ենք «User-agent» հրամանը, իսկ ներքևում նշում ենք «Disallow» հրամանը կոնկրետ թղթապանակի համար։ Այն կունենա հետևյալ տեսքը՝ «Արգելել՝ / թղթապանակ /» (առանց չակերտների): Այս կերպ դուք թաքցնում եք ամբողջ թղթապանակը: Եթե այն պարունակում է կարևոր ֆայլ, որը ցանկանում եք ցուցադրել, ապա պետք է գրեք ստորև նշված հրամանը. «Թույլատրել. /folder/file.php» (առանց չակերտների):

Ստուգեք ֆայլը

Եթե օգտագործում եք robots.txt կայքը փակելու համարՁեզ հաջողվեց ինդեքսավորել, բայց չգիտեք, թե արդյոք ձեր բոլոր հրահանգները ճիշտ են աշխատել, կարող եք ստուգել աշխատանքի ճիշտությունը:

Նախ, դուք պետք է նորից ստուգեք փաստաթղթի տեղադրումը: Հիշեք, որ այն պետք է լինի բացառապես արմատային թղթապանակում: Եթե դա արմատային թղթապանակում է, ապա այն չի աշխատի: Այնուհետև բացեք զննարկիչը և այնտեղ մուտքագրեք հետևյալ հասցեն՝ «https://yoursite. com/robots.txt» (առանց չակերտների): Եթե ձեր վեբ բրաուզերում սխալ եք ստանում, ապա ֆայլը այն տեղում չէ, որտեղ պետք է լինի:

Ինչպես փակել թղթապանակը ինդեքսավորումից
Ինչպես փակել թղթապանակը ինդեքսավորումից

Դիրեկտիվները կարելի է ստուգել հատուկ գործիքներով, որոնք օգտագործվում են գրեթե բոլոր վեբ վարպետների կողմից: Խոսքը Google-ի և Yandex-ի արտադրանքի մասին է։ Օրինակ, Google Search Console-ում կա գործիքագոտի, որտեղ պետք է բացել «Crawl», ապա գործարկել «Robots.txt File Inspection Tool»-ը: Դուք պետք է պատճենեք բոլոր տվյալները փաստաթղթից պատուհանում և սկսեք սկանավորումը: Ճիշտ նույն ստուգումը կարելի է անել Yandex. Webmaster-ում։

Խորհուրդ ենք տալիս: