Ինչպե՞ս ճիշտ կարգավորել Robots.txt-ը:

Բովանդակություն:

Ինչպե՞ս ճիշտ կարգավորել Robots.txt-ը:
Ինչպե՞ս ճիշտ կարգավորել Robots.txt-ը:
Anonim

Ճիշտ Robots txt-ը html կայքի համար ստեղծում է գործողությունների մոդելներ որոնման համակարգի բոտերի համար՝ ասելով, թե ինչ կարող են ստուգել: Այս ֆայլը հաճախ կոչվում է Robot Exclusion Protocol: Առաջին բանը, որ բոտերը փնտրում են նախքան կայք սողալը, robots.txt-ն է: Այն կարող է մատնանշել կամ ասել Կայքի քարտեզին չստուգել որոշակի ենթադոմեյններ: Երբ ցանկանում եք, որ որոնման համակարգերը որոնեն այն, ինչ ամենահաճախ գտնում են, ապա robots.txt-ը պարտադիր չէ: Այս գործընթացում շատ կարևոր է, որ ֆայլը ճիշտ ձևաչափված լինի և օգտագործողի էջը չներկայացնի օգտատիրոջ անձնական տվյալները:

Ռոբոտի սկանավորման սկզբունք

Ռոբոտի սկանավորման սկզբունքը
Ռոբոտի սկանավորման սկզբունքը

Երբ որոնիչը հանդիպում է ֆայլի և տեսնում է արգելված URL, այն չի որոնում այն, բայց կարող է ինդեքսավորել այն: Դա պայմանավորված է նրանով, որ նույնիսկ եթե ռոբոտներին թույլ չեն տալիս դիտել բովանդակությունը, նրանք կարող են հիշել արգելված URL-ը մատնանշող backlinks: Հղման արգելափակված մուտքի պատճառով URL-ը կհայտնվի որոնման համակարգերում, բայց առանց բեկորների: ԵթեՆերգնա շուկայավարման ռազմավարության համար պահանջվում է ճիշտ Robots txt bitrix-ի համար (Bitrix), նրանք տրամադրում են կայքի ստուգում օգտատիրոջ խնդրանքով սկաներների միջոցով:

Մյուս կողմից, եթե ֆայլը ճիշտ ձևաչափված չէ, դա կարող է հանգեցնել նրան, որ կայքը չհայտնվի որոնման արդյունքներում և չգտնվի: Որոնման համակարգերը չեն կարող շրջանցել այս ֆայլը: Ծրագրավորողը կարող է դիտել ցանկացած կայքի robots.txt-ը՝ անցնելով դրա տիրույթ և հետևելով այն robots.txt-ով, օրինակ՝ www.domain.com/robots.txt: Օգտագործելով Unamo-ի SEO-ի օպտիմալացման բաժինը, որտեղ դուք կարող եք մուտքագրել ցանկացած տիրույթ, և ծառայությունը ցույց կտա տեղեկատվություն ֆայլի գոյության մասին:

Սկանավորման սահմանափակումներ՝

  1. Օգտվողն ունի հնացած կամ զգայուն բովանդակություն:
  2. Կայքի պատկերները չեն ներառվի պատկերների որոնման արդյունքներում:
  3. Կայքը դեռ պատրաստ չէ ռոբոտի կողմից ինդեքսավորման ցուցադրությանը:

Հիշեք, որ այն տեղեկատվությունը, որը օգտվողը ցանկանում է ստանալ որոնման համակարգից, հասանելի է բոլորին, ովքեր մուտքագրում են URL-ը: Մի օգտագործեք այս տեքստային ֆայլը զգայուն տվյալները թաքցնելու համար: Եթե տիրույթն ունի 404 (չգտնված) կամ 410 (անցած) սխալ, որոնիչը ստուգում է կայքը՝ չնայած robots.txt-ի առկայությանը, որի դեպքում համարում է, որ ֆայլը բացակայում է։ Այլ սխալներ, ինչպիսիք են 500 (ներքին սերվերի սխալ), 403 (արգելված), ժամանակի ավարտը կամ «հասանելի չէ» վերաբերում են robots.txt-ի հրահանգներին, սակայն շրջանցումը կարող է հետաձգվել մինչև ֆայլը հասանելի լինի:

Որոնման ֆայլի ստեղծում

Որոնման ֆայլի ստեղծում
Որոնման ֆայլի ստեղծում

ՇատCMS ծրագրերը, ինչպիսիք են WordPress-ը, արդեն ունեն robots.txt ֆայլ: Նախքան Robots txt WordPress-ը ճիշտ կարգավորելը, օգտատերը պետք է ծանոթանա դրա հնարավորություններին, որպեսզի պարզի, թե ինչպես մուտք գործել դրան: Եթե ծրագրավորողն ինքն է ստեղծում ֆայլը, այն պետք է համապատասխանի հետևյալ պայմաններին.

  1. Պետք է լինի փոքրատառ:
  2. Օգտագործեք UTF-8 կոդավորումը:
  3. Պահպանել տեքստային խմբագրիչում որպես ֆայլ (.txt).

Երբ օգտատերը չգիտի, թե որտեղ տեղադրել այն, նա կապվում է վեբ սերվերի ծրագրային ապահովման վաճառողի հետ՝ պարզելու, թե ինչպես մուտք գործել տիրույթի արմատը կամ գնալ Google-ի վահանակ և ներբեռնել այն: Այս ֆունկցիայի միջոցով Google-ը կարող է նաև ստուգել՝ արդյոք բոտը ճիշտ է աշխատում և ֆայլի միջոցով արգելափակված կայքերի ցանկը:

ճիշտ Robots txt-ի հիմնական ձևաչափը bitrix-ի համար (Bitrix):

  1. Legend robots.txt.
  2. , ավելացնում է մեկնաբանություններ, որոնք օգտագործվում են միայն որպես նշում:
  3. Այս մեկնաբանությունները անտեսվելու են սկաների կողմից, ինչպես նաև օգտատերերի տառասխալները:
  4. User-agent - ցույց է տալիս, թե որ որոնման համակարգում են նշված ֆայլի հրահանգները:
  5. Ավելացնելով աստղանիշ () սկաներներին տեղեկացնում է, որ հրահանգները բոլորի համար են:

Նշում է կոնկրետ բոտ, օրինակ՝ Googlebot, Baiduspider, Applebot: Թույլ չտալը տեղեկացնում է, որ վեբկայքի որ մասերը չպետք է որոնվեն: Կարծես այսպես. Օգտվողի գործակալ՝: Աստղանիշը նշանակում է «բոլոր բոտերը»: Այնուամենայնիվ, դուք կարող եք հատուկ էջեր նշելբոտեր. Դա անելու համար դուք պետք է իմանաք այն բոտի անունը, որի համար առաջարկություններ են սահմանված:

Yandex-ի համար ռոբոտների ճիշտ txt-ը կարող է այսպիսի տեսք ունենալ.

Ճիշտ ռոբոտներ txt Yandex-ի համար
Ճիշտ ռոբոտներ txt Yandex-ի համար

Եթե բոտը չպետք է զննի կայքը, կարող եք նշել այն, իսկ օգտատերերի գործակալների անունները գտնելու համար խորհուրդ է տրվում ծանոթանալ useragentstring.com-ի առցանց հնարավորություններին:

Էջի օպտիմալացում

Էջի օպտիմալացում
Էջի օպտիմալացում

Հետևյալ երկու տողերը համարվում են ամբողջական robots.txt ֆայլ, և ռոբոտների մեկ ֆայլը կարող է պարունակել օգտվողի գործակալների և հրահանգների մի քանի տող, որոնք անջատում կամ թույլ են տալիս սողալը: Ճիշտ Robots txt-ի հիմնական ձևաչափը՝

  1. Օգտվողի գործակալ՝ [գործակալի օգտանուն]։
  2. Արգելել՝ ։

Ֆայլում հրահանգների յուրաքանչյուր բլոկ ցուցադրվում է որպես դիսկրետ՝ առանձնացված տողով: Գործակալի օգտատերերի գրացուցակի կողքին գտնվող ֆայլում յուրաքանչյուր կանոն կիրառվում է հատվածով առանձնացված տողերի որոշակի հավաքածուի վրա: Եթե ֆայլն ունի մի քանի գործակալների կանոն, ապա ռոբոտը հաշվի կառնի միայն հրահանգների առավել կոնկրետ խումբը:

Տեխնիկական շարահյուսություն

Տեխնիկական շարահյուսություն
Տեխնիկական շարահյուսություն

Այն կարելի է համարել robots.txt ֆայլերի «լեզուն»: Կան հինգ տերմիններ, որոնք կարող են գոյություն ունենալ այս ձևաչափով, որոնցից հիմնականներն են՝

  1. Օգտվող-գործակալ. վեբ որոնիչ՝ սողալու հրահանգներով, սովորաբար որոնողական համակարգով:
  2. Disallow-ը հրաման է, որն օգտագործվում է օգտատեր գործակալին շրջանցելու հրահանգ տալու համարկոնկրետ URL-ի (բացթողում): Յուրաքանչյուրի համար կա միայն մեկ արգելված պայման։
  3. Թույլատրել. Googlebot-ի համար, որը մուտք է ստանում, նույնիսկ օգտվողի էջը մերժվում է:
  4. Crawl-delay - սահմանում է, թե քանի վայրկյան կպահանջվի սողացողին նախքան սողալը: Երբ բոտը դա չի հաստատում, արագությունը սահմանվում է Google-ի վահանակում:
  5. Կայքի քարտեզ - օգտագործվում է URL-ի հետ կապված XML քարտեզները գտնելու համար:

Նախշի համընկնումներ

Երբ խոսքը վերաբերում է իրականում URL-ների արգելափակմանը կամ վավեր Robots txt-ին թույլատրելուն, գործողությունները կարող են բավականին բարդ լինել, քանի որ դրանք թույլ են տալիս օգտագործել օրինաչափությունների համընկնումը՝ ծածկելու URL-ի մի շարք հնարավոր պարամետրեր: Google-ը և Bing-ը երկուսն էլ օգտագործում են երկու նիշ, որոնք նույնացնում են այն էջերը կամ ենթաթղթապանակները, որոնք SEO-ն ցանկանում է բացառել: Երկու նիշերն են աստղանիշը () և դոլարի նշանը ($), որտեղ՝ -ը նիշերի ցանկացած հաջորդականություն է ներկայացնում: $ - համապատասխանում է URL-ի վերջին:

Google-ն առաջարկում է կաղապարի հնարավոր շարահյուսությունների մեծ ցուցակ, որոնք բացատրում են օգտվողին, թե ինչպես ճիշտ կարգավորել Robots txt ֆայլը: Որոշ ընդհանուր օգտագործման դեպքեր ներառում են՝

  1. Կարգելեք կրկնօրինակ բովանդակության հայտնվելը որոնման արդյունքներում:
  2. Պահպանեք կայքի բոլոր բաժինները գաղտնի:
  3. Պահպանեք որոնման արդյունքների ներքին էջերը բաց հայտարարության հիման վրա:
  4. Նշեք գտնվելու վայրը։
  5. Կանխեք որոնիչները որոշակի ինդեքսավորելուցֆայլեր։
  6. Նշեք սողալու ուշացում՝ վերաբեռնումը դադարեցնելու համար, երբ միաժամանակ սկանավորում եք բազմաթիվ բովանդակության տարածքներ:

Ստուգում է ռոբոտի ֆայլի առկայությունը

Եթե կայքում չկան տարածքներ, որոնք պետք է որոնել, ապա robots.txt-ն ընդհանրապես անհրաժեշտ չէ: Եթե օգտատերը վստահ չէ, որ այս ֆայլը գոյություն ունի, նա պետք է մուտքագրի արմատային տիրույթը և մուտքագրի այն URL-ի վերջում, մոտավորապես այսպիսին է՝ moz.com/robots.txt: Որոնման մի շարք բոտեր անտեսում են այս ֆայլերը: Սակայն, որպես կանոն, այս սողանները չեն պատկանում հեղինակավոր որոնման համակարգերին։ Դրանք սպամերների, փոստի ագրեգատորների և ավտոմատացված բոտերի այլ տեսակներ են, որոնք առատորեն հանդիպում են ինտերնետում:

Շատ կարևոր է հիշել, որ ռոբոտների բացառման ստանդարտի օգտագործումը անվտանգության արդյունավետ միջոց չէ: Փաստորեն, որոշ բոտեր կարող են սկսել այն էջերից, որտեղ օգտատերը դրանք սահմանում է սկանավորման ռեժիմ: Կան մի քանի մասեր, որոնք մտնում են ստանդարտ բացառության ֆայլ: Նախքան ռոբոտին ասելը, թե որ էջերում այն չպետք է աշխատի, դուք պետք է նշեք, թե որ ռոբոտի հետ խոսել: Շատ դեպքերում օգտատերը կօգտագործի պարզ հայտարարություն, որը նշանակում է «բոլոր բոտերը»:

SEO օպտիմալացում

SEO օպտիմիզացում
SEO օպտիմիզացում

Օպտիմիզացումից առաջ օգտատերը պետք է համոզվի, որ չի արգելափակում կայքի որևէ բովանդակություն կամ հատված, որը պետք է շրջանցել։ Ճիշտ Robots txt-ով արգելափակված էջերի հղումները չեն հարգվի: Սա նշանակում է՝

  1. Եթե դրանք կապված չեն որոնման համակարգերին հասանելի այլ էջերի հետ, այսինքն. էջեր,արգելափակված չէ robots.txt-ի կամ մետա ռոբոտի կողմից, և հարակից ռեսուրսները չեն սուզվի և, հետևաբար, չեն կարող ինդեքսավորվել:
  2. Ոչ մի հղում չի կարող փոխանցվել արգելափակված էջից դեպի հղման նպատակակետ: Եթե կա նման էջ, ապա ավելի լավ է օգտագործել այլ արգելափակման մեխանիզմ, քան robots.txt.

Քանի որ այլ էջերը կարող են ուղղակիորեն հղում կատարել անձնական տեղեկություններ պարունակող էջին, և դուք ցանկանում եք արգելափակել այս էջը որոնման արդյունքներից, օգտագործեք այլ մեթոդ, օրինակ՝ գաղտնաբառով պաշտպանություն կամ ոչ ինդեքս մետա տվյալները: Որոշ որոնման համակարգեր ունեն բազմաթիվ օգտվողների գործակալներ: Օրինակ՝ Google-ն օգտագործում է Googlebot-ը օրգանական որոնումների համար, իսկ Googlebot-Image՝ պատկերների որոնման համար:

Միևնույն որոնողական համակարգի օգտատերերի գործակալների մեծ մասը հետևում է նույն կանոններին, ուստի կարիք չկա նշել հրահանգներ մի քանի սողացողներից յուրաքանչյուրի համար, բայց դա անելը կարող է ճշգրտել կայքի բովանդակության սողալը: Որոնման համակարգը պահում է ֆայլի բովանդակությունը և սովորաբար թարմացնում է պահված բովանդակությունը առնվազն օրը մեկ անգամ: Եթե օգտատերը փոխում է ֆայլը և ցանկանում է այն թարմացնել սովորականից ավելի արագ, նա կարող է ուղարկել robots.txt URL-ը Google-ին:

Որոնման համակարգեր

Ռոբոտի ֆայլի առկայության ստուգում
Ռոբոտի ֆայլի առկայության ստուգում

Որպեսզի հասկանաք, թե ինչպես է Robots txt-ը ճիշտ աշխատում, դուք պետք է իմանաք որոնման համակարգերի հնարավորությունների մասին: Մի խոսքով, նրանց կարողությունը կայանում է նրանում, որ նրանք ուղարկում են «սկաներներ», որոնք այն ծրագրերն են, որոնքԻնտերնետում զննելով տեղեկատվություն: Նրանք այնուհետև պահում են այս տեղեկատվության մի մասը, որպեսզի այն հետագայում փոխանցեն օգտագործողին:

Շատերի համար Google-ն արդեն ինտերնետ է: Իրականում նրանք իրավացի են, քանի որ սա նրա թերևս ամենագլխավոր գյուտն է։ Եվ չնայած որոնողական համակարգերն իրենց ստեղծման օրվանից շատ են փոխվել, հիմքում ընկած սկզբունքները դեռ նույնն են: Սողունները, որոնք նաև հայտնի են որպես «բոտեր» կամ «սարդեր», գտնում են էջեր միլիարդավոր կայքերից: Որոնման համակարգերը նրանց ուղղություններ են տալիս, թե ուր գնալ, մինչդեռ առանձին կայքեր կարող են նաև շփվել բոտերի հետ և ասել նրանց, թե կոնկրետ որ էջերը պետք է նայեն:

Ընդհանրապես, կայքերի սեփականատերերը չեն ցանկանում հայտնվել որոնման համակարգերում՝ ադմինիստրատորի էջերում, հետնամասային պորտալներում, կատեգորիաների և պիտակների և այլ տեղեկատվական էջերում: Robots.txt ֆայլը կարող է օգտագործվել նաև որոնողական համակարգերի կողմից էջերը ստուգելը կանխելու համար: Մի խոսքով, robots.txt-ը վեբ սողացողներին ասում է, թե ինչ անել:

Արգելել էջերը

Սա ռոբոտի բացառման ֆայլի հիմնական մասն է: Պարզ հայտարարագրով օգտատերը բոտին կամ բոտերի խմբին ասում է, որ որոշ էջեր չսողանեն: Շարահյուսությունը պարզ է, օրինակ՝ կայքի «ադմինիստրատորի» գրացուցակում եղած ամեն ինչի մուտքը մերժելու համար գրեք՝ Թույլ չտալ՝ /admin: Այս տողը թույլ չի տա, որ բոտերը սողալու են yoursite.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html և ցանկացած այլ բան ադմինիստրատորի գրացուցակի տակ:

Մեկ էջ չթույլատրելու համար պարզապես նշեք այն արգելելու տողում. Արգելել՝ /public/exception.html: Այժմ «բացառություն» էջըչի տեղափոխվի, բայց «հանրային» թղթապանակում մնացած ամեն ինչ կանի։

Բազմաթիվ էջեր ներառելու համար պարզապես թվարկեք դրանք՝

Գրացուցակներ և էջեր
Գրացուցակներ և էջեր

Սիմֆոնիայի համար ճիշտ Robots txt-ի այս չորս տողերը կկիրառվեն ցանկացած օգտվողի գործակալի համար, որը նշված էrobots.txt բաժնի վերևում՝

Արգելեք էջերը
Արգելեք էջերը

Կայքի քարտեզ՝

Այլ հրամաններ՝live - թույլ մի տվեք վեբ սողուններին ինդեքսավորել cpresources/ կամ մատակարար/:

Օգտվողի գործակալ. Արգելել՝ /cpresources/.

Հերքել՝ / վաճառող / Արգելել՝ /.env.

Ստանդարտների սահմանում

Օգտատերը կարող է նշել հատուկ էջեր տարբեր բոտերի համար՝ համատեղելով նախորդ երկու տարրերը, ահա թե ինչ տեսք ունի: Բոլոր որոնման համակարգերի համար ճիշտ Robots txt-ի օրինակը ներկայացված է ստորև:

Ստանդարտների սահմանում
Ստանդարտների սահմանում

«admin» և «private» բաժինները անտեսանելի կլինեն Google-ի և Bing-ի համար, սակայն Google-ը դեռ կտեսնի «գաղտնի» գրացուցակը, մինչդեռ Bing-ը՝ ոչ: Դուք կարող եք նշել ընդհանուր կանոններ բոլոր բոտերի համար՝ օգտագործելով աստղանիշ օգտագործողի գործակալը, այնուհետև հաջորդ բաժիններում հատուկ հրահանգներ տալ բոտերին: Վերոնշյալ գիտելիքներով օգտվողը կարող է գրել Robots-ի ճիշտ txt-ի օրինակ բոլոր որոնման համակարգերի համար: Պարզապես միացրեք ձեր սիրելի տեքստային խմբագրիչը և ասեք բոտերին, որ նրանք ողջունելի չեն կայքի որոշ մասերում:

Խորհուրդներ սերվերի աշխատանքը բարելավելու համար

SublimeText-ն էբազմակողմանի տեքստային խմբագրիչ և ոսկե ստանդարտ շատ ծրագրավորողների համար: Նրա ծրագրավորման խորհուրդները հիմնված են արդյունավետ կոդավորման վրա, ընդ որում։ օգտվողները գնահատում են ծրագրում դյուրանցումների առկայությունը: Եթե օգտվողը ցանկանում է տեսնել robots.txt ֆայլի օրինակ, նա պետք է գնա ցանկացած կայք և վերջում ավելացնի «/robots.txt»: Ահա robots.txt ֆայլի մի մասը GiantBicycles:

Ծրագիրը ապահովում է էջերի ստեղծում, որոնք օգտվողները չեն ցանկանում ցուցադրել որոնման համակարգերում: Եվ նաև ունի մի քանի բացառիկ բաներ, որոնց մասին քչերը գիտեն: Օրինակ, մինչ robots.txt ֆայլը բոտերին ասում է, թե ուր չգնալ, կայքի քարտեզի ֆայլն անում է հակառակը և օգնում է նրանց գտնել այն, ինչ փնտրում են, և թեև որոնիչները հավանաբար արդեն գիտեն, թե որտեղ է գտնվում կայքի քարտեզը, այն չի ստացվում: ճանապարհին։

Կա երկու տեսակի ֆայլ՝ HTML էջ կամ XML ֆայլ: HTML էջն այն էջն է, որը այցելուներին ցույց է տալիս կայքի բոլոր հասանելի էջերը: Սեփական robots.txt-ում այն ունի հետևյալ տեսքը՝ Sitemap://www.makeuseof.com/sitemap_index.xml: Եթե կայքը չի ինդեքսավորվում որոնման համակարգերի կողմից, չնայած այն մի քանի անգամ սուզվել է վեբ ռոբոտների կողմից, դուք պետք է համոզվեք, որ ֆայլը առկա է և որ դրա թույլտվությունները ճիշտ են սահմանված:

Լռելյայնորեն դա տեղի կունենա SeoToaster-ի բոլոր տեղադրումների հետ, սակայն անհրաժեշտության դեպքում կարող եք վերականգնել այն այսպես. File robots.txt - 644: Կախված PHP սերվերից, եթե դա չի աշխատում օգտվողի համար, այն խորհուրդ է տրվում փորձել հետևյալը՝ File robots.txt - 666.

Սկանավորման հետաձգման կարգավորում

Շրջանցման հետաձգման հրահանգը տեղեկացնում է որոշակիորոնիչները, թե որքան հաճախ նրանք կարող են ինդեքսավորել էջը կայքում: Այն չափվում է վայրկյաններով, թեև որոշ որոնման համակարգեր այն փոքր-ինչ այլ կերպ են մեկնաբանում: Որոշ մարդիկ տեսնում են սողալու հետաձգում 5, երբ նրանց ասում են, որ յուրաքանչյուր սկանավորումից հետո հինգ վայրկյան սպասեն հաջորդը սկսելու համար:

Մյուսները սա մեկնաբանում են որպես յուրաքանչյուր հինգ վայրկյանը մեկ միայն մեկ էջ սկանավորելու հրահանգ: Ռոբոտը չի կարող ավելի արագ սկանավորել սերվերի թողունակությունը պահպանելու համար: Եթե սերվերը պետք է համապատասխանի տրաֆիկին, այն կարող է սահմանել շրջանցման ուշացում: Ընդհանուր առմամբ, շատ դեպքերում օգտվողները կարիք չունեն անհանգստանալու այս մասին: Ահա թե ինչպես է սահմանվում ութ վայրկյան սողալու ուշացումը. Սողալ-ուշացում՝ 8.

Բայց ոչ բոլոր որոնիչները կենթարկվեն այս հրահանգին, այնպես որ, երբ էջերը թույլ չեն տալիս, կարող եք սահմանել տարբեր որոնողական ուշացումներ որոշակի որոնման համակարգերի համար: Ֆայլի բոլոր հրահանգները կարգավորելուց հետո կարող եք այն վերբեռնել կայք, նախ համոզվեք, որ այն պարզ տեքստային ֆայլ է և ունի robots.txt անվանումը և այն կարող եք գտնել yoursite.com/robots.txt. կայքում։

Լավագույն WordPress բոտ

Լավագույն WordPress բոտ
Լավագույն WordPress բոտ

WordPress-ի կայքում կան որոշ ֆայլեր և գրացուցակներ, որոնք պետք է ամեն անգամ կողպվեն: Այն դիրեկտորիաները, որոնք օգտվողները պետք է թույլ չտան, cgi-bin գրացուցակն են և ստանդարտ WP դիրեկտորիաները: Որոշ սերվերներ թույլ չեն տալիս մուտք գործել cgi-bin գրացուցակ, սակայն օգտվողները պետք է ներառեն այն արգելելու հրահանգում, նախքան Robots txt WordPress-ը ճիշտ կարգավորելը:

Ստանդարտ WordPress գրացուցակներ,որոնք պետք է արգելափակեն wp-admin, wp-content, wp-includes. Այս դիրեկտորիաները չեն պարունակում տվյալներ, որոնք ի սկզբանե օգտակար են որոնման համակարգերին, սակայն կա բացառություն, այսինքն՝ wp-content գրացուցակում կա վերբեռնումներ անունով ենթացանց: Այս ենթացանցը պետք է թույլատրվի robot.txt ֆայլում, քանի որ այն ներառում է այն ամենը, ինչ բեռնված է WP մեդիա վերբեռնման գործառույթի միջոցով: WordPress-ն օգտագործում է պիտակներ կամ կատեգորիաներ՝ բովանդակությունը կառուցելու համար:

Եթե օգտագործվում են կատեգորիաներ, ապա Wordpress-ի համար ճիշտ Robots txt պատրաստելու համար, ինչպես նշված է ծրագրի արտադրողի կողմից, անհրաժեշտ է արգելափակել պիտակների արխիվները որոնումից: Նախ, նրանք ստուգում են տվյալների բազան՝ անցնելով «Կառավարում» վահանակ> «Կարգավորումներ»> «Մշտական հղում»:

Լռելյայնորեն հիմքը պիտակն է, եթե դաշտը դատարկ է. Թույլ չտալ՝ / tag /: Եթե օգտագործվում է կատեգորիա, ապա դուք պետք է անջատեք կատեգորիան robot.txt ֆայլում՝ Թույլ չտալ՝ /category/: Լռելյայնորեն հիմքը պիտակն է, եթե դաշտը դատարկ է. Արգելել՝ / tag /: Եթե կատեգորիան օգտագործվում է, ապա դուք պետք է անջատեք կատեգորիան robot.txt ֆայլում՝ Արգելել՝ / կատեգորիա /.

Ֆայլեր, որոնք հիմնականում օգտագործվում են բովանդակությունը ցուցադրելու համար, դրանք կարգելափակվեն Wordpress-ի համար ճիշտ Robots txt ֆայլի կողմից:

Ռոբոտներ txt wordpress-ի համար
Ռոբոտներ txt wordpress-ի համար

Joomla-ի հիմնական կարգավորում

Հենց օգտատերը տեղադրի Joomla-ն, դուք պետք է դիտեք Joomla Robots-ի ճիշտ կարգավորումը գլոբալ կոնֆիգուրացիայի մեջ, որը գտնվում է կառավարման վահանակում: Այստեղ որոշ կարգավորումներ շատ կարևոր են SEO-ի համար: Նախ գտեք կայքի անունը և համոզվեք, որ դաօգտագործվում է կայքի կարճ անվանումը։ Հետո նույն էկրանից աջ կողմում գտնում են կարգավորումների խումբ, որը կոչվում է SEO-ի կարգավորումներ։ Մեկը, որն անպայման պետք է փոխվի, երկրորդն է՝ օգտագործեք վերագրանցման URL:

Սա բարդ է թվում, բայց այն հիմնականում օգնում է Joomla-ին ավելի մաքուր URL-ներ ստեղծել: Առավել նկատելի է, եթե URL-ներից հեռացնեք index.php տողը: Եթե այն ավելի ուշ փոխեք, URL-ները կփոխվեն, և Google-ին դա դուր չի գա: Այնուամենայնիվ, այս պարամետրը փոխելիս պետք է միաժամանակ մի քանի քայլ կատարել՝ Joomla-ի համար ճիշտ ռոբոտների txt ստեղծելու համար::

  1. Գտեք htaccess.txt ֆայլը Joomla արմատային պանակում:
  2. Նշել այն որպես.htaccess (առանց ընդլայնման):
  3. Ներառել կայքի անունը էջի վերնագրերում:
  4. Գտեք մետատվյալների կարգավորումները համաշխարհային կազմաձևման էկրանի ներքևում:

Ռոբոտ ամպի մեջ MODX

Ռոբոտը MODX Cloud-ում
Ռոբոտը MODX Cloud-ում

Նախկինում MODX Cloud-ն օգտատերերին հնարավորություն էր տալիս վերահսկել robots.txt ֆայլի սպասարկումը թույլատրելու վարքագիծը՝ վահանակի վրա անջատիչի հիման վրա: Թեև սա օգտակար էր, հնարավոր եղավ պատահաբար թույլ տալ ինդեքսավորումը բեմադրող/ծրագրավորող կայքերում՝ միացնելով ընտրացանկը Dashboard-ում: Նմանապես, հեշտ էր անջատել ինդեքսավորումը արտադրության կայքում:

Այսօր ծառայությունը ենթադրում է robots.txt ֆայլերի առկայություն ֆայլային համակարգում հետևյալ բացառությամբ. ցանկացած տիրույթ, որն ավարտվում է modxcloud.com-ով, կծառայի որպես Արգելել՝ /դիրեկտիվ բոլոր օգտագործողների գործակալների համար՝ անկախ առկայությունից։ կամ ֆայլի բացակայություն:Արտադրական կայքերը, որոնք ստանում են իրական այցելուների տրաֆիկ, պետք է օգտագործեն իրենց սեփական տիրույթը, եթե օգտատերը ցանկանում է ինդեքսավորել իր կայքը:

Որոշ կազմակերպություններ օգտագործում են ճիշտ Robots txt-ը modx-ի համար՝ մի քանի վեբկայքեր գործարկելու համար մեկ տեղադրումից՝ օգտագործելով Contexts: Այն դեպքում, երբ սա կարող է կիրառվել, կլինի հանրային շուկայավարման կայք՝ զուգորդված վայրէջքի էջի միկրո կայքերի և, հնարավոր է, ոչ հրապարակային ինտրանետի հետ:

Ավանդաբար դա դժվար էր անել բազմակի օգտատերերի տեղադրման համար, քանի որ նրանք ունեն նույն ցանցի արմատը: MODX Cloud-ի հետ դա հեշտ է: Պարզապես վերբեռնեք լրացուցիչ ֆայլ robots-intranet.example.com.txt կոչվող վեբկայքում՝ հետևյալ բովանդակությամբ, և այն կարգելափակի ինդեքսավորումը լավ աշխատող ռոբոտների հետ, իսկ մնացած բոլոր հոսթների անունները կվերադառնան ստանդարտ ֆայլերին, եթե չկան այլ հատուկ անվանման հանգույցներ:

Robots.txt-ը կարևոր ֆայլ է, որն օգնում է օգտատիրոջը հղում կատարել դեպի կայքը Google-ում, հիմնական որոնման համակարգերում և այլ կայքերում: Գտնվելով վեբ սերվերի հիմքում, ֆայլը հրահանգում է վեբ ռոբոտներին սողալ կայք, սահմանել, թե որ թղթապանակները պետք է ինդեքսավորեն կամ չցուցադրեն՝ օգտագործելով հրահանգների մի շարք, որը կոչվում է Bot Exclusion Protocol: Բոլոր որոնման համակարգերի համար ճիշտ Robots txt-ի օրինակ obots.txt հատկապես հեշտ է անել SeoToaster-ի հետ: Կառավարման վահանակում դրա համար ստեղծվել է հատուկ ընտրացանկ, այնպես որ բոտը երբեք ստիպված չի լինի չափազանց շատ աշխատել՝ մուտք ստանալու համար:

Խորհուրդ ենք տալիս: