Ճիշտ Robots txt-ը html կայքի համար ստեղծում է գործողությունների մոդելներ որոնման համակարգի բոտերի համար՝ ասելով, թե ինչ կարող են ստուգել: Այս ֆայլը հաճախ կոչվում է Robot Exclusion Protocol: Առաջին բանը, որ բոտերը փնտրում են նախքան կայք սողալը, robots.txt-ն է: Այն կարող է մատնանշել կամ ասել Կայքի քարտեզին չստուգել որոշակի ենթադոմեյններ: Երբ ցանկանում եք, որ որոնման համակարգերը որոնեն այն, ինչ ամենահաճախ գտնում են, ապա robots.txt-ը պարտադիր չէ: Այս գործընթացում շատ կարևոր է, որ ֆայլը ճիշտ ձևաչափված լինի և օգտագործողի էջը չներկայացնի օգտատիրոջ անձնական տվյալները:
Ռոբոտի սկանավորման սկզբունք
Երբ որոնիչը հանդիպում է ֆայլի և տեսնում է արգելված URL, այն չի որոնում այն, բայց կարող է ինդեքսավորել այն: Դա պայմանավորված է նրանով, որ նույնիսկ եթե ռոբոտներին թույլ չեն տալիս դիտել բովանդակությունը, նրանք կարող են հիշել արգելված URL-ը մատնանշող backlinks: Հղման արգելափակված մուտքի պատճառով URL-ը կհայտնվի որոնման համակարգերում, բայց առանց բեկորների: ԵթեՆերգնա շուկայավարման ռազմավարության համար պահանջվում է ճիշտ Robots txt bitrix-ի համար (Bitrix), նրանք տրամադրում են կայքի ստուգում օգտատիրոջ խնդրանքով սկաներների միջոցով:
Մյուս կողմից, եթե ֆայլը ճիշտ ձևաչափված չէ, դա կարող է հանգեցնել նրան, որ կայքը չհայտնվի որոնման արդյունքներում և չգտնվի: Որոնման համակարգերը չեն կարող շրջանցել այս ֆայլը: Ծրագրավորողը կարող է դիտել ցանկացած կայքի robots.txt-ը՝ անցնելով դրա տիրույթ և հետևելով այն robots.txt-ով, օրինակ՝ www.domain.com/robots.txt: Օգտագործելով Unamo-ի SEO-ի օպտիմալացման բաժինը, որտեղ դուք կարող եք մուտքագրել ցանկացած տիրույթ, և ծառայությունը ցույց կտա տեղեկատվություն ֆայլի գոյության մասին:
Սկանավորման սահմանափակումներ՝
- Օգտվողն ունի հնացած կամ զգայուն բովանդակություն:
- Կայքի պատկերները չեն ներառվի պատկերների որոնման արդյունքներում:
- Կայքը դեռ պատրաստ չէ ռոբոտի կողմից ինդեքսավորման ցուցադրությանը:
Հիշեք, որ այն տեղեկատվությունը, որը օգտվողը ցանկանում է ստանալ որոնման համակարգից, հասանելի է բոլորին, ովքեր մուտքագրում են URL-ը: Մի օգտագործեք այս տեքստային ֆայլը զգայուն տվյալները թաքցնելու համար: Եթե տիրույթն ունի 404 (չգտնված) կամ 410 (անցած) սխալ, որոնիչը ստուգում է կայքը՝ չնայած robots.txt-ի առկայությանը, որի դեպքում համարում է, որ ֆայլը բացակայում է։ Այլ սխալներ, ինչպիսիք են 500 (ներքին սերվերի սխալ), 403 (արգելված), ժամանակի ավարտը կամ «հասանելի չէ» վերաբերում են robots.txt-ի հրահանգներին, սակայն շրջանցումը կարող է հետաձգվել մինչև ֆայլը հասանելի լինի:
Որոնման ֆայլի ստեղծում
ՇատCMS ծրագրերը, ինչպիսիք են WordPress-ը, արդեն ունեն robots.txt ֆայլ: Նախքան Robots txt WordPress-ը ճիշտ կարգավորելը, օգտատերը պետք է ծանոթանա դրա հնարավորություններին, որպեսզի պարզի, թե ինչպես մուտք գործել դրան: Եթե ծրագրավորողն ինքն է ստեղծում ֆայլը, այն պետք է համապատասխանի հետևյալ պայմաններին.
- Պետք է լինի փոքրատառ:
- Օգտագործեք UTF-8 կոդավորումը:
- Պահպանել տեքստային խմբագրիչում որպես ֆայլ (.txt).
Երբ օգտատերը չգիտի, թե որտեղ տեղադրել այն, նա կապվում է վեբ սերվերի ծրագրային ապահովման վաճառողի հետ՝ պարզելու, թե ինչպես մուտք գործել տիրույթի արմատը կամ գնալ Google-ի վահանակ և ներբեռնել այն: Այս ֆունկցիայի միջոցով Google-ը կարող է նաև ստուգել՝ արդյոք բոտը ճիշտ է աշխատում և ֆայլի միջոցով արգելափակված կայքերի ցանկը:
ճիշտ Robots txt-ի հիմնական ձևաչափը bitrix-ի համար (Bitrix):
- Legend robots.txt.
- , ավելացնում է մեկնաբանություններ, որոնք օգտագործվում են միայն որպես նշում:
- Այս մեկնաբանությունները անտեսվելու են սկաների կողմից, ինչպես նաև օգտատերերի տառասխալները:
- User-agent - ցույց է տալիս, թե որ որոնման համակարգում են նշված ֆայլի հրահանգները:
- Ավելացնելով աստղանիշ () սկաներներին տեղեկացնում է, որ հրահանգները բոլորի համար են:
Նշում է կոնկրետ բոտ, օրինակ՝ Googlebot, Baiduspider, Applebot: Թույլ չտալը տեղեկացնում է, որ վեբկայքի որ մասերը չպետք է որոնվեն: Կարծես այսպես. Օգտվողի գործակալ՝: Աստղանիշը նշանակում է «բոլոր բոտերը»: Այնուամենայնիվ, դուք կարող եք հատուկ էջեր նշելբոտեր. Դա անելու համար դուք պետք է իմանաք այն բոտի անունը, որի համար առաջարկություններ են սահմանված:
Yandex-ի համար ռոբոտների ճիշտ txt-ը կարող է այսպիսի տեսք ունենալ.
Եթե բոտը չպետք է զննի կայքը, կարող եք նշել այն, իսկ օգտատերերի գործակալների անունները գտնելու համար խորհուրդ է տրվում ծանոթանալ useragentstring.com-ի առցանց հնարավորություններին:
Էջի օպտիմալացում
Հետևյալ երկու տողերը համարվում են ամբողջական robots.txt ֆայլ, և ռոբոտների մեկ ֆայլը կարող է պարունակել օգտվողի գործակալների և հրահանգների մի քանի տող, որոնք անջատում կամ թույլ են տալիս սողալը: Ճիշտ Robots txt-ի հիմնական ձևաչափը՝
- Օգտվողի գործակալ՝ [գործակալի օգտանուն]։
- Արգելել՝ ։
Ֆայլում հրահանգների յուրաքանչյուր բլոկ ցուցադրվում է որպես դիսկրետ՝ առանձնացված տողով: Գործակալի օգտատերերի գրացուցակի կողքին գտնվող ֆայլում յուրաքանչյուր կանոն կիրառվում է հատվածով առանձնացված տողերի որոշակի հավաքածուի վրա: Եթե ֆայլն ունի մի քանի գործակալների կանոն, ապա ռոբոտը հաշվի կառնի միայն հրահանգների առավել կոնկրետ խումբը:
Տեխնիկական շարահյուսություն
Այն կարելի է համարել robots.txt ֆայլերի «լեզուն»: Կան հինգ տերմիններ, որոնք կարող են գոյություն ունենալ այս ձևաչափով, որոնցից հիմնականներն են՝
- Օգտվող-գործակալ. վեբ որոնիչ՝ սողալու հրահանգներով, սովորաբար որոնողական համակարգով:
- Disallow-ը հրաման է, որն օգտագործվում է օգտատեր գործակալին շրջանցելու հրահանգ տալու համարկոնկրետ URL-ի (բացթողում): Յուրաքանչյուրի համար կա միայն մեկ արգելված պայման։
- Թույլատրել. Googlebot-ի համար, որը մուտք է ստանում, նույնիսկ օգտվողի էջը մերժվում է:
- Crawl-delay - սահմանում է, թե քանի վայրկյան կպահանջվի սողացողին նախքան սողալը: Երբ բոտը դա չի հաստատում, արագությունը սահմանվում է Google-ի վահանակում:
- Կայքի քարտեզ - օգտագործվում է URL-ի հետ կապված XML քարտեզները գտնելու համար:
Նախշի համընկնումներ
Երբ խոսքը վերաբերում է իրականում URL-ների արգելափակմանը կամ վավեր Robots txt-ին թույլատրելուն, գործողությունները կարող են բավականին բարդ լինել, քանի որ դրանք թույլ են տալիս օգտագործել օրինաչափությունների համընկնումը՝ ծածկելու URL-ի մի շարք հնարավոր պարամետրեր: Google-ը և Bing-ը երկուսն էլ օգտագործում են երկու նիշ, որոնք նույնացնում են այն էջերը կամ ենթաթղթապանակները, որոնք SEO-ն ցանկանում է բացառել: Երկու նիշերն են աստղանիշը () և դոլարի նշանը ($), որտեղ՝ -ը նիշերի ցանկացած հաջորդականություն է ներկայացնում: $ - համապատասխանում է URL-ի վերջին:
Google-ն առաջարկում է կաղապարի հնարավոր շարահյուսությունների մեծ ցուցակ, որոնք բացատրում են օգտվողին, թե ինչպես ճիշտ կարգավորել Robots txt ֆայլը: Որոշ ընդհանուր օգտագործման դեպքեր ներառում են՝
- Կարգելեք կրկնօրինակ բովանդակության հայտնվելը որոնման արդյունքներում:
- Պահպանեք կայքի բոլոր բաժինները գաղտնի:
- Պահպանեք որոնման արդյունքների ներքին էջերը բաց հայտարարության հիման վրա:
- Նշեք գտնվելու վայրը։
- Կանխեք որոնիչները որոշակի ինդեքսավորելուցֆայլեր։
- Նշեք սողալու ուշացում՝ վերաբեռնումը դադարեցնելու համար, երբ միաժամանակ սկանավորում եք բազմաթիվ բովանդակության տարածքներ:
Ստուգում է ռոբոտի ֆայլի առկայությունը
Եթե կայքում չկան տարածքներ, որոնք պետք է որոնել, ապա robots.txt-ն ընդհանրապես անհրաժեշտ չէ: Եթե օգտատերը վստահ չէ, որ այս ֆայլը գոյություն ունի, նա պետք է մուտքագրի արմատային տիրույթը և մուտքագրի այն URL-ի վերջում, մոտավորապես այսպիսին է՝ moz.com/robots.txt: Որոնման մի շարք բոտեր անտեսում են այս ֆայլերը: Սակայն, որպես կանոն, այս սողանները չեն պատկանում հեղինակավոր որոնման համակարգերին։ Դրանք սպամերների, փոստի ագրեգատորների և ավտոմատացված բոտերի այլ տեսակներ են, որոնք առատորեն հանդիպում են ինտերնետում:
Շատ կարևոր է հիշել, որ ռոբոտների բացառման ստանդարտի օգտագործումը անվտանգության արդյունավետ միջոց չէ: Փաստորեն, որոշ բոտեր կարող են սկսել այն էջերից, որտեղ օգտատերը դրանք սահմանում է սկանավորման ռեժիմ: Կան մի քանի մասեր, որոնք մտնում են ստանդարտ բացառության ֆայլ: Նախքան ռոբոտին ասելը, թե որ էջերում այն չպետք է աշխատի, դուք պետք է նշեք, թե որ ռոբոտի հետ խոսել: Շատ դեպքերում օգտատերը կօգտագործի պարզ հայտարարություն, որը նշանակում է «բոլոր բոտերը»:
SEO օպտիմալացում
Օպտիմիզացումից առաջ օգտատերը պետք է համոզվի, որ չի արգելափակում կայքի որևէ բովանդակություն կամ հատված, որը պետք է շրջանցել։ Ճիշտ Robots txt-ով արգելափակված էջերի հղումները չեն հարգվի: Սա նշանակում է՝
- Եթե դրանք կապված չեն որոնման համակարգերին հասանելի այլ էջերի հետ, այսինքն. էջեր,արգելափակված չէ robots.txt-ի կամ մետա ռոբոտի կողմից, և հարակից ռեսուրսները չեն սուզվի և, հետևաբար, չեն կարող ինդեքսավորվել:
- Ոչ մի հղում չի կարող փոխանցվել արգելափակված էջից դեպի հղման նպատակակետ: Եթե կա նման էջ, ապա ավելի լավ է օգտագործել այլ արգելափակման մեխանիզմ, քան robots.txt.
Քանի որ այլ էջերը կարող են ուղղակիորեն հղում կատարել անձնական տեղեկություններ պարունակող էջին, և դուք ցանկանում եք արգելափակել այս էջը որոնման արդյունքներից, օգտագործեք այլ մեթոդ, օրինակ՝ գաղտնաբառով պաշտպանություն կամ ոչ ինդեքս մետա տվյալները: Որոշ որոնման համակարգեր ունեն բազմաթիվ օգտվողների գործակալներ: Օրինակ՝ Google-ն օգտագործում է Googlebot-ը օրգանական որոնումների համար, իսկ Googlebot-Image՝ պատկերների որոնման համար:
Միևնույն որոնողական համակարգի օգտատերերի գործակալների մեծ մասը հետևում է նույն կանոններին, ուստի կարիք չկա նշել հրահանգներ մի քանի սողացողներից յուրաքանչյուրի համար, բայց դա անելը կարող է ճշգրտել կայքի բովանդակության սողալը: Որոնման համակարգը պահում է ֆայլի բովանդակությունը և սովորաբար թարմացնում է պահված բովանդակությունը առնվազն օրը մեկ անգամ: Եթե օգտատերը փոխում է ֆայլը և ցանկանում է այն թարմացնել սովորականից ավելի արագ, նա կարող է ուղարկել robots.txt URL-ը Google-ին:
Որոնման համակարգեր
Որպեսզի հասկանաք, թե ինչպես է Robots txt-ը ճիշտ աշխատում, դուք պետք է իմանաք որոնման համակարգերի հնարավորությունների մասին: Մի խոսքով, նրանց կարողությունը կայանում է նրանում, որ նրանք ուղարկում են «սկաներներ», որոնք այն ծրագրերն են, որոնքԻնտերնետում զննելով տեղեկատվություն: Նրանք այնուհետև պահում են այս տեղեկատվության մի մասը, որպեսզի այն հետագայում փոխանցեն օգտագործողին:
Շատերի համար Google-ն արդեն ինտերնետ է: Իրականում նրանք իրավացի են, քանի որ սա նրա թերևս ամենագլխավոր գյուտն է։ Եվ չնայած որոնողական համակարգերն իրենց ստեղծման օրվանից շատ են փոխվել, հիմքում ընկած սկզբունքները դեռ նույնն են: Սողունները, որոնք նաև հայտնի են որպես «բոտեր» կամ «սարդեր», գտնում են էջեր միլիարդավոր կայքերից: Որոնման համակարգերը նրանց ուղղություններ են տալիս, թե ուր գնալ, մինչդեռ առանձին կայքեր կարող են նաև շփվել բոտերի հետ և ասել նրանց, թե կոնկրետ որ էջերը պետք է նայեն:
Ընդհանրապես, կայքերի սեփականատերերը չեն ցանկանում հայտնվել որոնման համակարգերում՝ ադմինիստրատորի էջերում, հետնամասային պորտալներում, կատեգորիաների և պիտակների և այլ տեղեկատվական էջերում: Robots.txt ֆայլը կարող է օգտագործվել նաև որոնողական համակարգերի կողմից էջերը ստուգելը կանխելու համար: Մի խոսքով, robots.txt-ը վեբ սողացողներին ասում է, թե ինչ անել:
Արգելել էջերը
Սա ռոբոտի բացառման ֆայլի հիմնական մասն է: Պարզ հայտարարագրով օգտատերը բոտին կամ բոտերի խմբին ասում է, որ որոշ էջեր չսողանեն: Շարահյուսությունը պարզ է, օրինակ՝ կայքի «ադմինիստրատորի» գրացուցակում եղած ամեն ինչի մուտքը մերժելու համար գրեք՝ Թույլ չտալ՝ /admin: Այս տողը թույլ չի տա, որ բոտերը սողալու են yoursite.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html և ցանկացած այլ բան ադմինիստրատորի գրացուցակի տակ:
Մեկ էջ չթույլատրելու համար պարզապես նշեք այն արգելելու տողում. Արգելել՝ /public/exception.html: Այժմ «բացառություն» էջըչի տեղափոխվի, բայց «հանրային» թղթապանակում մնացած ամեն ինչ կանի։
Բազմաթիվ էջեր ներառելու համար պարզապես թվարկեք դրանք՝
Սիմֆոնիայի համար ճիշտ Robots txt-ի այս չորս տողերը կկիրառվեն ցանկացած օգտվողի գործակալի համար, որը նշված էrobots.txt բաժնի վերևում՝
Կայքի քարտեզ՝
Այլ հրամաններ՝live - թույլ մի տվեք վեբ սողուններին ինդեքսավորել cpresources/ կամ մատակարար/:
Օգտվողի գործակալ. Արգելել՝ /cpresources/.
Հերքել՝ / վաճառող / Արգելել՝ /.env.
Ստանդարտների սահմանում
Օգտատերը կարող է նշել հատուկ էջեր տարբեր բոտերի համար՝ համատեղելով նախորդ երկու տարրերը, ահա թե ինչ տեսք ունի: Բոլոր որոնման համակարգերի համար ճիշտ Robots txt-ի օրինակը ներկայացված է ստորև:
«admin» և «private» բաժինները անտեսանելի կլինեն Google-ի և Bing-ի համար, սակայն Google-ը դեռ կտեսնի «գաղտնի» գրացուցակը, մինչդեռ Bing-ը՝ ոչ: Դուք կարող եք նշել ընդհանուր կանոններ բոլոր բոտերի համար՝ օգտագործելով աստղանիշ օգտագործողի գործակալը, այնուհետև հաջորդ բաժիններում հատուկ հրահանգներ տալ բոտերին: Վերոնշյալ գիտելիքներով օգտվողը կարող է գրել Robots-ի ճիշտ txt-ի օրինակ բոլոր որոնման համակարգերի համար: Պարզապես միացրեք ձեր սիրելի տեքստային խմբագրիչը և ասեք բոտերին, որ նրանք ողջունելի չեն կայքի որոշ մասերում:
Խորհուրդներ սերվերի աշխատանքը բարելավելու համար
SublimeText-ն էբազմակողմանի տեքստային խմբագրիչ և ոսկե ստանդարտ շատ ծրագրավորողների համար: Նրա ծրագրավորման խորհուրդները հիմնված են արդյունավետ կոդավորման վրա, ընդ որում։ օգտվողները գնահատում են ծրագրում դյուրանցումների առկայությունը: Եթե օգտվողը ցանկանում է տեսնել robots.txt ֆայլի օրինակ, նա պետք է գնա ցանկացած կայք և վերջում ավելացնի «/robots.txt»: Ահա robots.txt ֆայլի մի մասը GiantBicycles:
Ծրագիրը ապահովում է էջերի ստեղծում, որոնք օգտվողները չեն ցանկանում ցուցադրել որոնման համակարգերում: Եվ նաև ունի մի քանի բացառիկ բաներ, որոնց մասին քչերը գիտեն: Օրինակ, մինչ robots.txt ֆայլը բոտերին ասում է, թե ուր չգնալ, կայքի քարտեզի ֆայլն անում է հակառակը և օգնում է նրանց գտնել այն, ինչ փնտրում են, և թեև որոնիչները հավանաբար արդեն գիտեն, թե որտեղ է գտնվում կայքի քարտեզը, այն չի ստացվում: ճանապարհին։
Կա երկու տեսակի ֆայլ՝ HTML էջ կամ XML ֆայլ: HTML էջն այն էջն է, որը այցելուներին ցույց է տալիս կայքի բոլոր հասանելի էջերը: Սեփական robots.txt-ում այն ունի հետևյալ տեսքը՝ Sitemap://www.makeuseof.com/sitemap_index.xml: Եթե կայքը չի ինդեքսավորվում որոնման համակարգերի կողմից, չնայած այն մի քանի անգամ սուզվել է վեբ ռոբոտների կողմից, դուք պետք է համոզվեք, որ ֆայլը առկա է և որ դրա թույլտվությունները ճիշտ են սահմանված:
Լռելյայնորեն դա տեղի կունենա SeoToaster-ի բոլոր տեղադրումների հետ, սակայն անհրաժեշտության դեպքում կարող եք վերականգնել այն այսպես. File robots.txt - 644: Կախված PHP սերվերից, եթե դա չի աշխատում օգտվողի համար, այն խորհուրդ է տրվում փորձել հետևյալը՝ File robots.txt - 666.
Սկանավորման հետաձգման կարգավորում
Շրջանցման հետաձգման հրահանգը տեղեկացնում է որոշակիորոնիչները, թե որքան հաճախ նրանք կարող են ինդեքսավորել էջը կայքում: Այն չափվում է վայրկյաններով, թեև որոշ որոնման համակարգեր այն փոքր-ինչ այլ կերպ են մեկնաբանում: Որոշ մարդիկ տեսնում են սողալու հետաձգում 5, երբ նրանց ասում են, որ յուրաքանչյուր սկանավորումից հետո հինգ վայրկյան սպասեն հաջորդը սկսելու համար:
Մյուսները սա մեկնաբանում են որպես յուրաքանչյուր հինգ վայրկյանը մեկ միայն մեկ էջ սկանավորելու հրահանգ: Ռոբոտը չի կարող ավելի արագ սկանավորել սերվերի թողունակությունը պահպանելու համար: Եթե սերվերը պետք է համապատասխանի տրաֆիկին, այն կարող է սահմանել շրջանցման ուշացում: Ընդհանուր առմամբ, շատ դեպքերում օգտվողները կարիք չունեն անհանգստանալու այս մասին: Ահա թե ինչպես է սահմանվում ութ վայրկյան սողալու ուշացումը. Սողալ-ուշացում՝ 8.
Բայց ոչ բոլոր որոնիչները կենթարկվեն այս հրահանգին, այնպես որ, երբ էջերը թույլ չեն տալիս, կարող եք սահմանել տարբեր որոնողական ուշացումներ որոշակի որոնման համակարգերի համար: Ֆայլի բոլոր հրահանգները կարգավորելուց հետո կարող եք այն վերբեռնել կայք, նախ համոզվեք, որ այն պարզ տեքստային ֆայլ է և ունի robots.txt անվանումը և այն կարող եք գտնել yoursite.com/robots.txt. կայքում։
Լավագույն WordPress բոտ
WordPress-ի կայքում կան որոշ ֆայլեր և գրացուցակներ, որոնք պետք է ամեն անգամ կողպվեն: Այն դիրեկտորիաները, որոնք օգտվողները պետք է թույլ չտան, cgi-bin գրացուցակն են և ստանդարտ WP դիրեկտորիաները: Որոշ սերվերներ թույլ չեն տալիս մուտք գործել cgi-bin գրացուցակ, սակայն օգտվողները պետք է ներառեն այն արգելելու հրահանգում, նախքան Robots txt WordPress-ը ճիշտ կարգավորելը:
Ստանդարտ WordPress գրացուցակներ,որոնք պետք է արգելափակեն wp-admin, wp-content, wp-includes. Այս դիրեկտորիաները չեն պարունակում տվյալներ, որոնք ի սկզբանե օգտակար են որոնման համակարգերին, սակայն կա բացառություն, այսինքն՝ wp-content գրացուցակում կա վերբեռնումներ անունով ենթացանց: Այս ենթացանցը պետք է թույլատրվի robot.txt ֆայլում, քանի որ այն ներառում է այն ամենը, ինչ բեռնված է WP մեդիա վերբեռնման գործառույթի միջոցով: WordPress-ն օգտագործում է պիտակներ կամ կատեգորիաներ՝ բովանդակությունը կառուցելու համար:
Եթե օգտագործվում են կատեգորիաներ, ապա Wordpress-ի համար ճիշտ Robots txt պատրաստելու համար, ինչպես նշված է ծրագրի արտադրողի կողմից, անհրաժեշտ է արգելափակել պիտակների արխիվները որոնումից: Նախ, նրանք ստուգում են տվյալների բազան՝ անցնելով «Կառավարում» վահանակ> «Կարգավորումներ»> «Մշտական հղում»:
Լռելյայնորեն հիմքը պիտակն է, եթե դաշտը դատարկ է. Թույլ չտալ՝ / tag /: Եթե օգտագործվում է կատեգորիա, ապա դուք պետք է անջատեք կատեգորիան robot.txt ֆայլում՝ Թույլ չտալ՝ /category/: Լռելյայնորեն հիմքը պիտակն է, եթե դաշտը դատարկ է. Արգելել՝ / tag /: Եթե կատեգորիան օգտագործվում է, ապա դուք պետք է անջատեք կատեգորիան robot.txt ֆայլում՝ Արգելել՝ / կատեգորիա /.
Ֆայլեր, որոնք հիմնականում օգտագործվում են բովանդակությունը ցուցադրելու համար, դրանք կարգելափակվեն Wordpress-ի համար ճիշտ Robots txt ֆայլի կողմից:
Joomla-ի հիմնական կարգավորում
Հենց օգտատերը տեղադրի Joomla-ն, դուք պետք է դիտեք Joomla Robots-ի ճիշտ կարգավորումը գլոբալ կոնֆիգուրացիայի մեջ, որը գտնվում է կառավարման վահանակում: Այստեղ որոշ կարգավորումներ շատ կարևոր են SEO-ի համար: Նախ գտեք կայքի անունը և համոզվեք, որ դաօգտագործվում է կայքի կարճ անվանումը։ Հետո նույն էկրանից աջ կողմում գտնում են կարգավորումների խումբ, որը կոչվում է SEO-ի կարգավորումներ։ Մեկը, որն անպայման պետք է փոխվի, երկրորդն է՝ օգտագործեք վերագրանցման URL:
Սա բարդ է թվում, բայց այն հիմնականում օգնում է Joomla-ին ավելի մաքուր URL-ներ ստեղծել: Առավել նկատելի է, եթե URL-ներից հեռացնեք index.php տողը: Եթե այն ավելի ուշ փոխեք, URL-ները կփոխվեն, և Google-ին դա դուր չի գա: Այնուամենայնիվ, այս պարամետրը փոխելիս պետք է միաժամանակ մի քանի քայլ կատարել՝ Joomla-ի համար ճիշտ ռոբոտների txt ստեղծելու համար::
- Գտեք htaccess.txt ֆայլը Joomla արմատային պանակում:
- Նշել այն որպես.htaccess (առանց ընդլայնման):
- Ներառել կայքի անունը էջի վերնագրերում:
- Գտեք մետատվյալների կարգավորումները համաշխարհային կազմաձևման էկրանի ներքևում:
Ռոբոտ ամպի մեջ MODX
Նախկինում MODX Cloud-ն օգտատերերին հնարավորություն էր տալիս վերահսկել robots.txt ֆայլի սպասարկումը թույլատրելու վարքագիծը՝ վահանակի վրա անջատիչի հիման վրա: Թեև սա օգտակար էր, հնարավոր եղավ պատահաբար թույլ տալ ինդեքսավորումը բեմադրող/ծրագրավորող կայքերում՝ միացնելով ընտրացանկը Dashboard-ում: Նմանապես, հեշտ էր անջատել ինդեքսավորումը արտադրության կայքում:
Այսօր ծառայությունը ենթադրում է robots.txt ֆայլերի առկայություն ֆայլային համակարգում հետևյալ բացառությամբ. ցանկացած տիրույթ, որն ավարտվում է modxcloud.com-ով, կծառայի որպես Արգելել՝ /դիրեկտիվ բոլոր օգտագործողների գործակալների համար՝ անկախ առկայությունից։ կամ ֆայլի բացակայություն:Արտադրական կայքերը, որոնք ստանում են իրական այցելուների տրաֆիկ, պետք է օգտագործեն իրենց սեփական տիրույթը, եթե օգտատերը ցանկանում է ինդեքսավորել իր կայքը:
Որոշ կազմակերպություններ օգտագործում են ճիշտ Robots txt-ը modx-ի համար՝ մի քանի վեբկայքեր գործարկելու համար մեկ տեղադրումից՝ օգտագործելով Contexts: Այն դեպքում, երբ սա կարող է կիրառվել, կլինի հանրային շուկայավարման կայք՝ զուգորդված վայրէջքի էջի միկրո կայքերի և, հնարավոր է, ոչ հրապարակային ինտրանետի հետ:
Ավանդաբար դա դժվար էր անել բազմակի օգտատերերի տեղադրման համար, քանի որ նրանք ունեն նույն ցանցի արմատը: MODX Cloud-ի հետ դա հեշտ է: Պարզապես վերբեռնեք լրացուցիչ ֆայլ robots-intranet.example.com.txt կոչվող վեբկայքում՝ հետևյալ բովանդակությամբ, և այն կարգելափակի ինդեքսավորումը լավ աշխատող ռոբոտների հետ, իսկ մնացած բոլոր հոսթների անունները կվերադառնան ստանդարտ ֆայլերին, եթե չկան այլ հատուկ անվանման հանգույցներ:
Robots.txt-ը կարևոր ֆայլ է, որն օգնում է օգտատիրոջը հղում կատարել դեպի կայքը Google-ում, հիմնական որոնման համակարգերում և այլ կայքերում: Գտնվելով վեբ սերվերի հիմքում, ֆայլը հրահանգում է վեբ ռոբոտներին սողալ կայք, սահմանել, թե որ թղթապանակները պետք է ինդեքսավորեն կամ չցուցադրեն՝ օգտագործելով հրահանգների մի շարք, որը կոչվում է Bot Exclusion Protocol: Բոլոր որոնման համակարգերի համար ճիշտ Robots txt-ի օրինակ obots.txt հատկապես հեշտ է անել SeoToaster-ի հետ: Կառավարման վահանակում դրա համար ստեղծվել է հատուկ ընտրացանկ, այնպես որ բոտը երբեք ստիպված չի լինի չափազանց շատ աշխատել՝ մուտք ստանալու համար: