Back to Question Center
0

Semalt უზრუნველყოფს რჩევებს, თუ როგორ უნდა გაუმკლავდეთ ბოტები, ობობები და Crawlers

1 answers:

შექმნის გარდა საძიებო სისტემა მეგობრული მისამართები, .htaccess ფაილი საშუალებას აძლევს ვებმასტერებს ბლოკირება კონკრეტული ბოტების ვებ-გვერდზე წვდომისგან. ამ რობოტების დაბლოკვა ერთი გზა robots.txt ფაილია. თუმცა, როს ბარბერი, Semalt მომხმარებელთა წარმატება მენეჯერი, აცხადებს, რომ მან დაინახა ზოგიერთი crawlers იგნორირება ამ მოთხოვნით. ერთ-ერთი საუკეთესო საშუალებაა გამოიყენოთ. Htaccess ფაილი, რათა შეაჩერონ თქვენი შინაარსის ინდექსირება.

რა არის ეს ბოტები?

ისინი არიან საძიებო სისტემების მიერ გამოყენებული პროგრამული უზრუნველყოფა, რათა თავიდან იქნას აცილებული შინაარსი ინტერნეტისგან ახალი ინფორმაციის წაშლა.

ისინი ასრულებენ შემდეგ ამოცანებს:

  • ეწვიეთ ვებ გვერდებს, რომლებიც დაკავშირებულია
  • შეამოწმეთ თქვენი HTML კოდი შეცდომებისთვის
  • ისინი დაზოგავთ რა ვებ გვერდები თქვენ აკავშირებს და ვნახოთ რა ვებ გვერდები უკავშირებენ თქვენს შინაარსს
  • ისინი ინდექსში

თუმცა, ზოგიერთი ბოტები არის მავნე და მოძებნოთ თქვენი საიტი ელექტრონული ფოსტის მისამართები და ფორმები, რომლებიც ჩვეულებრივ გამოიყენება გამოგიგზავნით არასასურველი შეტყობინებები ან სპამი. სხვები კი თქვენს კოდში უსაფრთხოების ხარვეზებს ეძებენ.

რა საჭიროა დაბლოკოს ვებ კრეოლი?

.htaccess ფაილის გამოყენებამდე უნდა შეამოწმოთ შემდეგი რამ:

1. თქვენი საიტი უნდა იყოს გაშვებული Apache სერვერზე. დღესდღეობით, იმ ვებ ჰოსტინგის კომპანიებიც კი, ნახევარი ღირსეულად მუშაობენ, მოგცემთ საჭირო ფაილს.

2. თქვენს ვებ-გვერდის ნედლეული სერვერიდან წვდომას უნდა ჰქონდეთ ხელი, რომლითაც შეგიძლიათ იპოვოთ რა რობოტები თქვენს ვებ-გვერდებზე.

გაითვალისწინეთ, რომ არ არსებობს საშუალება, რომ ყველა მავნე რობოტის დაბლოკვა შეუძლებელია, თუკი ყველა მათგანს დაბლოკავთ, თუნდაც ის, ვისთვისაც სასარგებლოა. ახალი წერილები ყოველდღიურად მოდიან და ხანდაზმულები შეცვლილია. ყველაზე ეფექტური გზაა თქვენი კოდის დაცვა და გაღიზიანება გამოიწვიოს ბოძებით.

ბოტების განსაზღვრა

ბოტები შეიძლება გამოითვალოს IP მისამართით ან მათი "მომხმარებელი აგენტი სიმებიანი", რომელიც გაგზავნის HTTP სათაურებში. მაგალითად, Google იყენებს "Googlebot."

თქვენ შეიძლება დაგჭირდეთ ეს სია 302 ბოტებით, თუ თქვენ უკვე გაქვთ ბოტის სახელი, რომელიც გსურთ შეინახოთ მოშორებით .htaccess

თუ იცით რა გვერდი მოინახულა, ან ვიზიტის დრო, უფრო ადვილია არასასურველი ბოტით. ამ პარამეტრებით შეგიძლიათ დარეგისტრირდეთ ფაილური ფაილი.

ერთხელ, თქვენ შენიშნე, რა რობოტები გჭირდებათ დაბლოკოთ; შეგიძლიათ შემდეგ შეიტანოთ ისინი .htaccess ფაილი. გთხოვთ გაითვალისწინოთ, რომ ბოტის დაბლოკვა საკმარისი არ არის. ეს შეიძლება დაბრუნდეს ახალი IP ან სახელით.

როგორ დაბლოკოს ისინი

.htaccess ფაილის ასლი ჩამოტვირთეთ. თუ საჭიროა სარეზერვო ასლების გაკეთება.

მეთოდი 1: დაბლოკვის IP

ეს კოდი snippet ბლოკები ბოტი გამოყენებით IP მისამართი 197.0.0.1

დაალაგე უარყოფა, ნება

უარყოფა 197.0.0.1

პირველი ხაზი იმას ნიშნავს, რომ სერვერი ხელს უშლის ყველა მოთხოვნას, რომელიც შეესაბამება თქვენს მიერ მითითებულ ნიმუშებს და დაუშვებს ყველა სხვა საშუალებას.

მეორე ხაზი ეუბნება სერვერს გასცეს 403: აკრძალული გვერდი

მეთოდი 2: ბლოკირება მომხმარებელი აგენტებით

მარტივი გზა გამოიყენოს Apache- ის გადაწერა მანქანა

RewriteEngine On

RewriteCond% {HTTP_USER_AGENT} BotUserAgent

RewriteRule. - [F, L]

პირველი ხაზი უზრუნველყოფს, რომ გადაწერა მოდული ჩართულია. ხაზი ორია იმ პირობით, რომელსაც ეს წესი ეხება. "F" 4-ში სერვერზე 403-ის დაბრუნებას იწყებს: აკრძალულია, როდესაც "L" ნიშნავს ეს უკანასკნელი წესს.

თქვენ ატვირთეთ .htaccess ფაილი თქვენს სერვერზე და გადაწერეთ არსებული ფაილი. დროთა განმავლობაში, თქვენ უნდა განაახლოთ ბოტის IP. იმ შემთხვევაში თუ შეცდომა ხარ, უბრალოდ ატვირთეთ სარეზერვო სისტემა Source .

November 29, 2017