Robots.txt: Hướng dẫn người mới bắt đầu

Robots.txt là:

Một tập tin đơn giản có chứa các thành phần được sử dụng để xác định các trang trên một trang web mà không phải được thu thập thông (hoặc trong một số trường hợp phải được thu thập thông) bằng chương trình công cụ tìm kiếm. Tập tin này phải được đặt trong thư mục gốc của trang web của bạn. Các tiêu chuẩn cho tập tin này đã được phát triển vào năm 1994 và được biết đến như là Robots Exclusion Standard hoặc Robots Exclusion Protocol .

Một số quan niệm sai lầm phổ biến về robots.txt:

Nó dừng lại nội dung từ được lập chỉ mục và hiển thị trong kết quả tìm kiếm.
Nếu bạn liệt kê một trang hoặc tập tin nhất định trong một file robots.txt nhưng URL đến trang được tìm thấy trong nguồn lực bên ngoài, chương trình công cụ tìm kiếm vẫn có thể thu thập thông tin và chỉ số URL bên ngoài này và hiển thị trang trong kết quả tìm kiếm. Ngoài ra, không phải tất cả các robot làm theo những hướng dẫn trong file robots.txt, vì vậy một số chương trình có thể thu thập thông tin và mục lục đề cập theo một tập tin robots.txt nào. Nếu bạn muốn một khối lập chỉ mục thêm, một thẻ Meta robot với giá trị một 'noindex' trong thuộc tính nội dung sẽ phục vụ như vậy khi được sử dụng trên các trang web cụ thể, như hình dưới đây:

<meta name="robots" content="noindex">

Tìm hiểu thêm về điều này ở đây .

Nó bảo vệ nội dung tin.

Nếu bạn có nội dung riêng tư hoặc bảo mật trên một trang web mà bạn muốn chặn từ các chương trình, xin vui lòng không chỉ phụ thuộc vào robots.txt. Đó là khuyến khích sử dụng mật khẩu bảo vệ cho các tập tin như vậy, hoặc không để xuất bản chúng trực tuyến tại tất cả.

Nó đảm bảo không lập chỉ mục nội dung trùng lặp.

Như robots.txt không đảm bảo rằng một trang sẽ không được lập chỉ mục, nó là an toàn để sử dụng nó để ngăn chặn trùng lặp nội dung trên trang web của bạn. Nếu bạn sử dụng robots.txt để chặn nội dung trùng lặp chắc chắn rằng bạn cũng áp dụng phương pháp hết sức rõ ràng khác, chẳng hạn như một rel = canonical tag.

Nó đảm bảo việc ngăn chặn của tất cả các robot.

Không giống như Google chương trình, không phải tất cả chương trình là hợp pháp và do đó không thể làm theo hướng dẫn tập tin robots.txt để chặn một tập tin cụ thể lập chỉ mục. Cách duy nhất để ngăn chặn những chương trình không mong muốn hoặc độc hại bằng cách ngăn chặn truy cập của họ lên máy chủ web của bạn thông qua cấu hình máy chủ hoặc với một tường lửa mạng, giả sử các bot hoạt động từ một địa chỉ IP duy nhất.

Sử dụng cho Robots.txt:

Trong một số trường hợp việc sử dụng robots.txt có thể có vẻ không hiệu quả, như đã chỉ ra ở phần trên. Tập tin này là có một lý do, tuy nhiên, và đó là tầm quan trọng của nó cho SEO trên trang.

Sau đây là một số trong những cách thiết thực để sử dụng robots.txt:

Để khuyến khích thu thập từ quý khách đến thăm thư mục riêng.

Để giữ cho các robot thu thập nội dung ít đáng chú ý trên một trang web. Điều này tạo cho họ thêm thời gian để thu thập dữ liệu nội dung quan trọng đó là dự định được hiển thị trong kết quả tìm kiếm.
Chỉ cho phép các chương trình cụ thể truy cập để thu thập thông tin trang web của bạn. Điều này tiết kiệm băng thông.

Tìm kiếm chương trình yêu cầu các tập tin robots.txt theo mặc định. Nếu họ không tìm thấy một họ sẽ báo cáo một lỗi 404, mà bạn sẽ tìm thấy trong các tập tin đăng nhập. Để tránh điều này, bạn phải sử dụng ít nhất một robots.txt mặc định, tức là một tập tin robots.txt trống.

Để cung cấp chương trình với vị trí của Sơ đồ của bạn. Để làm điều này, nhập một chỉ thị trong robots.txt của bạn bao gồm các vị trí của Sơ đồ trang web của bạn:

Sơ đồ: http://yoursite.com/sitemap-location.xml

Bạn có thể thêm này bất cứ nơi nào trong file robots.txt bởi vì các chỉ thị độc lập với dòng đại lý người dùng. Tất cả bạn phải làm là xác định vị trí của Sơ đồ trang web của bạn trong các bản đồ web location.xml một phần của URL. Nếu bạn có nhiều Sơ đồ trang web bạn cũng có thể xác định vị trí của tập tin chỉ mục Sơ đồ trang web của bạn. Tìm hiểu thêm về bản đồ website trong blog của chúng tôi trên XML Sơ đồ trang web .

Ví dụ về các tập tin Robots.txt:

Có hai yếu tố chính trong một tập tin robots.txt: User-agent và Disallow.

Sử dụng đại lý: Các đại lý người dùng thường được trình bày với một ký tự đại diện (*) trong đó là một dấu hiệu dấu sao mà có nghĩa rằng các hướng dẫn ngăn chặn là cho tất cả các chương trình . Nếu bạn muốn chương trình nào đó bị chặn hoặc cho phép trên các trang nhất định, bạn có thể chỉ định tên bot theo chỉ thị sử dụng đại lý.

Không cho phép : Khi không cho phép không có gì quy định nó có nghĩa là chương trình có thể thu thập thông tin tất cả các trang trên một trang web. Để chặn một trang nào đó bạn phải sử dụng chỉ có một URL tiền tố mỗi không cho phép. Bạn không có thể bao gồm nhiều thư mục hoặc tiền tố URL theo các yếu tố không cho phép trong robots.txt.

Sau đây là một số ứng dụng phổ biến các tập tin robots.txt.

Để cho phép tất cả các chương trình để truy cập vào toàn bộ trang web (các robots.txt mặc định) sau đây được sử dụng:

User-agent: *
Không cho phép:
Để chặn toàn bộ máy chủ từ các chương trình, robots.txt này được sử dụng:

User-agent: *
Không cho phép: /
Để cho phép một robot duy nhất và không cho phép các robot khác:

User-agent: Googlebot
Không cho phép:
User-agent: *
Không cho phép: /
Để ngăn chặn các trang web từ một robot duy nhất:

User-agent: XYZbot
Không cho phép: /
Để chặn một số phần của trang web:

User-agent: *
Không cho phép: / tmp /
Không cho phép: / rác /
Sử dụng robots.txt này để chặn tất cả các nội dung của một loại tập tin cụ thể. Trong ví dụ này, chúng tôi không bao gồm tất cả các tập tin là những tập tin Powerpoint. (Chú ý: ($) ký hiệu đô la cho biết kết thúc của dòng):

User-agent: *
Không cho phép:. * Ppt $
Để ngăn chặn chương trình từ một tập tin cụ thể:

User-agent: *
Không cho phép: / thư mục / file.html
Thu thập thông tin tài liệu HTML nào đó trong một thư mục mà bị chặn khỏi chương trình bạn có thể sử dụng một phép chỉ thị. Một số trình thu thập chủ yếu hỗ trợ lệnh Allow trong robots.txt. Một ví dụ được trình bày dưới đây:

User-agent: *
Không cho phép: / thư mục /
Cho phép: / folder1/myfile.html
Để chặn các URL có chứa các chuỗi truy vấn cụ thể mà có thể dẫn đến nội dung trùng lặp, các robots.txt dưới đây được sử dụng. (?) Trong trường hợp này, bất kỳ URL có chứa một dấu hỏi bị chặn:

User-agent: *
Không cho phép: / *?
Đôi khi một trang sẽ được lập chỉ mục ngay cả khi bạn có trong file robots.txt vì lý do như được liên kết bên ngoài. Để ngăn chặn hoàn toàn trang đó được hiển thị trong kết quả tìm kiếm, bạn có thể bao gồm robot Noindex thẻ Meta trên các trang cá nhân. Bạn cũng có thể bao gồm một thẻ nofollow và hướng dẫn các chương trình không thực hiện theo các liên kết bên ngoài bằng cách chèn các mã sau đây:

Cho trang không được lập chỉ mục:

<meta name="robots" content="noindex">

Cho trang không được lập chỉ mục và liên kết không được thực hiện:

<meta name = "robots" content = "noindex, nofollow">

Chú ý: Nếu bạn thêm các trang này vào robots.txt và cũng có thể thêm các thẻ Meta ở trên để trang, nó sẽ không được thu thập thông nhưng các trang có thể xuất hiện trong danh sách các URL duy nhất của kết quả tìm kiếm, như các chương trình đã bị chặn đặc biệt từ đọc các thẻ meta trong trang.

Một điều quan trọng cần lưu ý là bạn không phải bao gồm bất kỳ URL bị chặn trong tập tin robots.txt của bạn trong sitemap XML của bạn. Điều này có thể xảy ra, đặc biệt là khi bạn sử dụng công cụ riêng biệt để tạo ra các tập tin robots.txt và sitemap XML. Trong trường hợp này, bạn có thể phải tự kiểm tra để xem liệu các URL bị chặn có trong đồ. Bạn có thể kiểm tra điều này trong tài khoản Google Webmaster Tools của bạn nếu bạn có trang web của bạn gửi và kiểm tra trên các công cụ và đã nộp sitemap của bạn.

Tới Webmaster Tools> Tối ưu hóa> Sơ đồ trang web và nếu công cụ hiển thị bất kỳ lỗi thu thập dữ liệu trên các sitemap (s) đã gửi, bạn có đôi có thể kiểm tra xem liệu nó là một trang trong robots.txt.

Nếu một trang bị chặn bởi robots.txt, GWT sẽ mô tả các lỗi như sơ đồ trang web chứa URL đó bị chặn bởi robots.txt.

Ngoài ra, có một công cụ kiểm tra robots.txt trong GWT. Nó được tìm thấy dưới Webmaster Tools> Y tế> bị chặn URL như trong hình dưới đây:

Công cụ này là một cách tuyệt vời để học cách sử dụng tập tin robots.txt của bạn. Bạn có thể thấy Googlebots sẽ đối xử với các URL sau khi bạn nhập URL bạn muốn kiểm tra.

Cuối cùng có một số điểm quan trọng cần nhớ khi nói đến robots.txt:

- Khi bạn sử dụng một dấu gạch chéo sau khi một thư mục hoặc một thư mục, nó có nghĩa là robots.txt sẽ chặn các thư mục hoặc thư mục và tất cả mọi thứ trong nó, như hình dưới đây:

Không cho phép: / rác thư mục /

- Hãy chắc chắn rằng tập tin CSS và mã JavaScript mà làm cho nội dung phong phú không bị chặn trong robots.txt, vì điều này sẽ gây trở ngại cho xem trước đoạn.

- Kiểm tra cú pháp của bạn với công cụ Google Webmaster hoặc làm cho nó được thực hiện bởi một người rất thành thạo trong robots.txt, nếu không bạn có nguy cơ ngăn chặn nội dung quan trọng trên trang web của bạn.

- Nếu bạn có hai phần đại lý người dùng, một cho tất cả các chương trình và một cho một bot cụ thể, chúng ta hãy nói Googlebots, sau đó bạn phải ghi nhớ rằng Googlebot thu thập sẽ chỉ làm theo hướng dẫn trong sử dụng đại lý cho Googlebot và không cho một trong những chung với các ký tự đại diện (*). Trong trường hợp này, bạn có thể phải lặp lại các báo cáo không cho phép đưa vào chung phần đại lý người dùng trong các phần cụ thể để Googlebots là tốt. Hãy xem các văn bản dưới đây:

User-agent: *

Không cho phép: / folder1 /

Không cho phép: / folder2 /

Không cho phép: / folder3 /

User-agent: Googlebot

Thu thập dữ liệu chậm trễ: 2

Không cho phép: / folder1 /

Không cho phép: / folder2 /

Không cho phép: / folder3 /

Không cho phép: / folder4 /

Không cho phép: / folder5 /

Các tin khác