top of page
  • Ảnh của tác giảAdmin

File Robots.txt là gì? 3 cách tạo Robots.txt trong WordPress

File robots txt giúp công cụ tìm kiếm hiểu được các quy định về truy cập và thu thập dữ liệu trên trang web của bạn. Trong bài viết này, SEO VietNam sẽ cung cấp kiến thức cơ bản về file robots.txt và hướng dẫn bạn cách tạo một file robots.txt cho trang web của mình một cách đơn giản nhất.

I. Robots txt là gì?

File robots.txt là một tệp văn bản đơn giản có phần mở rộng .txt. Nó là một phần của Robots Exclusion Protocol (REP) và chứa các tiêu chuẩn web để quy định cách Robot Web (hoặc Robot của công cụ tìm kiếm) thu thập dữ liệu trên Web, truy cập, lập chỉ mục nội dung và cung cấp nội dung đó cho người dùng. Tệp robots.txt cho phép bạn chỉ định các quy tắc truy cập để kiểm soát cách robot tìm kiếm hoạt động trên trang web của bạn.

Robots txt là gì?
Robots txt là gì?

II. Cú pháp của file robots.txt

Các cú pháp trong tệp robots.txt được xem là ngôn ngữ riêng của nó. Dưới đây là 5 thuật ngữ phổ biến trong tệp robots.txt:

  • User-agent: Phần này định rõ tên của các trình thu thập dữ liệu web (user-agent) như: Googlebot, Bingbot,...

  • Disallow: Sử dụng để thông báo cho các user-agent rằng không được phép thu thập dữ liệu từ các URL cụ thể. Mỗi URL chỉ có thể sử dụng trên một dòng Disallow.

  • Allow (chỉ áp dụng cho user-agent Googlebot): Lệnh này thông báo cho Googlebot rằng nó được phép truy cập vào một trang hoặc thư mục con cụ thể. Tuy nhiên, các trang hoặc thư mục con có thể không được phép truy cập.

  • Crawl-delay: Thông báo cho Web Crawler (trình thu thập dữ liệu web) biết rằng nó cần chờ một khoảng thời gian (giây) trước khi tải và thu thập nội dung của trang. Tuy nhiên, lưu ý rằng Googlebot không chấp nhận lệnh này và bạn cần cấu hình tốc độ thu thập dữ liệu trong Google Search Console.

  • Sitemap: Sử dụng để cung cấp vị trí của các tệp sitemap XML liên kết với URL đó. Lưu ý rằng lệnh này chỉ được hỗ trợ bởi công cụ tìm kiếm như Google, Bing, Yahoo và Ask.

III. Tại sao cần phải tạo file robots txt?

Việc tạo tệp robots.txt cho trang Web của bạn mang lại nhiều lợi ích như sau:

  • Ngăn chặn nội dung trùng lặp xuất hiện trong trang Web bằng cách sử dụng các chỉ thị của Robot Meta.

  • Bảo vệ sự riêng tư của một số phần của trang Web.

  • Giữ các trang kết quả tìm kiếm nội bộ không hiển thị trên kết quả tìm kiếm của các công cụ tìm kiếm.

  • Xác định vị trí của tệp Sitemap trong trang Web.

  • Ngăn các công cụ tìm kiếm của Google lập chỉ mục một số tệp cụ thể trên trang Web của bạn, ví dụ như: hình ảnh từ máy tính, tệp PDF,...

  • Sử dụng lệnh Crawl-delay để đặt thời gian chờ giữa các lần thu thập dữ liệu, tránh tình trạng quá tải máy chủ khi các trình thu thập dữ liệu tải nhiều nội dung cùng một lúc.

  • Việc tạo và tùy chỉnh tệp robots.txt cho trang web giúp bạn có sự kiểm soát chặt chẽ hơn về truy cập và lập chỉ mục từ các công cụ tìm kiếm, mang đến hiệu quả và bảo mật tốt hơn cho trang Web của bạn.

Tại sao cần phải tạo file robots txt
Tại sao cần phải tạo file robots txt

IV. Những hạn chế của file robots.txt

Hầu hết thì những thuật toán hay phần mềm nào cũng tồn tại một số hạn chế nhất định so với rất nhiều điểm mạnh mà nó mang lại, robots.txt cũng không ngoại lệ:

  • Một vài công cụ tìm kiếm có thể không hỗ trợ những lệnh trong tệp robots.txt.

  • Mỗi trình thu thập dữ liệu sẽ có những cách riêng để phân tích cú pháp.

  • Google vẫn có thể lập chỉ mục đối với một trang bị tệp robots.txt chặn nếu có những trang web khác liên kết đến trang đấy.

V. File robots.txt hoạt động như thế nào?

Cách thức hoạt động của tệp robots.txt diễn ra theo các bước sau:

1. Bước 1: Quá trình crawl (cào dữ liệu)

Các công cụ tìm kiếm sẽ bắt đầu quá trình crawl trên trang web bằng cách đi theo các liên kết từ trang này đến trang khác. Trong quá trình này, các con bot sẽ thu thập dữ liệu từ hàng tỷ trang web khác nhau. Quá trình này còn được gọi là “spidering” hay “crawling”.

2. Bước 2: Index nội dung

Sau khi thu thập dữ liệu, các công cụ tìm kiếm sẽ tiến hành lập chỉ mục (indexing) nội dung đã thu thập. File robots.txt chứa thông tin về cách các công cụ tìm kiếm (như Google) nên thu thập dữ liệu từ trang Web. Nó cung cấp hướng dẫn chi tiết cho quá trình này. Bằng cách chỉ định các quy tắc trong robots.txt, bạn có thể định rõ các khu vực mà bạn muốn các công cụ tìm kiếm truy cập hoặc không truy cập.

Chú ý: Nếu file robots.txt không chứa bất kỳ chỉ thị nào cho các User-agent hoặc nếu bạn không tạo file robots.txt cho trang Web của mình, các con bots sẽ tự do tiến hành thu thập thông tin trên web mà không gặp bất kỳ hạn chế nào.

VI. File robots.txt nằm ở đâu trên một Website?

Khi bạn tạo một trang Web WordPress, hệ thống sẽ tự động tạo một tệp robots.txt và đặt nó trong thư mục gốc của máy chủ.

Ví dụ: Nếu trang Web của bạn có địa chỉ abcd123.com, bạn có thể truy cập vào tệp robots.txt qua đường dẫn abcd123.com/robots.txt. Kết quả ban đầu của tệp robots.txt sẽ tương tự như sau:

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-includes/

Trong tệp robots.txt mặc định được tạo ra bởi WordPress, có một quy tắc áp dụng cho tất cả các bots trên trang Web. Sử dụng chỉ thị User-agent: * tệp này thông báo rằng các bots không được phép truy cập vào các thư mục wp-admin và wp-includes.

Vị trí file robots.txt trên một website
Vị trí file robots.txt trên một website

Chú ý:

  • File robots.txt là một tệp tin ảo được WordPress tự động tạo ra mặc định khi bạn cài đặt và không thể chỉnh sửa trực tiếp (mặc dù nó vẫn hoạt động).

  • Vị trí chuẩn của file robots.txt trong WordPress là thư mục gốc, thường được gọi là public_html hoặc www (tương ứng với tên miền của trang Web).

  • Để tạo file robots.txt riêng cho trang Web của bạn, bạn cần tạo một tệp tin mới và đặt nó vào thư mục gốc để thay thế tệp tin mặc định.

>> Xem thêm: Slug là gì? Cách tối ưu Slug hiệu quả trong WordPress

VII. Làm thế nào để kiểm tra Website có file robots.txt không?

Nếu bạn đăng khá là mơ hồ trong việc kiểm tra Website của mình có tệp robots.txt hay không thì cách đơn giản nhất là bạn nhập Root Domain của bạn kèm sau đó là “/robots.txt” vào cuối URL. Nếu không thấy xuất hiện trang có đuôi là “.txt” thì chắc chắn Website của bạn chưa tạo robots txt file rồi.

Cách kiểm tra File robots.txt
Cách kiểm tra File robots.txt

VIII. Quy tắc nào cần được bổ sung vào file robots.txt WordPress?

Để áp dụng các quy tắc khác nhau cho các bot khác nhau, bạn chỉ cần thêm từng bộ quy tắc trong phần khai báo User-agent cho mỗi bot tương ứng.

Ví dụ: Nếu bạn muốn tạo một quy tắc để áp dụng cho toàn bộ các bot và quy tắc duy nhất chỉ áp dụng cho Bingbot, bạn có thể thực hiện như sau:

User-agent: *

Disallow: /wp-admin/

User-agent: Bingbot

Disallow: /

Trong ví dụ này, tất cả các bot sẽ bị chặn truy cập vào /wp-admin/, nhưng Bingbot sẽ bị chặn truy cập vào toàn bộ trang Web của bạn.

IX. 3 cách tạo file robots.txt WordPress đơn giản

Sau khi kiểm tra, bạn nhận ra rằng Website của mình không có file robots.txt hoặc là bạn đang muốn thay đổi tệp robots.txt của mình. Vậy, bạn hãy tham khảo hướng dẫn tạo file robots txt với 3 cách cho Wordpress dưới đây:

1. Sử dụng Yoast SEO

Bạn có thể tạo mới hoặc chỉnh sửa file robots.txt cho WordPress trực tiếp trên Dashboard của WordPress với vài bước đơn giản. Đầu tiên, đăng nhập vào trang Web của bạn và sau đó bạn sẽ thấy giao diện của Trang Dashboard.

Ở phía bên trái của màn hình, hãy nhìn vào mục SEO sau đó chọn Tools sau đó chọn File Editor.

Chọn Tools trong mục SEO
Chọn Tools trong mục SEO
Chọn File Edit để bắt đầu tạo
Chọn File Edit để bắt đầu tạo

Nếu tính năng chỉnh sửa file không xuất hiện trên trang Dashboard của WordPress, có thể do trình quản lý chỉnh sửa file chưa được kích hoạt. Trong trường hợp này, bạn cần kích hoạt tính năng này thông qua FTP (File Transfer Protocol - Giao thức truyền tập tin).

Sau khi kích hoạt, bạn sẽ thấy mục “robots.txt” và tệp “.htaccess” - đó là nơi bạn có thể tạo file robots.txt.

Điều chỉnh hoặc tạo file robots.txt
Điều chỉnh hoặc tạo file robots.txt

2. Sử dụng Plugin All in One SEO

Để tạo file robots.txt trong WordPress bằng plugin All in One SEO, bạn có thể làm theo các bước sau:

  • Bước 1: Truy cập vào trong giao diện chính của Plugin All in One SEO.

  • Bước 2: Chọn lần lượt theo thứ tự: All in One SEO → Feature Manager → Activate cho Robots.txt.

Chọn Activate để kích hoạt tệp Robots.txt
Chọn Activate để kích hoạt tệp Robots.txt

Bước 3: Xây dựng hoặc điều chỉnh file robots.txt WordPress tùy theo nhu cầu của mỗi người.

Thiết lập hoặc điều chỉnh file robots.txt Wordpress
Thiết lập hoặc điều chỉnh file robots.txt Wordpress

Chú ý: Trong công cụ All in One SEO, thay vì cho phép người dùng chỉnh sửa trực tiếp file robots.txt, nó che giấu thông tin của file đó. Điều này có thể tạo ra một sự bất tiện nhất định khi người dùng muốn chỉnh sửa file robots.txt trong WordPress. Tuy nhiên, tích cực của việc này là nó giúp người dùng hạn chế thiệt hại cho trang Web của họ, đặc biệt khi phải đối phó với các bot gây hại như Malware.

3. Tạo rồi upload file robots.txt qua FTP

Để tạo file robots.txt WordPress bằng cách thủ công và tải lên qua FTP, bạn có thể làm theo các bước sau:

  • Bước 1: Mở Textedit hoặc Notepad để tiến hành tạo mẫu file robots.txt WordPress.

  • Bước 2: Mở FTP → thư mục public_html → file robots.txt → Upload.

Upload file robots.txt qua FTP
Upload file robots.txt qua FTP

X. Một số quy tắc khi tạo file robots.txt

Khi tạo file robots.txt, hãy lưu ý các quy tắc sau để tránh gặp lỗi:

  • Đặt file robots.txt WordPress trong thư mục gốc của trang Web để các bots có thể tìm thấy nó.

  • File txt phân biệt chữ hoa và chữ thường, vì vậy hãy đặt tên file là “robots.txt” (không phải “Robots.txt” hay “robots.TXT”,...).

  • Tránh đặt /wp-content/themes/ hoặc /wp-content/plugins/ trong phần “Disallow”. Điều này giúp các công cụ hiểu rõ về giao diện và các plugin của blog hoặc Website.

  • Một số User-agent có thể bỏ qua các file robots.txt chuẩn. Điều này phổ biến đối với Malware robots (bot chứa mã độc hại) và các trình thu thập địa chỉ Email.

  • File robots.txt thường được công khai và có sẵn trên Web. Bất kỳ ai cũng có thể truy cập vào /robots.txt trên domain gốc để xem các chỉ thị của trang Web. Do đó, không sử dụng file này để ẩn thông tin cá nhân của người dùng.

  • Mỗi Subdomain trên một Root Domain sẽ sử dụng file robots.txt riêng. Điều này có nghĩa là blog.example.com và example.com sẽ có các robots txt file khác nhau. Điều này đảm bảo bạn có thể chỉ định vị trí của các sitemap liên kết với domain trong phần cuối của robots txt file.

XI. Một vài lưu ý khi sử dụng file robots.txt

Khi sử dụng file robots.txt, hãy lưu ý các điểm sau đây:

  • Các liên kết trên trang bị chặn bởi file robots.txt sẽ không được các trình thu thập thông tin website theo dõi, trừ khi các liên kết này có liên kết đến từ các trang khác.

  • Các liên kết juice (giá trị liên kết) sẽ không được truyền từ trang bị chặn đến trang đích. Do đó, nếu bạn muốn tăng cường giá trị liên kết qua các trang này, hãy sử dụng các phương pháp khác thay vì sử dụng file robots.txt.

  • Không nên sử dụng file robots.txt để ngăn chặn dữ liệu nhạy cảm như thông tin cá nhân người dùng xuất hiện trong kết quả tìm kiếm.

  • File robots.txt chỉ có hiệu lực trên trang chứa nó và không có hiệu lực đối với các trang khác có liên kết đến nó. Do đó, các trình thu thập thông tin có thể bỏ qua chỉ thị trong file trên trang chủ của bạn.

Không cần chỉ định các lệnh cho từng User-agent
Không cần chỉ định các lệnh cho từng User-agent
  • Hầu hết các User-agent (công cụ tìm kiếm) hoạt động theo cùng một quy tắc, vì vậy không cần cung cấp chỉ thị riêng cho từng User-agent.

  • Các công cụ tìm kiếm thường lưu trữ nội dung trong file robots.txt và chúng thường được cập nhật ít nhất một lần trên ngày. Nếu bạn muốn nội dung trong tệp cập nhật nhanh hơn, bạn có thể sử dụng chức năng “Gửi” của Trình kiểm tra tệp robots.txt.

XII. Những câu hỏi hay thường gặp về robots.txt

Dưới đây là một số câu hỏi được SEO VietNam chọn lọc theo một số tiêu chí nhất định như lượng người hỏi nhiều, câu hỏi có ý nghĩa,... hãy cùng nhau giải quyết những câu hỏi này nhé!

1. Kích thước tối đa của file robots.txt là bao nhiêu?

Câu trả lời: Kích thước lớn nhất của file robots.txt khoảng 500 kilobyte.

2. File robots.txt WordPress nằm ở đâu trên website?

Câu trả lời: File robots.txt WordPress nằm ở domain.com/robots.txt.

3. Làm cách nào để chỉnh sửa robots.txt WordPress?

Câu trả lời: Bạn có thể thực hiện thủ công hoặc sử dụng các plugin WordPress SEO như Yoast, cho phép bạn chỉnh sửa robots.txt từ WordPress backend.

Sử dụng YOAST SEO
Sử dụng YOAST SEO

4. Điều gì xảy ra nếu Disallow vào nội dung Noindex trong robots.txt?

Câu trả lời: Nếu Disallow vào nội dung Noindex trong robots.txt thì Google sẽ không bao giờ thấy lệnh Noindex vì nó không thể Crawl dữ liệu trang Web

5. Làm sao tạm ngừng toàn bộ hoạt động thu thập dữ liệu trang web?

Câu trả lời: Để tạm ngừng hoạt động thu thập dữ liệu, bạn có thể trả về mã kết quả HTTP 503 cho mọi URL, bao gồm cả tệp robots.txt. Tuy nhiên, không nên thay đổi tệp robots.txt để chặn các hoạt động thu thập dữ liệu này.

6. Điều gì sẽ xảy ra nếu bạn không có tệp robots.txt?

Câu trả lời: Nếu tệp robots.txt bị thiếu, trình thu thập thông tin công cụ tìm kiếm sẽ giả định rằng tất cả các trang trên trang web của bạn đều ở chế độ công khai và nó được thu thập dữ liệu từ chúng để thêm vào chỉ mục của nó.

7. Điều gì sẽ xảy ra nếu robots.txt không được định dạng tốt?

Câu trả lời: Điều này phụ thuộc vào việc nếu các công cụ tìm kiếm không thể hiểu nội dung của tệp tin do cấu hình không chính xác, chúng vẫn sẽ truy cập vào trang web và bỏ qua bất kỳ hạn chế nào trong tệp robots.txt.

XIII. Kết luận

Hy vọng bài viết này đã giúp bạn hiểu về tệp robots txt và các cách tạo file robots.txt cho WordPress. Hãy kiểm tra xem trang Web của bạn đã có tệp robots.txt chưa. Nếu chưa, hãy tạo và chỉnh sửa robots txt file WordPress theo ý của bạn để giúp các công cụ tìm kiếm thu thập dữ liệu và lập chỉ mục trang web của bạn một cách nhanh chóng và hiệu quả. SEO VietNam xin chân thành cảm ơn bạn đã đọc bài viết và hy vọng sẽ gặp lại bạn trong các bài viết tiếp theo!


Nhận phân tích website và báo giá dịch vụ SEO

Yêu cầu đã được gửi thành công

Có thể bạn quan tâm

CAC-DANG-𝐂𝐎𝐏𝐘𝐖𝐑𝐈𝐓𝐄𝐑-PHO-BIEN-NHAT-HIEN-NAY.png
Email Marketing là gì? Cách làm Email Marketing hiệu quả
CAC-DANG-𝐂𝐎𝐏𝐘𝐖𝐑𝐈𝐓𝐄𝐑-PHO-BIEN-NHAT-HIEN-NAY.png
Customer Journey là gì – chìa khóa thấu hiểu insight khách hàng
CAC-DANG-𝐂𝐎𝐏𝐘𝐖𝐑𝐈𝐓𝐄𝐑-PHO-BIEN-NHAT-HIEN-NAY.png
Tải mẫu kế hoạch chiến lược Marketing 2023
Bài Viết mới nhất
Technical SEO là gì? Cách tối ưu Technical SEO hiệu quả cho Website
Technical SEO là gì? Cách tối ưu Technical SEO hiệu quả cho Website
Navigation là gì? Nguyên tắc xây dựng Web Navigation
Navigation là gì? Nguyên tắc xây dựng Web Navigation
DMCA là gì? Hướng dẫn đăng ký DMCA bảo vệ bản quyền cho Website
DMCA là gì? Hướng dẫn đăng ký DMCA bảo vệ bản quyền cho Website
Conversion rate là gì? 5 cách tối ưu tăng tỷ lệ chuyển đổi cho Website
Conversion rate là gì? 5 cách tối ưu tăng tỷ lệ chuyển đổi cho Website
Bounce rate là gì? Thủ thuật tối ưu tỷ lệ thoát trang hiệu quả
Bounce rate là gì? Thủ thuật tối ưu tỷ lệ thoát trang hiệu quả
Alt Text là gì? Cách tối ưu Alt Text khi SEO hình ảnh
Alt Text là gì? Cách tối ưu Alt Text khi SEO hình ảnh
bottom of page