File robots.txt là gì - Cách tạo file robots txt chuẩn cho website HTML

Đăng lúc: 16:57 - 23/10/2020

Trong bài viết này Web4s sẽ giúp bạn giải đáp các thắc mắc, băn khoăn về file robots.txt là gì, cách tạo file robots.txt chuẩn cho website HTML, mời bạn cùng đón đọc bài viết chi tiết để hiểu rõ hơn về vấn đề. 

Robots txt là gì?Robots.txt là gì? Hướng dẫn tạo file robots txt cho website

1. File robots.txt là gì?

1.1. Khái niệm robots.txt

File robots.txt là tệp tin có đuôi dạng “.txt” thuộc thư mục gốc của website, có tác dụng hướng dẫn các robot công cụ tìm kiếm thu thập dữ liệu (crawl) trên website

File robot.txt giúp công cụ tìm kiếm thu thập dữ liệu website

1.2. Tầm quan trọng của robots.txt

- File robots.txt kiểm soát/ ngăn chặn việc truy cập của các công cụ thu thập thông tin; chặn các nội dung trùng/ lặp lại trên website
- Giúp giữ chế độ riêng tư cho tất cả các phần của trang web
- Ngăn công cụ tìm kiếm index một số file trên web (PDF, image,…)
- Chỉ định các vị trí của sơ đồ website.

File robots.txt chuẩn 
File robots.txt chuẩn

1.3. Ngôn ngữ riêng của file robots.txt

- User-agent (tác nhân người dùng): Tên các trình (duyệt) thu thập, trình truy cập dữ liệu trang web (chẳng hạn Googlebot, Bingbot,…). Các bộ user-agent hiển thị tách biệt và phân cách bằng dấu ngắt dòng.
- Disallow (không cho phép): Câu lệnh dùng để thông báo đến user-agent không thu thập dữ liệu URL, mỗi dòng disallow chứa 1 URL.
- Crawl-delay: Thời gian cần để thu thập dữ liệu trước khi tải cũng như thu thập nội dung website. Chú ý: Googlebot không chấp nhận lệnh này.
- Allow (cho phép): Chỉ thị giúp biết trang con hay thư mục con Googlebot có thể được truy cập. Người dùng cũng có thể sử dụng Allow để cho phép các công cụ tìm kiếm truy cập vào thư mục con cụ thể nào đó trong khi không được phép truy cập thư mục gốc.
- Sitemap (Sơ đồ website): Sử dụng sitemap để xác định vị trí của sơ đồ trang XML (tệp liệt kê toàn bộ trang quan trọng có trong website của bạn)

Ngôn ngữ riêng của file robots
- Định dạng của file robots.txt:

User-agent:
 Disallow:
Allow:
Crawl-delay:
Sitemap:

+ Ví dụ: 

Ví dụ
1.4. Những lưu ý về robots.txt

- Mọi quy tắc người dùng thêm vào robots.txt đều là chỉ thị, do đó các công cụ tìm kiếm (Google, Bing…) đều buộc phải tuân thủ theo các nguyên tắc đã đặt ra.
- Trang/ thư mục vẫn có thể xuất hiện trên kết quả tìm kiếm ngay cả trong trường hợp đã chặn chúng trong robots.txt
- Đặt tên file chuẩn là robots.txt, không được viết hoa bừa bãi
- Một trang web chỉ được phép có một file robots.txt, tuy nhiên không chỉ tên miền chính cần sử dụng file robots.txt riêng mà các tên miền phụ cũng cần có tệp robots.txt riêng.

Tuân thủ nguyên tắc của file robots.txt Tuân thủ nguyên tắc của file robots.txt đặt ra

- File robots.txt cần được đặt tại thư mục cao cấp nhất của website để bot có thể tìm thấy và thuộc thư mục gốc của máy chủ lưu trữ web tương ứng. 
- Trong một số trường hợp, các user-agent (robot) có thể không chọn file robots.txt của bạn.

2. Hướng dẫn cách tạo file robots.txt chuẩn cho website HTML

2.1. Cách tạo file robots.txt cho website HTML

- Sử dụng Notepad soạn thảo văn bản, truy cập tệp của website qua bảng điều khiển quản lý hosting hay FTP.
- Tuy nhiên, trước khi tạo file robots.txt chuẩn cho website, bạn cần kiểm tra và xác nhận hợp lệ cho file.

2.2. Cách kiểm tra file robots.txt trên website

- Nhập root domain => Thêm “/robots.txt” vào sau root domain => “Enter”
>>> Khi thấy các câu lệnh dưới đây, chứng tỏ website đã có file robots.txt:

User-agent: *
Allow

Cách kiểm tra file robots txt trên web
Cách kiểm tra sự tồn tại của robots.txt trên website

2.3. Cách xác nhận hợp lệ cho robots.txt qua robots.txt Tester của Google Search Console

- Đăng nhập tài khoản Google Search Console
- Trong mục Tùy chọn Crawl, nhấn chọn robots.txt Tester => Chọn “TEST”
+ Trường hợp nút TEST có màu xanh và nhãn chuyển ALLOWED: robots.txt trên web của bạn hợp lệ.
+ Trường hợp có đường kẻ được đánh dấu: File lỗi.

2.4. Cách chỉnh sửa file robots.txt

- Sử dụng ứng dụng FTP (giao thức truyền tải tệp tin từ máy này sang máy khác qua Internet hay qua mạng IP/TCP), kết nối với thư mục gốc của trang web (robots.txt thường nằm trong thư mục gốc www hay public_html)
- Download tập tin về máy, mở bằng trình duyệt soạn thảo văn bản (thường dùng là notepad)
- Thay đổi các yếu tố cần thiết, upload file lên máy chủ (server).

Hy vọng những chia sẻ trên đây của Web4s đã giúp bạn hiểu rõ hơn file robots.txt là gì, cách tạo file robots txt cho website HTML chuẩn một cách nhanh chóng, dễ dàng.
>>> Chưa biết thiết kế website bán hàng chuẩn TMĐT, chuẩn SEO ở đâu uy tín, chất lượng, đến ngay Web4s!
>>> Tạo website bán hàng online sử dụng MIỄN PHÍ trong 15 ngày để trải nghiệm dịch vụ của 4s trước khi chuyển dùng thật

mũi tên

Dùng thử ngay 

Chào bạn! Tôi Ngô Việt Cường – Là CEO Công ty cổ phần giải pháp công nghệ 4s. Tác giả tại Web4s, địa chỉ Tầng 4, Tòa nhà số 97 - 99 Láng Hạ, Đống Đa, Hà Nội. Web: https://web4s.vn/
Web4s cung cấp giải pháp thiết kế website trọn gói ✅Uy tín, Chuyên nghiệp giá chỉ 9k/ngày, ✅chuẩn TMĐT ✅chuẩn Seo, có tốc độ load nhanh. ✅Tặng tên miền, Hosting, Email, SSL.. ☎️0901191616