Chuyên gia Semalt về Quét dữ liệu trang web - Bots tốt và xấu

Quét web đã xuất hiện từ lâu và được coi là hữu ích cho các quản trị web, nhà báo, dịch giả tự do, lập trình viên, không lập trình viên, nhà nghiên cứu tiếp thị, học giả và chuyên gia truyền thông xã hội. Có hai loại bot: bot tốt và bot xấu. Các bot tốt cho phép các công cụ tìm kiếm lập chỉ mục nội dung web và được các chuyên gia thị trường và nhà tiếp thị kỹ thuật số ưu tiên cao. Các bot xấu, mặt khác, là vô dụng và nhằm mục đích làm hỏng xếp hạng công cụ tìm kiếm của trang web. Tính hợp pháp của việc quét web phụ thuộc vào loại bot bạn đã sử dụng.

Ví dụ: nếu bạn đang sử dụng các bot xấu lấy nội dung từ các trang web khác nhau với mục đích sử dụng bất hợp pháp, việc quét web có thể gây hại. Nhưng nếu bạn sử dụng các bot tốt và tránh các hoạt động có hại bao gồm tấn công từ chối dịch vụ, lừa đảo trực tuyến, chiến lược khai thác dữ liệu cạnh tranh, trộm dữ liệu, chiếm đoạt tài khoản, quét lỗ hổng trái phép, lừa đảo quảng cáo kỹ thuật số và đánh cắp tài sản trí tuệ, sau đó thủ tục quét web là tốt và hữu ích để phát triển doanh nghiệp của bạn trên Internet.

Thật không may, hầu hết các dịch giả tự do và khởi nghiệp đều yêu thích các bot xấu bởi vì chúng là một cách rẻ tiền, mạnh mẽ và toàn diện để thu thập dữ liệu mà không cần phải hợp tác. Tuy nhiên, các công ty lớn sử dụng những người dọn dẹp web hợp pháp vì lợi ích của họ và không muốn hủy hoại danh tiếng của họ trên Internet với những người dọn web bất hợp pháp. Các ý kiến chung về tính hợp pháp của việc quét web dường như không quan trọng bởi vì trong vài tháng qua, rõ ràng là các hệ thống tòa án liên bang đang đàn áp ngày càng nhiều chiến lược cạo web bất hợp pháp.

Quét web bắt đầu như một quá trình bất hợp pháp từ năm 2000, khi việc sử dụng bot và nhện để quét các trang web được coi là vô nghĩa. Không có nhiều thực tiễn được điều chỉnh để ngăn chặn thủ tục này lan truyền trên internet cho đến năm 2010. Lần đầu tiên eBay đệ trình các lệnh cấm sơ bộ chống lại Nhà thầu cạnh tranh, cho rằng việc sử dụng bot trên trang web đã vi phạm luật Trespass đối với Cherels. Tòa án đã sớm ban hành lệnh cấm vì người dùng phải đồng ý với các điều khoản và điều kiện của trang web và một số lượng lớn bot đã bị vô hiệu hóa vì chúng có thể phá hủy các máy tính của eBay. Vụ kiện đã sớm được giải quyết ra khỏi tòa án và eBay đã ngăn mọi người sử dụng bot để quét web bất kể chúng tốt hay xấu.

Vào năm 2001, một công ty du lịch đã kiện các đối thủ cạnh tranh đã lấy nội dung của nó khỏi trang web với sự giúp đỡ của những con nhện độc hại và những con bot xấu. Các thẩm phán một lần nữa thực hiện các biện pháp chống lại tội phạm và ủng hộ các nạn nhân, nói rằng cả việc quét web và sử dụng bot có thể gây hại cho các doanh nghiệp trực tuyến khác nhau.

Ngày nay, để tổng hợp học thuật, tư nhân và thông tin, rất nhiều người dựa vào các quy trình cạo web công bằng và rất nhiều công cụ quét web đã được phát triển về vấn đề này. Bây giờ các quan chức nói rằng không phải tất cả các công cụ đó đều đáng tin cậy, nhưng những công cụ có phiên bản trả phí hoặc cao cấp tốt hơn so với các công cụ dọn web miễn phí .

Năm 2016, Quốc hội đã thông qua đạo luật đầu tiên nhắm vào các bot xấu và ủng hộ các bot tốt. Đạo luật bán vé trực tuyến tốt hơn (BOTS) được hình thành đã cấm sử dụng phần mềm bất hợp pháp có thể nhắm mục tiêu vào các trang web, làm hỏng hàng ngũ công cụ tìm kiếm của họ và phá hủy doanh nghiệp của họ. Có vấn đề về sự công bằng. Chẳng hạn, LinkedIn đã chi rất nhiều tiền cho các công cụ chặn hoặc loại bỏ các bot xấu và khuyến khích các bot tốt. Vì các tòa án đã cố gắng quyết định tính hợp pháp của việc quét web, các công ty đang bị đánh cắp dữ liệu của họ.