Web scraping etyczny i legalny?

Web scraping etyczny i legalny?

Naukowcy z University of Adelaide opracowali zestaw wytycznych dla lokalnych środowisk naukowych, które mają pomóc w bezpiecznym i legalnym korzystaniu z web scrapingu i web crawlingu. Poza kompleksową analizą aspektów etycznych i prawnych wykorzystania narzędzi automatycznego gromadzenia i przetwarzania danych ze stron internetowych, naukowcy zwracają uwagę na pilną potrzebę zapewnienia odpowiednich ram prawnych oraz uniwersalnych wytycznych, określających sposób, w jaki narzędzia powinny być stosowane.

Web crawlery, czyli programy, które automatycznie przeglądają i indeksują zawartość określonych stron, działają zwykle wspólnie z narzędziami do web scrapingu, których celem jest pozyskiwanie i przechowywanie określonych danych. Automatyczne pozyskiwanie i przetwarzanie danych internetowych zyskuje na świecie coraz większą popularność. Pozwala nie tylko zwiększyć efektywność pracy, ale też pozyskiwać cenne informacje i monitorować różne zjawiska lub trendy. Co więcej, rozwój sztucznej inteligencji dodatkowo zwiększa potrzebę poszukiwania różnych sposobów automatycznego wykorzystywania informacji pochodzących bezpośrednio z sieci.

Stosowanie web scrapingu i web crawlingu budzi jednak wiele wątpliwości, szczególnie w kontekście ochrony własności intelektualnej, możliwego naruszenia praw osobistych i prywatności, ochrony danych osobowych i danych wrażliwych. Etyka tego typu działań zależy również od przyjętego celu badawczego oraz rodzaju analizowanych zasobów. Naukowcy podkreślają, że web scraping w celach naukowych może być działaniem zarówno etycznym, jak i legalnym, pod warunkiem, że na wszystkich etapach gromadzenia, przechowywania i raportowania danych podejmowane są odpowiednie działania. Są to, m.in.:

  • odpowiednie zaprogramowanie narzędzi, tak aby koncentrowały się tylko na określonych danych,
  • ograniczanie liczby zapytań, aby zminimalizować ryzyko zbytniego obciążania stron internetowych,
  • uzyskanie zgody od właścicieli portali,
  • unikanie gromadzenia i analizowania jakichkolwiek danych osobowych lub danych wrażliwych,
  • dokonanie analizy warunków korzystania ze stron internetowych oraz reguł określających, jakie informacje na stronie mogą być indeksowane,
  • jasne sprecyzowanie i komunikowanie celu prowadzonych badań,
  • zachowanie zasad bezpieczeństwa, związanych z przechowywaniem i korzystaniem ze zgromadzonych danych,
  • korzystanie z API (Application Programming Interface) zamiast web scrapingu, jeśli tylko jest to możliwe, a zarazem efektywne rozwiązanie.


Paulina Mizerska

W tej samej kategorii