Amazon Web Services (AWS) untersucht derzeit das AI-Suchmaschinen-Startup Perplexity AI wegen möglicher Verstöße gegen die AWS-Regeln. Laut Vorwürfen soll Perplexity Inhalte von Websites gescrapt haben, die solche Handlungen ausdrücklich verboten haben. Das von Bezos Family Fund und Nvidia unterstützte Unternehmen steht unter Verdacht, Inhalte von Websites verwendet zu haben, die das Robots Exclusion Protocol (REP) implementiert haben – eine gängige Praxis in der Web-Governance.
Der Anstoß für die Untersuchung kam durch einen Bericht von Forbes, in dem Perplexity des Diebstahls von Inhalten beschuldigt wurde. Eine Untersuchung von WIRED fand Beweise für Scraping-Missbrauch und Plagiate im Zusammenhang mit Perplexity’s Such-Chatbot. Obwohl der CEO von Perplexity die Bedenken zunächst zurückwies, räumte ein Sprecher ein, dass der Bot gelegentlich robots.txt-Dateien umgehen kann, wenn ein Benutzer eine bestimmte URL eingibt – ein seltenes, aber laut System zulässiges Szenario.
Die Untersuchung hat Bedenken hinsichtlich möglicher Urheberrechtsverletzungen durch KI-Unternehmen wie Perplexity aufgeworfen, die möglicherweise gegen Nutzungsbedingungen und robots.txt-Anweisungen verstoßen. Digital Content Next, ein Branchenverband, äußerte Bedenken über das Potenzial für Urheberrechtsverletzungen und forderte Wachsamkeit bei der Bekämpfung unlauterer Praktiken in der KI-Branche.
Die Nutzung von Web-Scraping durch KI-Unternehmen ist ein kontroverses Thema, da sie oft in einer rechtlichen Grauzone operieren. Während einige argumentieren, dass das Scraping öffentlich zugänglicher Daten fair use ist, sehen andere darin einen klaren Verstoß gegen das Urheberrecht und die Nutzungsbedingungen der Websites. Die Praxis des Web-Scrapings ist weit verbreitet, insbesondere bei KI-Unternehmen, die große Datenmengen benötigen, um ihre Modelle zu trainieren.
Die Untersuchung von AWS wirft ein Schlaglicht auf die Notwendigkeit einer klareren Regulierung und Durchsetzung in diesem Bereich. Während KI-Unternehmen oft Innovationen vorantreiben, ist es wichtig sicherzustellen, dass sie dies nicht auf Kosten der Rechte anderer tun. Die Einhaltung von robots.txt-Anweisungen und Nutzungsbedingungen sollte für alle Unternehmen, die im Web operieren, selbstverständlich sein.
Es bleibt abzuwarten, wie AWS mit Perplexity verfahren wird und ob die Untersuchung zu einer weiteren Klärung der Regeln für Web-Scraping durch KI-Unternehmen führen wird. Klar ist jedoch, dass dieses Thema in Zukunft weiter an Bedeutung gewinnen wird, da immer mehr Unternehmen auf KI setzen. Eine ausgewogene Regulierung, die sowohl Innovationen fördert als auch die Rechte der Urheber schützt, wird entscheidend sein, um ein faires und nachhaltiges KI-Ökosystem zu schaffen.