Neuregelung zum Text- und Data-Mining im Urheberrecht

Samuel Becker

Mit der Umsetzung der europäischen Urheberrechtsrichtlinie in deutsches Recht ist im Jahr 2021 eine Regelung in Kraft getreten, die für online veröffentlichte Inhalte von erheblicher Bedeutung sein kann.

Im Mittelpunkt steht dabei § 44b UrhG, der das sogenannte Text- und Data-Mining nicht mehr nur für wissenschaftliche Zwecke, sondern auch für andere, darunter kommerzielle Nutzungen erfasst.

Die Vorschrift erweitert damit den rechtlichen Rahmen für die automatisierte Auswertung digitaler Inhalte und hat Auswirkungen auf den Umgang mit Texten, die auf Webseiten frei zugänglich sind.

Was unter Text- und Data-Mining zu verstehen ist

Text- und Data-Mining bezeichnet die automatisierte Analyse digitaler oder digitalisierter Werke. Ziel solcher Verfahren ist es, aus großen Mengen an Daten Informationen zu gewinnen, etwa über Muster, Zusammenhänge, Entwicklungen oder Auffälligkeiten.

Die neue gesetzliche Regelung stellt klar, dass für diesen Zweck Vervielfältigungen von rechtmäßig zugänglichen Werken zulässig sein können. Das bedeutet, dass Inhalte, die öffentlich erreichbar sind, technisch erfasst und ausgewertet werden dürfen, sofern die gesetzlichen Voraussetzungen erfüllt sind.

Während das deutsche Urheberrecht zuvor vor allem eine Ausnahme für wissenschaftliches Text- und Data-Mining vorsah, wurde mit § 44b UrhG eine zusätzliche Grundlage geschaffen, die auch darüber hinausgehende Nutzungsformen umfasst.

Diese Erweiterung geht auf europäische Vorgaben zurück und soll nach dem gesetzgeberischen Ansatz wirtschaftliche Entwicklungen sowie technische Innovationen fördern.

Bedeutung der neuen Regelung für online verfügbare Inhalte

Trotz der Neuregelung bleiben Texte, Bilder und andere Werke grundsätzlich urheberrechtlich geschützt. Die Vorschrift hebt den Schutz des Werkes nicht auf.

Sie verändert jedoch die Frage, in welchem Umfang öffentlich zugängliche Inhalte automatisiert kopiert und analysiert werden dürfen. Nach § 44b Absatz 2 UrhG sind Vervielfältigungen rechtmäßig zugänglicher Werke zum Zweck des Text- und Data-Minings zulässig. Diese Kopien müssen gelöscht werden, sobald sie für den Analysevorgang nicht mehr erforderlich sind.

Lesen:  Pomeloyou GmbH: Was hinter dem Namen steckt und warum Pakete ankommen

Aus dieser Regelung ergibt sich, dass digitale Inhalte unter bestimmten Umständen als Grundlage für maschinelle Auswertungen verwendet werden dürfen.

In der Diskussion wird daraus teils abgeleitet, dass frei zugängliche Texte nicht nur analysiert, sondern auch zum Training von Sprachmodellen oder anderen Systemen der künstlichen Intelligenz herangezogen werden könnten.

Ebenso wird die Frage aufgeworfen, ob solche Systeme auf Basis der ausgewerteten Inhalte neue, umformulierte Texte erzeugen können, die dann an anderer Stelle veröffentlicht werden.

Text und Data Mining

Rechtliche Unsicherheiten und offene Auslegungsfragen

Die praktische Reichweite des § 44b UrhG ist bislang nicht in allen Punkten abschließend geklärt. Zwar existiert mit der Norm eine ausdrückliche Rechtsgrundlage für Text- und Data-Mining auch außerhalb des wissenschaftlichen Bereichs, doch wie weit diese Erlaubnis im Einzelfall reicht, ist weiterhin Gegenstand juristischer Bewertung.

Insbesondere die Verbindung zwischen Mining-Prozessen, KI-Training und der späteren Erstellung neuer Inhalte wirft Fragen auf, die erst durch Rechtsprechung und Praxis genauer eingeordnet werden dürften.

Unklar ist etwa, in welchem Umfang Ergebnisse automatisierter Auswertungen in kommerzielle Anwendungen einfließen dürfen und wie stark ein neu erzeugter Text noch mit einem ursprünglichen Werk verbunden sein muss, um urheberrechtlich relevant zu sein.

Hinzu kommt, dass maschinell erzeugte Texte nach verbreiteter Auffassung selbst keinen urheberrechtlichen Schutz genießen, weil ihnen kein menschlicher Urheber zugrunde liegt.

Dadurch entsteht ein Spannungsfeld zwischen geschützten Ausgangsinhalten und möglicherweise nicht geschützten, technisch erzeugten Folgeergebnissen.

Der gesetzliche Nutzungsvorbehalt als Schutzinstrument

Die Regelung enthält jedoch zugleich eine Möglichkeit, sich gegen eine solche Nutzung zu positionieren. Nach § 44b Absatz 3 UrhG sind Nutzungen nach Absatz 2 nur dann zulässig, wenn der Rechtsinhaber sich diese nicht vorbehalten hat.

Lesen:  Kosten der Homepageerstellung 2025: Welche Ausgaben wirklich auf Unternehmen zukommen

Für Werke, die online zugänglich sind, ist ein solcher Vorbehalt allerdings nur wirksam, wenn er in maschinenlesbarer Form erfolgt.

Gerade dieser Punkt ist besonders relevant, weil ein bloßer Hinweis in einem Fließtext oder in allgemeinen Nutzungsbedingungen nicht ausreicht. Entscheidend ist vielmehr, dass der Vorbehalt technisch so formuliert wird, dass automatisierte Systeme ihn erkennen können.

Damit wird die Verantwortung teilweise auf die Betreiber von Webseiten verlagert: Ohne einen entsprechend umgesetzten maschinenlesbaren Hinweis kann die Nutzung zum Text- und Data-Mining nach der gesetzlichen Wertung grundsätzlich zulässig sein.

Praktische Umsetzung über die robots.txt

Als naheliegendes technisches Mittel wird in diesem Zusammenhang häufig die robots.txt genannt. Dabei handelt es sich um eine Datei im Stammverzeichnis einer Website, die Crawlern mitteilt, welche Bereiche einer Seite aufgerufen oder nicht aufgerufen werden sollen.

Über entsprechende Einträge kann festgelegt werden, dass bestimmte oder sämtliche automatisierte Zugriffe unterbleiben sollen.

Ein solcher Ansatz kann als maschinenlesbarer Nutzungsvorbehalt verstanden werden, sofern die Anweisungen klar formuliert und technisch korrekt eingebunden sind. Gleichzeitig ist bei dieser Lösung zu berücksichtigen, dass eine vollständige Sperrung aller Crawler auch unerwünschte Nebeneffekte haben kann.

Wird der Zugriff pauschal blockiert, könnten darunter auch Suchmaschinen-Crawler fallen, deren Erfassung für die Sichtbarkeit einer Website in Suchmaschinen wichtig ist. Daher wird oft empfohlen, differenzierte Regeln zu verwenden, bei denen bestimmte Bots weiterhin zugelassen bleiben, während andere ausgeschlossen werden.

Data Mining und Urheberrecht

Technische und strategische Folgen für Website-Betreiber

Die Neuregelung des § 44b UrhG macht deutlich, dass urheberrechtlicher Schutz im digitalen Umfeld zunehmend mit technischen Maßnahmen verbunden ist. Wer Inhalte online veröffentlicht, muss sich nicht nur mit der Frage befassen, ob diese urheberrechtlich geschützt sind, sondern auch damit, wie unerwünschte maschinelle Nutzung technisch eingeschränkt werden kann.

Die rechtliche Ausgangslage verschiebt sich damit in Richtung eines Opt-out-Modells: Nicht die Nutzung muss im Vorfeld erlaubt werden, sondern die Untersagung muss aktiv und technisch erkennbar erklärt werden.

Lesen:  Digital Detox Urlaub – Bewusste Auszeit vom digitalen Alltag

Tipp: Lesen Sie auch mehr Artikel, die Sie auf unserer Startseite finden können.

Für Betreiber von Webseiten ergibt sich daraus die Notwendigkeit, die eigene Konfiguration zu überprüfen. Insbesondere die robots.txt kann eine zentrale Rolle spielen, wenn ein Nutzungsvorbehalt gegenüber bestimmten automatisierten Zugriffen erklärt werden soll.

Entscheidend ist dabei nicht nur der Inhalt der Datei, sondern auch ihre korrekte Platzierung im Hauptverzeichnis und ihre eindeutige Benennung.

Fazit

§ 44b UrhG hat den rechtlichen Rahmen für Text- und Data-Mining in Deutschland deutlich erweitert. Er erlaubt unter bestimmten Voraussetzungen die automatisierte Vervielfältigung und Auswertung rechtmäßig zugänglicher Werke, auch zu kommerziellen Zwecken.

Zwar bleibt der urheberrechtliche Schutz von Inhalten grundsätzlich bestehen, doch die Möglichkeiten zur maschinellen Nutzung öffentlich verfügbarer Texte sind größer geworden als zuvor.

Gleichzeitig enthält die Vorschrift einen Mechanismus, mit dem Rechteinhaber einer solchen Nutzung widersprechen können. Dieser Widerspruch ist jedoch nur wirksam, wenn er bei online zugänglichen Werken in maschinenlesbarer Form erfolgt. In der Praxis wird deshalb der technischen Ausgestaltung, insbesondere über eine robots.txt-Datei, erhebliche Bedeutung zugemessen.

Die Vorschrift verbindet damit urheberrechtliche Fragen unmittelbar mit technischen Schutzmaßnahmen und zeigt, wie eng Recht und digitale Infrastruktur inzwischen miteinander verknüpft sind.

Samuel Becker