Lehrerkonferenzen1siehe § 68 SchulG NRW zählen zu den schulischen Mitwirkungsgremien und müssen als solche gem. § 63 SchulG NRW Niederschriften über ihre Sitzungen anfertigen.
“Über jede Sitzung ist eine Niederschrift zu fertigen, die mindestens den Wortlaut der Beschlüsse und die Stimmenmehrheit enthält, mit der sie gefasst sind.“
KI-Plattformen können schon seit einiger Zeit Audioaufnahmen transkribieren und den dabei entstehenden Text verarbeiten. Warum sollte man dann das ungeliebte Protokollieren von langen Lehrerkonferenzen nicht einfach an eine KI auszulagern?
Die Idee erscheint auf den ersten Blick naheliegend. Gleichzeitig wirft sie eine Reihe rechtlicher Fragen auf. Dazu gehören insbesondere die Zulässigkeit von Audioaufnahmen schulischer Konferenzen, die Verarbeitung personenbezogener Daten durch KI-Systeme, die Vertraulichkeit von Beratungen sowie die Frage, welche technischen Lösungen überhaupt eingesetzt werden dürfen.
Anfragen in dieser Art erreichten den Verfasser des Beitrags bereits mehrfach. Entsprechend überrascht es nicht, dass diese Idee auch schon über das im November 2025 eingerichtete Portal Bürokratieabbau für Schulen herangetragen wurde. Unter den von den Fachabteilungen gesichteten Vorschlägen schaffte es einer, Transkription von Konferenzen (Wisper OpenAI), in die finale Auswahl von 300 Vorschlägen. Der Vorschlag lautet:
“Zur Transkription z. B. von Konferenzen sollte eine datenschutzkonforme KI-Lösung zur automatischen Protokollerstellung bereitgestellt werden (z. B. vergleichbar zu Wisper/OpenAI).”
Die Antwort auf der Portalseite lautet:
“Die Möglichkeiten zur Unterstützung von Schulen bei der Erstellung von Protokollen werden aktuell geprüft. Dies umfasst auch den Einsatz von KI. Dabei werden nicht nur rein technische Aspekte, sondern auch der Datenschutz und der Schutzbedarf einbezogen. Nicht jedes verfügbare System wird für jede Art von Konferenz geeignet sein. Vor einem Abschluss der Prüfung können keine Empfehlungen zu konkreten Produkten gemacht werden.
Eine flächendeckende Umsetzung durch die Schulträger in absehbarer Zeit ist angesichts der vielfältigen digitalen Herausforderungen, denen sich die Kommunen stellen müssen, unrealistisch.”
Der Vorschlag ging über Lehrerkonferenzen hinaus. Das Ministerium sagt eine Prüfung des Vorschlags zu, gibt aber gleichzeitig zu bedenken, dass neben den technischen auch rechtliche Aspekte zu berücksichtigen sind und die Art des genutzten Systems von der Art der Konferenzen abhängig sein wird. Diesbezüglich möchte man prüfen, um dann konkrete Vorschläge zu geegneten KI-Plattformen machen zu können. Man geht davon aus, dass von Seiten der Schulträger nicht zu erwarten ist, dass diese flächendeckend entsprechende Anwendungen bereitstellen werden.
Warum nicht einfach AIS.chat nutzen?
Diese Aussage wurde vor dem Hintergrund abgegeben, dass in diesem Zeitraum auch die Landeslösung AIS.chat (ehemals telli) ausgerollt wurde, bzw. dass die Ausrollung bevorstand. AIS.chat kommt für die Transkription und Verarbeitung von Audioaufnahmen von Konferenz aus verschiedenen Gründen nicht in Frage. Die KI-Landes-Lösung ist eine pädagogische Plattform, in welcher die Verarbeitung von personenbezogenen Daten zumindest aktuell nicht zulässig ist. Außerdem verfügt die Plattform bisher über keine Funktion zur Transkription von Audio.
Datenschutzrechtliche Einordnung
Um eine Einordnung vorzunehmen, ist zunächst zu klären, um welche Kategorien von Personen und personenbezogenen Daten es bei den wichtigsten schulischen Konferenzen überhaupt geht. Die Bedeutung dieser Unterscheidung liegt darin, dass sich je nach Konferenzart sowohl der Kreis der Betroffenen als auch die Sensibilität der verarbeiteten Daten erheblich unterscheiden können.
Um welche Kategorien von Personen geht es eigentlich bei diesem Thema?
Die Kategorien von Personen, welche von der Transkription einer Konferenz betroffen sein können, hängt maßgeblich von der Art der Konferenz ab.
Bei Lehrerkonferenzen geht es in der Regel um die Lehrkräfte selbst, Lehramtsanwärter, Lehrkräfte in Ausbildung, die Schulleitung und je nach Schule um weitere schulische Mitarbeiter wie Schulsozialpädagogen. Mitunter nehmen auch Praktikantinnen und Praktikanten an Lehrerkonferenzen teil. Alle genannten Personen treten als Teilnehmer mit möglichen Redebeiträgen auf und können auch selbst Gegenstand von Beiträgen sein.
Bei Klassenkonferenzen sind Lehrkräfte und Schüler betroffen und je nach Situation Mitglieder der Schulleitung. Außerdem gehören zu den Mitgliedern einer Klassenkonferenz der oder die Vorsitzende der Klassenpflegschaft sowie in Abhängigkeit von der Schulstufe die Klassensprecherin oder der Klassensprecher sowie deren Stellvertretungen.
Bei Teilkonferenzen Ordnungsmaßnahmen geht es um Lehrkräfte, Schüler, Eltern, Mitglieder der Schulleitung und gegebenenfalls auch Schulsozialpädagogen.
Welche Kategorien von Daten wären betroffen von einer Transkription?
In einer Lehrerkonferenz sind – sofern es um personenbezogene Daten geht – in der Regel vor allem organisatorische Daten betroffen, um Aufgaben von Lehrkräften oder um Berichte über Tätigkeiten. Es können dabei aber auch Gesundheitsdaten betroffen sein, etwa wenn dem Kollegium mitgeteilt wird, dass eine Lehrkraft für längere Zeit krankheitsbedingt ausfällt. In Lehrerkonferenzen wird oft auch zu Geburtstagen und Jubiläen gratuliert oder zur Geburt von Kindern. Es werden außerdem Wahlen durchgeführt. Daneben werden Themen, welche die Schule betreffen, diskutiert, wobei auch sehr persönliche Meinungen geäußert werden können.
Bei Klassenkonferenzen geht es um Noten, Versetzungen, Rückstufungen, Beschlüsse über den Förderstatus, soziales Verhalten, Regelverstöße, die körperliche und psychische Gesundheit, die Familiensituation und mehr.
Während bei Lehrerkonferenzen gelegentlich auch die sogenannten besondere Kategorien von Daten gem. Art. 9 DS-GVO Gegenstand sein können, ist diese Kategorie von Daten in Klassenkonferenzen sehr häufig vertreten. Bei Teilkonferenzen Ordnungsmaßnahmen sind sie die Regel.
Gibt es eine Rechtsgrundlage für die Aufnahme von Redebeiträgen in Konferenzen?
Die überwiegende Mehrzahl der Verarbeitungen von personenbezogenen Daten zur Erfüllung des Bildungs- und Erziehungsauftrags stützt sich in der Schule auf die sogenannten Generalklauseln § 120 Abs. 1 Satz 1 und § 121 Abs. 1 Satz 1 des Schulgesetzes NRW. Hierauf könnte man grundsätzlich auch die Aufzeichnung von Redebeiträgen in Konferenzen stützen, wenn der Gesetzgeber mit § 120 Abs. 6 und § 121 Abs. 1 Satz 3 SchulG NRW für Bild- und Tonaufzeichnungen nicht spezielle Regelungen geschaffen hätte.
“Bild- und Tonaufzeichnungen des Unterrichts oder sonstiger verbindlicher Schulveranstaltungen bedürfen der Einwilligung der betroffenen Personen. Die Einwilligung muss freiwillig erteilt werden. Den betroffenen Personen dürfen keine Nachteile entstehen, wenn sie eine Einwilligung nicht erteilen.”
“Bild- und Tonaufzeichnungen des Unterrichts oder sonstiger verbindlicher Schulveranstaltungen bedürfen der Einwilligung der betroffenen Personen.“
Bild- und Tonaufnahmen werden dabei ausdrücklich von der freiwilligen Einwilligung der betroffenen Personen abhängig gemacht. Gerade bei verbindlichen schulischen Konferenzen stellt sich damit die Frage, ob eine solche Freiwilligkeit in jedem Fall tatsächlich gegeben ist.
Zwar enthält das Schulgesetz NRW mit § 120 Abs. 5 Satz 2 bzw. § 121 Abs. 1 Satz 2 eine spezielle Regelung zur Verarbeitung von Bild- und Tondaten im Rahmen von Videokonferenzsystemen, doch diese Vorschrift dient der Durchführung digitaler Besprechungen und der Übertragung von Bild- und Tonsignalen. Eine Rechtsgrundlage für die dauerhafte Aufzeichnung von Redebeiträgen oder deren anschließende Transkription lässt sich daraus nicht ableiten.
Die Einwilligung als Alternative?
Tonaufzeichnungen von verpflichtenden schulischen Veranstaltungen wie Konferenzen setzen nach § 120 Abs. 6 bzw. § 121 Abs. 1 Satz 3 SchulG NRW eine Einwilligung der betroffenen Personen voraus, die freiwillig erteilt werden muss.
Bei verpflichtenden schulischen Veranstaltungen wird die Freiwilligkeit einer Einwilligung allerdings häufig kritisch gesehen. Aufsichtsbehörden weisen regelmäßig darauf hin, dass in Situationen mit Abhängigkeitsverhältnissen oder faktischem Gruppendruck Zweifel an einer tatsächlich freien Entscheidung bestehen können.
Gleichwohl erscheint es nicht ausgeschlossen, dass alle Teilnehmenden einer Konferenz freiwillig in eine Aufzeichnung einwilligen möchten, etwa weil sie sich hiervon eine erhebliche Arbeitserleichterung bei der Erstellung von Protokollen versprechen. Denkbar wäre beispielsweise eine anonyme Vorab-Abfrage, bei der keine Rückschlüsse auf einzelne Personen möglich sind, die eine Einwilligung nicht erteilen möchten.
Selbst wenn sich auf diesem Weg eine einheitliche Zustimmung aller Beteiligten ergeben sollte, bliebe im Einzelfall zu prüfen, ob die Voraussetzungen einer freiwilligen Einwilligung tatsächlich erfüllt sind.
Voraussetzung wäre darüber hinaus, dass alle Betroffenen vorab umfassend informiert werden. Hierzu gehört insbesondere die Information, dass sämtliche durch das Mikrofon erfassten Äußerungen aufgezeichnet werden können und dass diese Daten anschließend durch eine konkret benannte KI-Plattform transkribiert und weiterverarbeitet werden.
Datenminimierung und Zweckbindung
Gemäß § 63 Abs. 4 Satz 4 SchulG NRW gilt für Protokolle von Konferenzen:
“Über jede Sitzung ist eine Niederschrift zu fertigen, die mindestens den Wortlaut der Beschlüsse und die Stimmenmehrheit enthält, mit der sie gefasst sind.“
Mit dieser Vorgabe beschreibt das Schulgesetz den Kerninhalt einer Niederschrift. Weitere Inhalte sind damit nicht grundsätzlich ausgeschlossen, etwa die Wiedergabe einzelner Wortmeldungen, um den Weg zu einer Entscheidung nachvollziehbar zu dokumentieren.
Eine vollständige Audioaufzeichnung einer Konferenz geht jedoch deutlich über das hinaus, was typischerweise Gegenstand einer Niederschrift ist. Sie erfasst sämtliche Wortbeiträge, spontane Äußerungen, Nebensätze, Meinungen und Zwischenrufe. Je nach Empfindlichkeit des Mikrofons können darüber hinaus auch Gespräche zwischen einzelnen Teilnehmern aufgezeichnet werden, die nicht an die Konferenz gerichtet sind und keinen Bezug zu den Beratungsgegenständen haben.
Damit werden regelmäßig deutlich mehr personenbezogene Daten verarbeitet, als für die Erstellung einer Niederschrift erforderlich sind. Dies wirft insbesondere Fragen im Hinblick auf die Grundsätze der Datenminimierung und Zweckbindung gemäß Art. 5 Abs. 1 lit. b und c DS-GVO auf.
Besondere Kategorien personenbezogener Daten
Je nach Art der Konferenz können dort auch Informationen Gegenstand der Beratung sein, die zu den besonderen Kategorien personenbezogener Daten gemäß Art. 9 DS-GVO zählen. Hierzu gehören insbesondere Gesundheitsdaten, aber auch andere Daten, deren Verarbeitung nach der DS-GVO einem besonderen Schutz unterliegt.
Gerade in Klassenkonferenzen oder Teilkonferenzen für Ordnungsmaßnahmen kann es erforderlich sein, sehr sensible Informationen zu besprechen, um eine sachgerechte Entscheidung treffen zu können. Dazu können beispielsweise Angaben zum körperlichen oder psychischen Gesundheitszustand, zu sonderpädagogischen Unterstützungsbedarfen oder zu familiären Belastungssituationen gehören.
Während solche Informationen regelmäßig nur insoweit in einer Niederschrift erscheinen, wie dies für die Dokumentation eines Beschlusses erforderlich ist, würde eine Audioaufzeichnung mit anschließender Transkription sämtliche diesbezüglichen Äußerungen erfassen und verarbeiten. Dies erhöht den Umfang der Verarbeitung erheblich und betrifft zugleich Daten, für die die DS-GVO einen besonderen Schutz vorsieht.
Wenn es um Kinder und Jugendliche geht
Bei Konferenzen, in denen Schülerinnen und Schüler Gegenstand der Beratungen sind, kommt ein weiterer Aspekt hinzu. Die DS-GVO misst personenbezogenen Daten von Kindern und Jugendlichen einen besonderen Schutz bei.2Siehe z.B. Erwägungsgrund 38
Gerade in Klassenkonferenzen und Teilkonferenzen für Ordnungsmaßnahmen werden häufig sehr persönliche Informationen über Schülerinnen und Schüler besprochen, die für die Entscheidungsfindung erforderlich sein können, aber regelmäßig nicht vollständig in einer Niederschrift dokumentiert werden. Eine Audioaufzeichnung mit anschließender Transkription würde hingegen sämtliche diesbezüglichen Äußerungen erfassen und verarbeiten.
Eine Frage der Technologie?
KI-Transkriptionen lassen sich auf verschiedenen Wegen erstellen. Der wohl praktikabelste Weg wäre eine Aufzeichnung der Konferenz durch ein spezialisiertes zentral positioniertes Raum-Mikrofon, welches in der Lage ist, die Beiträge aller Teilnehmer sauber zu erfassen. Anschließend würde die Aufzeichnung beispielsweise in Form einer MP3 Datei an die KI zur Audiotranskription übergeben.
Es kommen nun zwei Optionen bezüglich der Auswahl einer geeigneten KI-Anwendung in Frage, eine Online-Lösung oder eine lokale Lösung.
Online-Lösungen
Eine speziell für Schulen angebotene Transkriptionslösung finde sich im Tool-Bereich von fobizz. Der Anbieter betont, dass sein Angebot DS-GVO konform nutzbar ist, auch das Tool zur automatischen Spracherkennung (Automatic Speech Recognition, ASR). Gleichzeitig untersagt die Nutzungsordnung der Plattform die Verwendung personenbezogener Daten, setzt Sicherheitsfilter ein und weist Nutzer an verschiedenen Stellen auf diesen Umstand hin. Beim Transkriptions-Tool heißt es:
- Teile niemals sensible oder persönliche Informationen mit einer KI-Anwendung
- Verwende keine Inhalte mit persönlichen Daten deiner Schüler*innen
Bereits aus diesem Grund kommt das Transkriptions-Tool von fobizz für die Erstellung von Konferenzprotokollen nicht in Betracht, da es in diesen regelmäßig um die personenbezogene Daten von Lehrkräften, Schülerinnen und Schülern, Eltern oder weiteren Beteiligten geht. Eine Nutzung entgegen den Vorgaben des Anbieters wäre daher ausgeschlossen.
Anders stellt sich die Situation bei allgemeinen KI-Plattformen dar, die die Verarbeitung personenbezogener Daten nicht grundsätzlich ausschließen und entsprechende Funktionen zur Transkription von Audiodateien bereitstellen. Viele dieser Anbieter stammen jedoch aus den USA oder unterliegen als US-Unternehmen amerikanischem Recht. Selbst wenn die Verarbeitung in Rechenzentren innerhalb der EU erfolgt, ergeben sich daraus zusätzliche datenschutzrechtliche Fragestellungen, etwa hinsichtlich möglicher Zugriffe auf Daten durch Behörden außerhalb der Europäischen Union. Der Einsatz solcher Dienste ist daher aus datenschutzrechtlicher Sicht besonders sorgfältig zu prüfen.
Aber es gibt auch andere Lösungen, etwa Anbieter direkt aus der EU wie das französische Mistral oder in der EU betriebene Open Source KI-Anwendungen. Das von OpenAI, dem US-Konzern hinter ChatGPT, entwickelte Whisper AI ist das bekannteste Beispiel für eine Open Source Lösung zur Transkription von Audio Dateien. Das Modell kann von unterschiedlichen Anbietern betrieben und entsprechend auch von einem Anbieter innerhalb der Europäischen Union bereitgestellt werden. Eine datenschutzkonforme Nutzung einer solchen Lösung wäre grundsätzlich denkbar, wenn der jeweilige Anbieter beziehungsweise Betreiber auch die weiteren Anforderungen der DS-GVO erfüllt. Hierzu gehören insbesondere ein Vertrag zur Auftragsverarbeitung, geeignete technische und organisatorische Maßnahmen sowie die vertragliche Zusicherung, dass die verarbeiteten Inhalte nicht zum Training von KI-Modellen verwendet werden.
Lokale Lösungen
Aus datenschutzrechtlicher Sicht besonders interessant sind lokale Lösungen, bei denen die Verarbeitung vollständig auf schulischen Endgeräten oder Servern erfolgt. Mit Whisper AI und vergleichbaren Modellen3z. B. Parakeet, Breeze ASR, Canary, GigaAM, SenseVoice oder Cohere, die sich auf leistungsfähigen Notebooks und Rechnern betreiben lassen, kann die Verarbeitung von Audiodateien vollständig innerhalb der technischen Infrastruktur der Schule beziehungsweise des Schulträgers erfolgen.
Eine Übermittlung der Audiodateien oder der daraus erzeugten Transkripte an externe KI-Anbieter wäre in diesem Fall nicht erforderlich. Dadurch lassen sich zahlreiche datenschutzrechtliche Risiken vermeiden, die mit cloudbasierten Lösungen verbunden sind.
KI-Transkription
Erfolgt die Erstellung eines Protokolls auf dem beschriebenen Weg, hängt dessen Qualität im Wesentlichen von zwei Faktoren ab. Der erste Faktor ist die Qualität der Audioaufzeichnung und die Fähigkeit des eingesetzten KI-Modells, die gesprochenen Inhalte korrekt zu transkribieren.
Anders als ein menschlicher Protokollführer kann ein KI-Modell nicht nachfragen, wenn es einen Redebeitrag akustisch nicht eindeutig versteht. Stattdessen versucht es, unklare oder nur teilweise erkannte Wörter anhand des sprachlichen Kontextes zu rekonstruieren. Liefert eine Aufnahme aufgrund von geringer Lautstärke, undeutlicher Aussprache, hoher Sprechgeschwindigkeit oder Hintergrundgeräuschen kein eindeutiges Signal, kann dies dazu führen, dass Wörter oder ganze Aussagen fehlerhaft transkribiert werden. Je sensibler die Inhalte, desto problematischer werden Transkriptionsfehler. Ein „versetzt“ statt „nicht versetzt“ oder „empfohlen“ statt „nicht empfohlen“ oder ein falscher Name, falscher Förderbedarf oder falsche Abstimmungsergebnisse wären rechtlich problematisch und folgenbehaftet.
Der zweite Faktor ist die Umsetzung der wortgetreuen Transkription in ein Protokoll. Dabei müssen Diskussionsverläufe zusammengefasst, wichtige Beiträge gegebenenfalls auszugsweise wiedergegeben, Anträge korrekt erfasst und Abstimmungsergebnisse dokumentiert werden. Diese Überführung einer Transkription in ein Protokoll muss inhaltlich zutreffend erfolgen. Auch moderne KI-Systeme können dabei Fehler machen, etwa indem sie Aussagen verkürzt wiedergeben, Zusammenhänge missverstehen, Schwerpunkte falsch setzen oder wichtige Einschränkungen übersehen.
Ein weiterer Faktor sollte nicht übersehen werden. KI-Anwendungen können zwar Audio transkribieren, doch nicht alle verfügen über die Fähigkeit zur Sprechertrennung (Speaker Diarization4Speaker Diarization bezeichnet die Aufteilung einer Audiodatei in einzelnen Sprechern zugeordnete Segmente. Die Unterscheidung erfolgt anhand charakteristischer Merkmale der jeweiligen Stimme. Moderne Verfahren nutzen hierfür häufig neuronale Netze und Deep-Learning-Methoden. Siehe Wikipedia). Verfügt eine Anwendung über diese Fähigkeit, kann sie Gesprächsverläufe häufig einzelnen Sprechern zuordnen und damit rekonstruieren, wer wann gesprochen hat. Sie weiß deshalb jedoch noch nicht, welche konkrete Person sich hinter einem Sprecher verbirgt. Redebeiträge, Anträge, Änderungsanträge, vorgebrachte Bedenken und ähnlich können daher nicht ohne Weiteres zuverlässig einer bestimmten Person zugeordnet werden.
Whisper selbst beherrscht keine Speaker Diarization. Die Funktion kann jedoch durch zusätzliche Module ergänzt werden. Um einzelne Sprecher tatsächlich identifizieren zu können, wären darüber hinaus weitere Informationen erforderlich, die dem System von außen bereitgestellt werden müssten.5Siehe z.B. Falcon Speaker Diarization for any ASR, including Whisper. Die Google Cloud Speech-to-Text Plattform beherrscht Speaker Diarization selbst
Zu berücksichtigen ist ferner, dass die Identifizierung einzelner Sprecher zur Verbesserung der Protokollqualität regelmäßig zusätzliche personenbezogene Daten erfordert und damit den Umfang der Verarbeitung sowie die Anforderungen an eine datenschutzkonforme Verarbeitung erweitert. Werden Sprecher anhand ihrer Stimme identifiziert, kann dies zudem eine Verarbeitung biometrischer Daten darstellen.
Einordnung mit Blick auf die KI-Verordnung
Der Schwerpunkt dieses Beitrags lag bislang auf der datenschutzrechtlichen Bewertung der Erstellung von Konferenzprotokollen auf Grundlage von KI-Transkriptionen. Da hierbei ein KI-System zur Verarbeitung von Daten eingesetzt wird, ist ergänzend auch eine Einordnung nach den Vorgaben der KI-Verordnung (KI-VO) erforderlich.
Schulen werden bei der Nutzung einer KI-Anwendung zur Anfertigung von Protokollen aus Transkriptionen von Audiodaten regelmäßig als Betreiber im Sinne der KI-Verordnung anzusehen sein, unabhängig davon, ob es sich um ein durch einen Dienstleister bereitgestelltes System oder um eine lokal betriebene Lösung handelt. Damit treffen sie die für Betreiber vorgesehenen Pflichten der KI-Verordnung. Dazu gehört insbesondere der Aufbau einer ausreichenden KI-Kompetenz hinsichtlich der beabsichtigten Nutzung des Systems. Nutzer müssen verstehen, wie das eingesetzte KI-System funktioniert, welche Grenzen es hat und welche Fehler auftreten können.
Der Einsatz von KI-Systemen muss zudem transparent erfolgen. Die Beteiligten sollten daher darüber informiert werden, dass ihre Redebeiträge nicht nur aufgezeichnet, sondern anschließend auch mittels eines KI-Systems transkribiert und für die Erstellung eines Protokolls verarbeitet werden. Diese Transparenzanforderungen überschneiden sich, soweit sie die Teilnehmer einer Konferenz betreffen, weitgehend mit den Informationspflichten aus Art. 13 DS-GVO gegenüber den von der Verarbeitung betroffenen Personen.
Von besonderer Bedeutung ist darüber hinaus die menschliche Aufsicht über das KI-System. Die Ergebnisse eines KI-Systems dürfen aus den zuvor beschriebenen Gründen nicht ungeprüft übernommen werden. Die Erstellung eines Konferenzprotokolls aus einer KI-gestützten Audiotranskription erfordert daher weiterhin eine sorgfältige menschliche Kontrolle, insbesondere wenn Beschlüsse, Abstimmungsergebnisse oder personenbezogene Aussagen betroffen sind. Verantwortliche müssen in der Lage sein, diese Kontrolle tatsächlich auszuüben und gegebenenfalls nachzuweisen.
Ob für innerhalb der Schule verbreitete Konferenzprotokolle darüber hinaus Kennzeichnungspflichten nach Art. 50 Abs. 4 KI-VO bestehen, erscheint dagegen zweifelhaft und dürfte von den Umständen des Einzelfalls abhängen.
Fazit
Wie die vorangegangenen Betrachtungen hoffentlich zeigen konnten, ist die Frage nach der Zulässigkeit der Erstellung von Konferenzprotokollen mittels KI deutlich komplexer, als es auf den ersten Blick erscheinen mag.
Die datenschutzrechtlichen Herausforderungen beginnen dabei nicht erst bei der Auswahl einer geeigneten KI-Plattform. Bereits die Anfertigung einer Audioaufzeichnung von Konferenzen wirft erhebliche rechtliche Fragen auf. Aktuell besteht im Schulrecht NRW keine ausdrückliche Rechtsgrundlage, die Schulen die Aufzeichnung von Konferenzen zum Zweck der Erstellung von Protokollen erlauben würde. Ein Rückgriff auf Einwilligungen der Konferenzteilnehmer erscheint angesichts der verpflichtenden Teilnahme an Konferenzen zumindest problematisch, da die erforderliche Freiwilligkeit regelmäßig in Frage stehen dürfte.
Hinzu kommt, dass Konferenzen häufig personenbezogene Daten und je nach Konferenzart auch besondere Kategorien personenbezogener Daten im Sinne des Art. 9 DS-GVO zum Gegenstand haben. Eine vollständige Audioaufzeichnung und deren Transkription erfassen regelmäßig deutlich mehr Informationen, als später in einem Protokoll dokumentiert werden müssen.
Auch aus technischer Sicht sind KI-gestützte Transkriptionen nicht fehlerfrei. Die Qualität hängt von der Audioaufnahme, dem eingesetzten Modell sowie gegebenenfalls von zusätzlichen Verfahren zur Sprecheridentifikation ab. Fehler bei der Transkription, der Zuordnung von Redebeiträgen oder der anschließenden Erstellung eines Protokolls können insbesondere bei sensiblen Inhalten erhebliche Folgen haben.
Sollte der Gesetzgeber künftig die rechtlichen Voraussetzungen für eine KI-gestützte Protokollerstellung schaffen, wären darüber hinaus hohe Anforderungen an die eingesetzten Systeme zu stellen. Hierzu gehören insbesondere die Zulässigkeit der Verarbeitung personenbezogener Daten, geeignete vertragliche und technische Schutzmaßnahmen, ein Ausschluss der Nutzung zu Trainingszwecken sowie eine datenschutzkonforme Verarbeitung innerhalb des europäischen Rechtsrahmens.
Unabhängig von der technischen Lösung bleibt festzuhalten, dass eine menschliche Kontrolle der Transkripte und der daraus erstellten Protokolle unverzichtbar ist.
Weiterlesen
Mit einem vergleichbaren Thema hat sich übrigens die Aufsichtsbehörde Baden Württemberg befasst. In der Schrift “Datenschutz-Leitfaden für KI-Transkription von Gemeinderatssitzungen in Baden-Württemberg” schaut man wie in diesem Beitrag auf die verschiedenen datenschutzrechtlichen Aspekte. Man kommt dort zu dem Schluss, dass die Sprecherunterscheidung („Diarization“) keine Verarbeitung biometrischer Daten im Sinne von Art. 9 DS-GVO darstellt, solange dieses ausschließlich temporär innerhalb der Sitzung erfolgt, ohne dauerhafte Profilbildung und ohne Zuordnung zu konkreten Personen.
Zum Einsatz von KI-Transkriptionssystemen bei Gemeinderatssitzungen kommt der Leitfaden zu dem Schluss:
“Der Einsatz von KI-Transkriptionssystemen zur Fertigung der Niederschrift in Gemeinderatssitzungen ist unter klaren rechtlichen und technischen Rahmenbedingungen zulässig:
- unter strikter Beachtung der Rollen der Beteiligten und
- bei konsequenter technischer Absicherung.
Die zentrale Voraussetzung ist eine normative Verankerung im Ortsrecht sowie eine risikoadäquate Umsetzung.”
Viele der in der Schrift dargestellten datenschutzrechtlichen Überlegungen lassen sich auch auf schulische Konferenzen übertragen. Zugleich zeigt der Leitfaden, dass für die Zulässigkeit KI-gestützter Protokollierung eine ausdrückliche rechtliche Grundlage von zentraler Bedeutung ist. Gerade an einer solchen Grundlage fehlt es nach der in diesem Beitrag vorgenommenen Betrachtung derzeit im Schulrecht NRW.
Stand 06/2026
