Modul 2: Kreative Anwendungen von KI

Kreativität mit Künstlicher Intelligenz?

Neue Möglichkeiten mit Technologie

Lernziele

Unsere Ziele basieren auf dem Prinzip des "Deeper Learning". Wir konzentrieren uns dabei auf drei Kernbereiche: Wissen, Handeln und Engagieren. Durch die sorgfältige Integration dieser Schwerpunkte bieten wir eine ganzheitliche, interaktive und inspirierende Lernumgebung, die Ihr Lernen vertieft und Ihr Engagement fördert.

Das Ziel dieses Moduls ist es, die kreativen Möglichkeiten von KI zu entdecken und durch intensive eigene praktische Anwendung, ein Gefühl dafür zu bekommen, wie eine generative KI funktioniert und wie man sie für sich und seinen Arbeitskontext zielführend nutzen kann.

Wissen:

In diesem Modul werden Generative Modelle zur Text- und Bilderstellung mit KI vorgestellt.

Handeln:

Wir zeigen Anwendungsmöglichkeiten, mit denen Sie ins praktische, gezielte Anwenden von generativer KI gelangen.

Engagieren:

Wir ermutigen Sie, Ihr Wissen zu teilen und mit anderen in den Austausch zu gehen. Diskutieren Sie die Möglichkeiten und ethischen Zweifelsfälle. Im gegenseitigen Austausch lernen wir, unsere eigene Meinung zu bilden und uns zu positionieren.

Interview

In diesem Video sprechen wir mit Aljoscha Burchardt vom DFKI über Anwendungsfälle von generativen KI-Modellen, sprachbasierte KI und lippensynchrones Dolmetschen. Wir diskutieren, wie KI uns entlasten kann und neue Möglichkeiten eröffnet und welche Rolle der Mensch in einer zunehmend technologisierten Welt spielt.

Aktivierung erforderlich

Durch das Klicken auf dieses Video werden in Zukunft Youtube-Videos auf www.it-fitness.de eingeblendet. Wir möchten Sie darauf hinweisen, dass nach der Aktivierung Daten an Youtube übermittelt werden.

Einführung in Generative Modelle für Text und Bilder

Generative Künstliche Intelligenz (KI) bezieht sich auf Systeme, die in der Lage sind, Inhalte zu erstellen. Die Generierung kann dabei in vielen verschiedenen Formen auftreten, einschließlich Text, Bilder, Musik oder sogar Videos.

Gute Beispiele für generative KI sind Chatbots, die menschenähnliche Konversationen führen können. Sie generieren ihre Antworten basierend auf den Eingaben, die sie vom Benutzer erhalten. Andere Beispiele sind KI-Systeme, die neue Musik komponieren oder Bilder malen können, die von Werken aus menschlicher Hand kaum zu unterscheiden sind.

Die grundlegende Idee hinter generativer KI ist, dass sie Daten nicht nur analysiert und interpretiert, sondern auch dazu verwendet, etwas Neues zu schaffen. Sie tut dies durch das Lernen aus großen Mengen an Daten - sie lernt zum Beispiel, wie menschliche Sprache funktioniert, indem sie Millionen von Texten analysiert, und dann eigene, neue Texte erstellen kann, die in derselben Sprache verfasst sind.

Funktionsweise Generativer Modelle

Eine untrainierte KI ist zunächst wie ein Neugeborenes, das noch Vieles lernen wird. Wie bringt man einer KI etwas bei? Es würde naheliegen, dass Computer so lernen, wie etwa auch Computerprogramme geschrieben werden. Üblicherweise werden sämtliche Programme von Menschen in mühevoller Kleinarbeit geschrieben. Es erfordert viel Erfahrung und Arbeit, den Computer genau das machen zu lassen, was wir vorgeben.

Soll eine KI z.B. lernen, Bilder von Katzen und Hunden zu unterscheiden, besteht der klassische Ansatz darin, ein Programm zu schreiben, das jedes Detail beschreibt. Dieser hat sich jedoch als nicht erfolgreich erwiesen. Stattdessen gab es die Idee, einen Computer ähnlich wie Menschen lernen zu lassen.

Kinder lernen den Unterschied zwischen Hund und Katze, indem ihnen Beispiele gezeigt und korrekt benannt werden. Sie imitieren das Verhalten ihrer Bezugspersonen und versuchen auch, Hunde und Katzen richtig zu benennen, was anfangs nicht immer gelingt. Die Bezugspersonen bewerten und korrigieren die Antworten der Kinder, wenn sie falsch liegen. Auf diese Weise verbessern die Kinder kontinuierlich ihre Fähigkeit, die beiden Arten auseinanderzuhalten, bis sie genauso erfolgreich sind wie ihr Umfeld.

Wie lernt KI, Bilder zu unterscheiden?

Bei KI läuft es sehr ähnlich ab. Der KI werden Bilder gezeigt. Jedes Bild hat ein "Label", also eine recht grobe Beschreibung, was auf dem Bild zu sehen ist. Also in dem Fall tragen die Bilder die Label "Hund" oder "Katze". Der KI werden erst sehr viele Bilder mit den passenden Labeln gezeigt. Dafür sind üblicherweise mehrere hundert Bilder pro Kategorie nötig, es können aber auch tausende oder viele Millionen sein.

Im nächsten Schritt werden der KI wieder Bilder aus den unterschiedlichen Kategorien gezeigt, diesmal lässt man aber das Label weg. Die KI soll nun selbständig alle Bilder unterscheiden können. Das wird ihr, ähnlich wie bei einem Menschen nicht sofort gelingen. Sie hat bei der Überprüfung bei vielleicht 51 % richtig gelegen (50 % wäre einfach nur Raten).

Dann lässt man die KI einfach noch einmal weiter trainieren mit den gelabelten Bildern und vergleicht in einem Test anschließend, wie gut sie jetzt die Bilder erkennen kann. Sollte sie dabei besser geworden sein (zum Beispiel 52 %), dann macht man an dieser Stelle mit dem nächsten Trainingsschritt weiter. Sollte die KI aber schlechter abschneiden als bei dem vorherigen Schritt, dann verwirft man das Gelernte und versucht es noch einmal von dem vorhergehenden Schritt. Das Training wird nun so lange weitergeführt, bis man mit der Erkennungsrate zufrieden ist.

Anwendung von language-based KI-Modellen zur Textgenerierung

Aus dem vorhergehenden Beispiel haben wir uns angeschaut, wie eine KI lernen kann, Bilder zu unterscheiden. Wie funktioniert das Lernen bei der Textgenerierung?

Textgenerierung

Wie lernt KI Texte zu generieren? Im Prinzip recht ähnlich wie bei Bildern. Alle großen Sprach-KIs, wie zum Beispiel ChatGPT, haben einmal klein angefangen. Zunächst hatte die KI die Aufgabe Lückentexte mit Wörtern aus einem Wörterbuch passend auszufüllen. Anfangs haben Menschen, später auch andere KIs die Texte auf ihre Qualität hin bewertet. Nachdem die KI diese Aufgabe gemeistert hatte, sollte die KI unvollständige Texte fertig schreiben. Es fehlte bei diesen Texten die zweite Hälfte. Diese Aufgabe war schon deutlich schwieriger, weil die KI jetzt deutlich mehr Kontextbezug haben musste und auch das Sprachbild musste zum vorherigen Text passen.

Erst deutlich später bekam die KI die Aufgabe auf Fragen passend zu antworten, so wie wir es heute erleben, wenn wir mit großen Sprach-KIs chatten. Bis heute versucht die KI, genau wie am Anfang auch, die passenden Antworten auf unsere Fragen zu finden. Und genau wie am Anfang kommt es bei ihr nicht so sehr darauf an, dass sie auch tatsächlich inhaltlich richtige Antworten gibt. Es kommt ihr darauf an, dass die Antwort von Sprachstil und vom Thema her passend auf die Frage ist. Das ist sehr wichtig zu verstehen, wenn die KI zur Recherche von Informationen genutzt wird. Es ist weiterhin immer noch wichtig, die Antworten der KI zu bewerten, ob sie richtig oder falsch sind. Die KI hat bis heute keine Fähigkeit, ihre Antworten selbst nach ihrem Wahrheitsgehalt zu bewerten, das ist immer noch die Aufgabe der Menschen.

Im Bereich der KI spricht man vom NLP (natural language processing), was zu deutsch für Natürliche Sprachverarbeitung steht. Die großen Sprach-KIs sind alles Beispiele dieser KI. Sie sind also in der Lage auf natürliche Sprache zu reagieren. Wenn man also mit ihr schreiben möchte, dann ist das in der Form möglich, in der wir auch mit einem Menschen chatten würden.

Was ist ein Prompt?

Der Begriff "Prompt" (dt. Aufforderung) ist dabei von großer Bedeutung. Mit dem Prompt geben wir der KI eine Anweisung, was sie für uns tun soll. Das ist üblicherweise eine Antwort, wenn wir mit einer Sprach-KI schreiben. Bei einer Bild-KI ist die Antwort auf einen Prompt ein Bild, bei einer KI die mein Smart Home steuert ist die Antwort, dass die KI einen Lichtschalter betätigt oder meinen Geschirrspüler anschaltet. Es kommt also auf die Art der KI an, wie die Antwort aussieht.

Bei einem Prompt für eine Sprach-KI kann ich ähnlich vorgehen, wie bei einem Gespräch mit einem Menschen. Ich kann in meiner Frage erst einmal ein Thema aufmachen. Wenn mir die Antwort noch nicht gefällt, dann kann ich durch Rückfragen die Antwort verbessern. Eine Spezialität von großen Sprach-KIs ist es, mit Sprachstilen herumzuspielen. So ist es sehr gut möglich, dass die KI zum Beispiel im Stil von einem Piraten oder einem coolen Hiphopper antwortet.

Trainingsdaten

Mit welchen Daten wurden die großen Sprachmodelle trainiert?

- Wikipedia
- große amerikanische Zeitungen wie New York Times, Washington Post, Wall Street Journal etc.
- das Gutenberg-Projekt mit etwa 70000 Büchern (mit etwa 10000 deutschsprachigen Büchern)
- mehrere Programmiersprachen
- öffentlich zugängliche Bedienungsanleitungen
- Informationen zu Internetphänomenen (Memes, Virale Texte/ Videos/ Bilder, Witze, etc.)
- die KI wurde anschließend mit menschlicher Interaktion weiter trainiert

KI ist sehr geduldig und führt jeden Befehl so oft wie gewünscht aus. Solange es ethisch zu vertreten ist, wird sie sich immer um eine gute Antwort bemühen. Versuchen Sie doch einmal eine Bewerbung auf die Stelle „Präsident*in der Vereinigten Staaten“ von einer Sprach-KI schreiben zu lassen.

Erkunden Sie die Möglichkeiten von Sprach-KI mit einer Text-generierenden KI von OpenAI.

Erkundung bildgenerierender KI-Technologien und praktisches Experimentieren

Wir hatten uns ganz grundlegend angeschaut, wie Bild-KI trainiert werden kann, nämlich ähnlich wie auch wir Menschen lernen, die Dinge in unserer Umwelt zu unterscheiden. Jemand zeigt uns Objekte aus unserem Umfeld und benennt sie richtig. Wir versuchen anschließend die Objekte ebenfalls zu benennen. Aus dem Feedback lernen wir.

Die Benennung von Objekten nennt man bei KI "Label". Bei Bildern sind die Label in den meisten Fällen in den sogenannten Metadaten der Bilder zu finden. Metadaten bei Bildern sind Informationen, die wir nicht sofort sehen können. Sie werden aber benutzt, um weitere Informationen zu den Bildern zu bekommen. Beispiele für Metadaten sind, wie groß ist das Bild ist, in welchem Format wurde es abgespeichert, wer hat es erstellt, die GPS-Koordinaten, das Kameramodell und Angaben zur Belichtung. In vielen Fällen wurden die Fotos auch "verschlagwortet". Ein Mensch hat also eine textliche Beschreibung für dieses Bild erstellt.

Fallstudien

Ein Beispiel für eine solche Verschlagwortung: In der Bilddatenbank Shutterstock haben wir nach Bildern von Hunden gesucht und u.a. dieses gefunden.

Verschlagwortung

Über die Metainformationen lassen sich Schlagworte anzeigen. Für dieses Bild lauten sie:
country,activity,beauty,young,happy,welsh springer,inside,eyes,welsh springer spaniel,welsh,spring,spaniel,white,flapping,dog jumping,springer,dog portrait,spaniel standing,smiling,laying,nature,purebred,one,showdog,dog in flowers,spaniel running,active,canine,hairy,ears,comfy,puppy,healthy,spots,animal,looking,playing,dog,colorful,adorable

Diese lange Aufzählung von beobachtbaren Dingen auf dem Bild nennt man Label, die für das Training der KI verwendet wurden. Anhand solcher Schlagworte können wir auch sehen, wie wir mit der Bild-KI interagieren können und wie wir einen Prompt gestalten können, um ein Bild im selben Stil zu erhalten.

Das Bild wird keine exakte Kopie, sondern ein Resultat der textlichen Beschreibung sein, was auf dem Bild zu sehen war. Die KI interpretiert diesen Text neu und generiert ein Bild daraus. Probieren Sie selbst ebenfalls Bilder zu erstellen, z.B. mit Clipdrop.

Expert:innen-Tipp

Nutzen Sie eine Sprach-KI, um geeignete englischsprachige Schlagworte zu erstellen. Beschreiben Sie dabei kurz, was auf dem Bild dargestellt sein soll. Fordern Sie die KI auf, eine Bildbeschreibung dafür zu generieren. Lassen Sie sich nur die Schlagworte zurückgeben und lassen Sie sie anschließend ins Englische übersetzen. Die Schlagwortliste übergeben Sie als Prompt einer Bild-KI

Diskussionsfragen

Um sich über dieses Lernmodul hinaus mit dem Thema auseinander zu setzen, können Sie anhand der folgenden Fragen ein paar Inspirationen für Recherchen oder Gespräche finden:

Grenzen der Kreativität von KI: Kann eine KI wirklich kreativ sein, oder imitiert sie nur menschliche Kreativität durch das Analysieren großer Datenmengen? Diskutieren Sie, ob Kreativität, die durch KI erzeugt wird, als echte Kreativität angesehen werden kann.

Ethische Aspekte generativer KI: Welche ethischen Fragen werfen generative KI-Modelle auf, insbesondere im Hinblick auf Urheberrecht, Authentizität und die Verantwortung für durch KI erzeugte Inhalte?

Zukunft generativer KI-Technologien: Wie könnte sich die Weiterentwicklung generativer KI auf verschiedene Kunst- und Kreativbereiche auswirken? Welche neuen Möglichkeiten und Herausforderungen könnten entstehen?

Menschliche Rolle in der KI-generierten Kreativität: Welche Rolle spielen menschliche Künstler und Kreative in einer Welt, in der KI Kunstwerke und kreative Inhalte erzeugen kann? Wie verändert sich die Rolle des Menschen in der kreativen Produktion?

Praktische Anwendung generativer KI: Welche praktischen Anwendungen generativer KI können Sie sich in Ihrem beruflichen oder persönlichen Umfeld vorstellen? Diskutieren Sie, wie generative KI Ihre Arbeit oder Ihr Hobby bereichern könnte.

Vertrauen in KI-erzeugte Inhalte: Wie können wir sicherstellen, dass Inhalte, die von KI generiert wurden, vertrauenswürdig und zuverlässig sind? Welche Maßnahmen sind notwendig, um die Glaubwürdigkeit von KI-generierten Informationen zu gewährleisten?

Quiz

Sie haben das Modul absolviert? Perfekt. Dann am besten gleich den kurzen Wissens-Check machen und das digitale Badge als Nachweis für dieses Training abholen.

Weiterführende Schritte

Nach Abschluss dieses Lernmoduls haben Sie kreative Anwendungen von KI kennengelernt. Um das Gelernte in die Praxis umzusetzen, können Sie die folgenden Schritte unternehmen:

Überlegen Sie sich ein kreatives Projekt, bei dem Ihnen KI assistieren kann.

Probieren Sie selbst die Anwendungen aus.

Experimentieren Sie mit dem erlernten Experten-Tipp.

Zur Übersicht aller Module

Ihre Expert:innen und Ansprechpartner:innen

Aljoscha Burchardt

Principal Researcher @ Deutsches Forschungszentrum für Künstliche Intelligenz (DFKI)

Aljoscha Burchardt

Thomas Schmidt

Geschäftsführer

Helliwood media & education

@wapoid