A Brief Story of Generative AI

05. Oktober 2023, Dmitry Orlov

Willkommen in unserem Blog, in dem wir erklären, was generative KI ist und wie sie sich von KI, ML und Deep Learning unterscheidet. Sie erleben eine kurze Geschichte und entdecken die besten Tools für die Generierung von Text, Bildern, Videos, Sprache und Musik. Bereiten Sie sich auf eine spannende Reise in diese transformative Technologie vor.

Generative KI Whitepaper

zum Download >

Einführung
Terminologie der Generativen KI
Eine Kurze Geschichte der Generativen KI
Zusammenfassung
Verweise

Einführung

Data — ChatGPT schießt blitzschnell über die Marke von einer Million Nutzer^[1]

Mit der Einführung von ChatGPT erlebt die technologische Branche heute eine revolutionäre Veränderung. Die Akzeptanz dieses generativen KI-Tools ist enorm und übertrifft sogar die von Facebook und Instagram. Diese schnelle Akzeptanz in verschiedenen Anwendungen unterstreicht das revolutionäre Potenzial von ChatGPT. Dies ist jedoch nur die erste Welle. Eine Vielzahl von generativen KI-Lösungen folgt bereits diesem Beispiel. Während Produkte wie DALL·E und Midjourney für ihre Bilderzeugungsfähigkeiten gelobt werden, gibt es auch andere wie Jasper (ein KI-Inhaltsgenerator), Jukebox (eine musikgenerierende KI), Synthesia (KI-gesteuerte Videoerstellung) und StyleGAN (ein Gesichtsbildsynthesizer) haben ebenfalls große Aufmerksamkeit erregt. Da die digitalen Möglichkeiten immer weiter wachsen, wird auch die Palette der KI-Tools vielseitiger. Jede Lösung findet ihre eigene Nische in diesem sich schnell entwickelnden Ökosystem. Laut dem Gartner Hype Cycle ist die generative KI auf einem Pfad, der ihre zunehmende Reife und ihr wachsendes Potenzial verdeutlicht und die Notwendigkeit für Unternehmen betont, ihre Fähigkeiten zu erkennen und zu nutzen.

In der komplexen Welt der Unternehmen, die durch ihre vielschichtigen Geschäftsprozesse und -abläufe gekennzeichnet ist, stößt die schnelle Einführung neuer Technologien jedoch oft auf Zurückhaltung. Obwohl die Branche traditionell eine Hochburg der Innovation ist, zeigt sie angesichts der jüngsten Fortschritte im maschinellen Lernen und in der KI Vorsicht. Beispielsweise unterstreicht eine einschlägige Beobachtung aus einer Umfrage der Europäischen Kommission^[3] diese Stimmung: Während 42% der Unternehmen mindestens eine KI-Technologie nutzen, bleiben ebenso bedeutende 40% davon fern und haben weder eine aktuelle Nutzung noch zukünftige Pläne für die KI-Integration. Diese Zurückhaltung ist häufig auf Hindernisse wie Qualifikationsdefizite, zu hohe Kosten und Bedenken hinsichtlich der Datenqualität zurückzuführen. Innerhalb dieser komplexen Unternehmensumgebungen bleiben drängende Fragen bestehen:

Wie kann generative KI nahtlos in bestehende Abläufe integriert werden?
Wo liegen die konkreten geschäftlichen Vorteile und wie lässt sich die Investitionsrendite quantifizieren?

Terminologie der Generativen KI

Zuerst sollten wir klären, welche Unterschiede zwischen Künstlicher Intelligenz (KI), Maschinellem Lernen (ML), Deep Learning und Generativer KI bestehen und wie sie miteinander in Zusammenhang stehen.

Künstliche Intelligenz (KI) ist das umfassendere Konzept der Entwicklung von Maschinen, die die menschliche Intelligenz imitieren, um verschiedene Aufgaben zu erfüllen.
Maschinelles Lernen (ML) ist ein Bereich der Künstlichen Intelligenz, der sich auf die Fähigkeit von Maschinen konzentriert, aus Daten zu lernen und Entscheidungen zu treffen, ohne explizite Programmierung zu benötigen.
Deep Learning ist eine spezielle Form von ML, die tiefe neuronale Netze verwendet, um komplexe Muster zu verstehen, insbesondere bei Aufgaben wie Bild- und Spracherkennung
Generative KI ist eine Anwendung von Machine Learning, bei der Modelle anhand von gelernten Mustern aus Daten neue Inhalte wie Texte oder Bilder erstellen. Sie wird bei kreativen Aufgaben wie Kunst und Inhaltsgenerierung eingesetzt. Generell kann sie als Untergruppe des Deep Learning betrachtet werden, jedoch nicht immer.

In der nächsten Abbildung wird dargestellt, wie die generative KI in Bezug zu anderen Begriffen der künstlichen Intelligenz steht.

Betrachten wir nun eine genauere Definition der generativen KI.

Generative KI ist ein Teilbereich der künstlichen Intelligenz, der in der Lage ist, Text, Bilder oder andere Medien als Reaktion auf Aufforderungen zu erzeugen. Es fokussiert sich auf die Entwicklung von Algorithmen und Modellen, die Originaldaten generieren können, welche dem von Menschen erstellten Inhalt ähnlich sind. Sie zeichnet sich dadurch aus, dass sie in der Lage ist, auf der Grundlage von Mustern und Informationen, die aus einem bestimmten Datensatz gelernt wurden, neue Ergebnisse zu erzeugen, ohne diese Daten zu duplizieren.

Einer der Durchbrüche bei generativen KI-Modellen ist die Fähigkeit, verschiedene Lernansätze zu nutzen, darunter nicht-überwachtes oder semi-überwachtes Lernen für das Training. Dadurch sind Unternehmen in der Lage, eine große Menge an unmarkierten Daten einfacher und schneller zu nutzen, um grundlegende Modelle zu erstellen.^[5]

Zu den wichtigsten Komponenten und Merkmalen der generativen KI gehören:

Lernen aus Daten: Generative KI-Modelle lernen aus einem großen Datensatz und extrahieren Muster, Beziehungen und Strukturen, die in den Daten vorhanden sind.
Vielfältigkeit und Kreativität: Anstatt bestehende Beispiele zu kopieren, wird versucht, Variationen und neuartige Instanzen zu erzeugen, die die Input-Daten erweitern.
Unimodal oder multimodal: Unimodale Systeme nehmen nur eine Art von Input an, während multimodale Systeme mehr als einen Inputtyp annehmen können (Text, Code, Bilder, Musik, Video usw.).
Bedingte und unbedingte Generierung: Bei der bedingten Generierung wird die Outputs auf der Grundlage bestimmter Input-Bedingungen oder -Einschränkungen erzeugt, z. B. eine Bildunterschrift. Bei der unbedingten Generierung werden Inhalte ohne spezifische Inputs generiert.
Training und Feinabstimmung: Generative KI-Modelle erfordern ein umfangreiches Training auf großen Datenbeständen. Der Trainingsprozess umfasst die Anpassung der Modellparameter, um die Differenz zwischen dem generierten Output und den realen Daten zu minimieren.

Eine Kurze Geschichte der Generativen KI

Die ersten Tage: Wie kam es zur Entstehung der generativen KI?

In den 1950er Jahren wurde die künstliche Intelligenz von der Science-Fiction zur Realität, als wir leistungsfähige elektronische Computer entwickelten. Der Forscher Alan Turing erforschte die mathematischen Grundlagen der KI und vermutete, dass Maschinen wie Menschen Informationen und logisches Denken nutzen könnten, um Probleme zu lösen. Diese Ideen stellte er 1950 in seinem Paper "Computing Machinery and Intelligence" vor, in dem er über intelligente Maschinen sprach und den Turing-Test vorgeschlagen hat. Der Test ging davon aus, dass eine Maschine, die ein Gespräch (über eine Textschnittstelle) führen kann, das von einem Gespräch mit einem Menschen nicht zu unterscheiden ist, als "denkend" angesehen werden kann. Mit diesem vereinfachten Test war es einfacher zu argumentieren, dass eine "denkende Maschine" zumindest plausibel ist.

Eines der ersten Beispiele für künstliche Intelligenz war die Markov-Kette, ein statistisches Modell, mit dem auf der Grundlage von Eingaben neue Datenfolgen erzeugt werden konnten. In den 1950er Jahren waren Computer jedoch nur sehr begrenzt verfügbar und teuer, was die KI-Forschung einschränkte.

In den 1980er Jahren gewannen neuronale Netze für die Datengenerierung an Popularität, wobei Geoffrey Hintons "Boltzmann-Maschinen" einen bemerkenswerten Beitrag leisteten. In diesem Jahrzehnt brach auch der "KI-Winter" an, eine Zeit, in der sich die KI-Forschung und -Entwicklung nach einem Jahrzehnt erheblicher Fortschritte in diesem Bereich deutlich verlangsamte.

Die generative KI entwickelte sich um 2006 zu ihrer heutigen Form, die durch Geoffrey Hintons einflussreiche Paper "A Fast Learning Algorithm for Deep Belief Nets" gekennzeichnet wurde, in dem die 1983 eingeführten Restricted Boltzmann Machines wieder eingeführt wurden.

Danach waren die Fortschritte begrenzt, bis Ian Goodfellow 2014 Generative Adversarial Networks (GANs) vorstellte. In den folgenden Jahren wurden wichtige Fortschritte gemacht, darunter die Einführung der Transformer-Architektur für die Verarbeitung natürlicher Sprache in der Veröffentlichung "Attention is all you Need" von Vaswani und Kollegen bei Google im Jahr 2017.

Die Weiterentwicklungen, wie z. B. Variations-Autocoder und generative adversarische Netzwerke, ermöglichten den Weg zu praktischen tiefen neuronalen Netzen, die in der Lage sind, generative Modelle für komplexe Daten wie Bilder zu lernen. Diese tiefen generativen Modelle waren revolutionär, da sie nicht nur Klassenbezeichnungen, sondern ganze Bilder generieren konnten.

Während die generative KI bis 2022 von der Öffentlichkeit kaum wahrgenommen wurde, gewann sie an Aufmerksamkeit, als die Technologie für Verbraucher verfügbar wurde. Dieser Schritt wurde durch die Einführung verschiedener Text-zu-Bild-Modelle erleichtert, darunter MidJourney, DALL-E 2, Imagen und die Open-Source-Veröffentlichung von Stability AIs Stable Diffusion. Kurz danach stellte OpenAI ChatGPT vor, eine Version von GPT-3, die auf Konversationsdialoge trainiert wurde und die Benutzer mit ihren umfassenden Antworten auf bemerkenswert menschenähnliche Art und Weise fasziniert.^[6]

Meilenstein-Durchbrüche: Die wichtigsten Entwicklungen der letzten Jahre

Hier sind die wichtigsten Meilensteine der Entwicklung der generativen KI in den letzten Jahren:

Der Aufstieg von GPT, DALL-E, Midjourney und anderen Modellen: wie sie die Landschaft verändert haben

Der Bereich der generativen KI hat in den letzten Jahren mit der Einführung revolutionärer Modelle wie GPT (Generative Pre-trained Transformer), DALL-E, Midjourney und vielen anderen einen starken Fortschritt erfahren. Diese Modelle haben beispiellose Fähigkeiten bei der Generierung von Text und Bildern bewiesen und sogar die Lücke zwischen den Modalitäten überbrückt, wodurch eine neue Ära der generativen KI eingeläutet wurde.

GPT

Die GPT-Serie von OpenAI ist zum Synonym für die Generierung natürlicher Sprache geworden. Seit GPT-1 werden diese Modelle auf riesigen Datensätzen trainiert, sodass sie menschenähnlichen Text mit bemerkenswerter Kohärenz und Kontextwissen erzeugen können. Die Veröffentlichung von GPT-3 markierte einen Wendepunkt und zeigte die Fähigkeit, Text in mehreren Sprachen und Bereichen zu verstehen und zu erzeugen. Zu den zahlreichen Anwendungen von GPT-3 gehören Chatbots, Content-Generierung und Sprachübersetzung, die unsere Interaktion mit KI-gestützten Systemen revolutionieren werden.

2018: GPT-1 (117 Millionen Parameter) zeigte die Fähigkeiten der menschenähnlichen Textgenerierung.
2019: GPT-2 (1,5 Milliarden Parameter), die einen kohärenteren und umfangreicheren Text produzieren. Sie war in der Lage, gefährliche Inhalte wie Fake News zu generieren.
2020: GPT-3 (175 Milliarden Parameter) könnte einen Text generieren, der nahezu identisch mit der menschlichen Schreibweise ist.
2022: GPT-3.5 Turbo (ChatGPT) war ein großer Fortschritt bei der Verarbeitung natürlicher Sprache. Es konnte an menschenähnlichen Gesprächen teilnehmen und effektiv auf natürlichsprachliche Anfragen antworten.
2023: GPT-4 (1,8 Billionen Parameter) kann sowohl Text als auch Bilder als Input verarbeiten.
2024: GPT-5 hat das Ziel AGI (Artificial General Intelligence) zu erreichen - eine künstliche Intelligenz, die in der Lage ist, eine Vielzahl von Aufgaben genauso gut oder sogar besser als ein Mensch auszuführen.

Die Evolution der GPT-Sprachmodelle hat die Sprachverarbeitung und verschiedene textbasierte Anwendungen tiefgreifend verbessert. Dennoch gibt es ethische Fragen im Zusammenhang mit diesen Modellen, vor allem ihre Fähigkeit, Fake News und irreführende Inhalte zu produzieren.^[8]

DALL-E

DALL-E, auch von OpenAI entwickelt, bringt generative KI auf die nächste Stufe, indem es die Lücke zwischen Text und Bildern schließt. Dieses Modell kann Bilder aus Textbeschreibungen generieren und Wörter wie "ein zweistöckiges rosa Haus in Form eines Schuhs" in atemberaubende visuelle Darstellungen umwandeln. Die Anwendungsmöglichkeiten von DALL-E reichen von Kunst und Design bis hin zur Erstellung von Inhalten, bei denen es Illustrationen und visuelle Inhalte aus Texteingaben generieren kann und damit eine Welt voller kreativer Möglichkeiten eröffnet.

DALL-E zeichnet sich durch verschiedene Bildstile aus und arrangiert Objekte kreativ und ohne explizite Anweisungen. Er passt sich an Designtrends an, kann mit verschiedenen Beschreibungen umgehen und die Raven's Matrices lösen (visuelle Tests, die häufig zur Messung der Intelligenz von Menschen durchgeführt werden)^[10]

Am 20. Juli 2022 ging DALL-E 2 in die Beta-Phase, die aus ethischen Gründen zunächst auf ausgewählte Benutzer beschränkt war. Am 28. September 2022 wurde es für alle freigegeben. Im Oktober 2023 kündigte OpenAI die Verfügbarkeit von DALL-E innerhalb der ChatGPT Plus-Schnittstelle an.

Midjourney

Midjourney zeichnet sich durch seinen traumähnlichen künstlerischen Stil aus und hebt sich damit von Mitbewerbern wie DALL-E 2 ab. Es erzeugt sowohl realistische als auch ausdrucksstarke Bilder, was es ideal für Sci-Fi und Gothic-Themen macht und seinen malerischen Ansatz unterstreicht.

Die Stärke von Midjourney liegt in der Generierung von hochrelevanten Bildern, die auf Ihren Vorlieben für Beleuchtung, Stil, Ausrichtung und Farben basieren. Midjourney zeichnet sich durch die reine Bilderzeugung aus und ist möglicherweise das beste generative KI-Tool.

Darüber hinaus können Sie Ihre eigenen Bilder hochladen und modifizieren, Hintergründe und Outfitfarben ändern und Karikaturen erstellen. Midjourney bietet eine höhere Auflösung als andere KI-Kunstgeneratoren und erweitert die Grenzen von Bildern durch seine Outpainting-Funktion.

Seine vielseitigen Anwendungsmöglichkeiten umfassen persönliche Kunstwerke, kommerzielle Illustrationen, Bildungsinhalte, Marketingmaterialien und innovative Kunstformen. Der Künstler Jason Allen hat Geschichte geschrieben, indem er einen Preis in der Kategorie Digitale Kunst und Fotografie gewann, indem er Midjourney für sein Werk "Theatre D'Opera Spatial" verwendete.^[11]

Andere Tools

Die generative KI verändert die Industrie, indem sie fortgeschrittene Lösungen in verschiedenen Bereichen bietet. Im Folgenden finden Sie eine Übersicht über die Anwendungen und populären Tools in den Bereichen Video-, Sprach-, Musik- und Textgenerierung:

Videogenerierung
- Anwendungen: Realistische Content-Synthese; Sprach-zu-Video-Synthese; Video-Inpainting; Style-Transfer; Daten-Augmentation; KI-animierte Avatare.
- Sorgen: Möglicher Missbrauch, wie zum Beispiel Deepfakes.
- Populäre Tools: Pictory, Synthesia, Deepbrain AI, Elai, Neural Frames.
Sprachgenerierung
- Anwendungen: Virtuelle Assistenten; Text zu Sprache; Sprachübersetzung; Unterhaltungs-Voice-Over; interaktives Geschichtenerzählen.
- Sorgen: Möglicher Missbrauch, wie zum Beispiel Deepfake-Voice-Angriffe.
- Populäre Tools: Lovo, Synthesys, Voice Over by Speechify, Listnr.
Musikgenerierung
- Anwendungen: Hilft Musikern bei der Generierung neuer Musik und bietet persönliche Kompositionen je nach Geschmack an.
- Populäre Tools: Amper Music, AIVA, Ecrett Music, Boomy, WavTool.
Textgenerierung
- Anwendungen: Content-Erstellung, automatisierte Berichterstellung, Chatbots, Sprachübersetzung, Personalisierung von Inhalten, Ideengenerierung, Bildungsinhalte, juristische Dokumentation, Inhaltsmoderation, Journalismus.
- Sorgen: Ethikaspekte; Wichtigkeit der Feinabstimmung von KI-generierten Texten.
- Populäre Tools: Jasper, Copy.ai, Anyword, Writesonic, Sudowrite.

Zusammenfassung

Das Aufkommen generativer KI-Modelle und -Tools stellt eine Revolution in der KI-Landschaft dar. Diese Modelle haben die Grenzen dessen erweitert, was KI in Bezug auf die Generierung natürlicher Sprache, Bildsynthese und multimodale Fähigkeiten leisten kann. Sie haben tiefgreifende Auswirkungen auf alle Branchen und bieten neue Möglichkeiten für Kreativität, Produktivität und Zugänglichkeit. Bei der Nutzung dieser transformativen Technologien ist es jedoch wichtig, aufmerksam zu bleiben und sich mit den ethischen Herausforderungen auseinanderzusetzen, die sie mit sich bringen, um sicherzustellen, dass die Vorteile der generativen KI verantwortungsbewusst zum Wohle der Gesellschaft genutzt werden.