InstructGPT
OpenAI
Erstes per RLHF an menschlichen Anweisungen ausgerichtetes Produktionsmodell, ausgeliefert als Standard in der OpenAI-API.
Generative KI · Ende 2022 → heute
2022 brachte KI kaum einen Satz zu Ende. Heute schreibt sie Software, malt Fotos, dreht Filme und spricht wie ein Mensch — alles in dreieinhalb Jahren.
2022: Autovervollständigung
heute: schreibt Software & besteht Examen
2022: verschmierte Gesichter
heute: Fotorealismus mit lesbarem Text
2022: gab es praktisch nicht
heute: filmreife Clips — mit Ton
2022: Roboter-Vorlesestimme
heute: Echtzeit-Gespräch & ganze Songs
Damals → Heute
Vier Dimensionen, dreieinhalb Jahre. Links der Stand 2022, rechts heute.
Stichwortsuche und Autovervollständigung. Verlor nach ein paar Sätzen den Faden.
Schreibt Software, besteht Examen, arbeitet stundenlang eigenständig als Agent.
Verschmierte Gesichter, sechs Finger, unlesbare Buchstaben.
Fotorealismus mit korrekter Typografie — in wenigen Sekunden.
Vier Sekunden stummes Flackern (das „Will Smith isst Spaghetti“-Meme).
Filmreife Clips mit lippensynchronem Dialog und Geräuschen.
Roboterhaftes Vorlesen mit hörbarer Verzögerung.
Natürliches Gespräch in Echtzeit — und ganze Songs aus einem Satz.
Das Wichtigste in Zahlen
Release-Takt
Jeder Balken ist ein Quartal, gestapelt nach Modalität. Die Form ist die Geschichte: Was früher ein paar Mal im Jahr kam, kommt heute alle paar Wochen.
Jeder Balken = ein Quartal · gestapelt nach Modalität · 2026 läuft noch
Tempo im Vergleich
Grobe Maßstäbe zum Einordnen, kein exakter Vergleich — aber die Größenordnung stimmt.
Vom ersten Browser bis zur alltäglichen Massennutzung vergingen rund sieben Jahre.
Vom ersten iPhone bis zur App-Wirtschaft, die den Alltag umbaute: etwa fünf Jahre.
Dieselben dreieinhalb Jahre: von Stichwortsuche zu autonomen Agenten, Video mit Ton und Songs auf Zuruf.
Im Herbst 2022 wirkte eine Maschine, die ein Gespräch führen konnte, wie Science-Fiction. Bildmodelle verschmierten Gesichter zu Albträumen. Video war eine flackernde Kuriosität. Synthetische Stimmen klangen synthetisch.
Dann geriet der Boden in Bewegung. Was folgt, ist das Protokoll — Release für Release, über vier Modalitäten hinweg — davon, wie schnell aus „unmöglich“ „alltäglich“ wurde. Lies es langsam. Achte darauf, wie weit die frühen Meilensteine auseinander liegen, und wie sie sich drängen, je näher du der Gegenwart kommst.
Die Zeitachse
Jedes Modell, jedes Datum — von Ende 2022 bis heute. Filtere nach Disziplin, such ein Modell, klapp die Details auf.
OpenAI
Erstes per RLHF an menschlichen Anweisungen ausgerichtetes Produktionsmodell, ausgeliefert als Standard in der OpenAI-API.
540-Mrd.-Parameter-Sprachmodell, das GPT-3 auf fast allen Benchmarks schlug und emergentes Chain-of-Thought-Reasoning zeigte.
Midjourney
Öffnete die Discord-basierte Text-zu-Bild-Generierung für alle.
Stability AI / CompVis / RunwayML
Erstes leistungsfähiges Open-Weights-Diffusionsmodell für Text-zu-Bild, das auf Consumer-GPUs läuft und 512×512-Bilder in Sekunden erzeugt
Erzeugt zusammenhängendes Audio (Sprache, Klavier) per Sprachmodellierung über Audio-Tokens.
OpenAI
Mehrsprachige Open-Source-ASR, trainiert auf 680.000 Stunden Web-Audio, die über 99 Sprachen hinweg eine nahezu menschliche Transkriptionsqualität erreicht
OpenAI
Fotorealistische Bilderzeugung und -bearbeitung per Inpainting/Outpainting mit 1024×1024, ergänzt um CLIP-gestütztes semantisches Verständnis
Meta
Erstes prominentes Text-zu-Video-Modell; lernte Bewegung aus unbeschriftetem Video, Aussehen aus Text-Bild-Paaren.
Text-zu-3D ohne 3D-Trainingsdaten, durch Destillation eines 2D-Diffusionsmodells in ein NeRF (Score Distillation).
RunwayML / Stability AI
Verbesserte Bildqualität, bessere Ästhetik und höhere Prompt-Treue gegenüber SD 1.4 auf derselben 512×512-Architektur
Midjourney
Völlig neue Architektur, trainiert auf Midjourneys eigenem KI-Supercluster, mit deutlich verbesserter Kohärenz, mehr Detailtreue und Unterstützung komplexer Prompts mit mehreren Motiven
Stability AI
Native Auflösung von 768×768, neuer OpenCLIP-Text-Encoder, Depth-to-Image-Pipeline und ein 4×-Upscaler-Modell
OpenAI
Dialogorientierter, anweisungsbefolgender Chatbot, der über den Webbrowser für die breite Öffentlichkeit zugänglich ist
● November 2022 · erst jetzt möglich
Zum ersten Mal redet eine Maschine wie ein Mensch.
Davor: Stichwortsuche und holprige Autovervollständigung.
OpenAI
Verbessertes Whisper-Modell mit einer um etwa 10–15 % geringeren Wortfehlerrate, insbesondere bei verrauschten Aufnahmen, das 2,5-mal länger und mit Regularisierung trainiert wurde
jens.marketing
Ein deutschsprachiger Newsletter, der seit Anfang 2023 die KI-Entwicklung verfolgt und einordnet.
Microsoft
Zero-Shot-TTS als neuronales Codec-Sprachmodell, das die Stimme eines Sprechers aus einem 3-sekündigen Audio-Prompt synthetisiert und dabei die emotionale Färbung des Sprechers bewahrt
ElevenLabs
Für Verbraucher zugängliches sofortiges Voice-Cloning aus kurzen Audioproben, kombiniert mit emotionsbewusster Sprachsynthese, zunächst auf Englisch und Polnisch
Runway
Video-zu-Video-Stilübertragung: Anwendung eines beliebigen Bild- oder Textstils auf jedes Einzelbild eines bestehenden Videoclips
Meta
Hochwertiges, forschungstaugliches LLM (7B–65B), veröffentlicht mit offenen Gewichten unter einer nichtkommerziellen Lizenz
OpenAI
Großes multimodales Modell, das Bild- und Texteingaben verarbeitet, etwa das 90.
Midjourney
Fotorealistische Bilder in doppelter Auflösung (1024×1024), Prompting in natürlicher Sprache, beliebige Seitenverhältnisse und verlässlich fünffingrige Hände
Runway
Reine Text-zu-Video-Generierung: Erstellung neuartiger Videoclips allein aus Text-Prompts, ohne jegliche Quellvideo-Eingabe
Alibaba DAMO Academy
Open-Weight-Diffusionsmodell mit 1,7 Mrd.
Adobe
Erzeugung von Text-zu-Bild und Texteffekten, ausschließlich auf lizenzierten Adobe-Stock-Inhalten und gemeinfreiem Material trainiert, eingebettet in Photoshop und die Creative Cloud
Significant Gravitas
Open-Source-Agent, der GPT-4-Aufrufe verkettet, um ein Ziel selbstständig mit Web- und Datei-Tools zu verfolgen.
Suno AI
Open-Source-TTS auf Transformer-Basis mit Zero-Shot-Voice-Cloning, nonverbalen Lautäußerungen (Lachen, Seufzen), Hintergrundmusik und Unterstützung für über 100 Sprachen
ElevenLabs
Sprachübergreifendes TTS, das die Merkmale einer geklonten Stimme in einem einzigen Prompt über 7 europäische und südasiatische Sprachen hinweg bewahrt
Text-zu-Musik-Generierung, die aus frei formulierten natürlichsprachlichen Prompts hochauflösende Stereomusik erzeugt, trainiert auf 280.000 Stunden Musik
Googles nächste LLM-Generation mit stärkerem Multilingual-/Reasoning-/Coding-Können; trieb Bard und 25+ Produkte an.
● Juni 2023 · erst jetzt möglich
Fotorealistische Bilder auf Zuruf.
Wenige Monate zuvor: verschmierte Gesichter und sechs Finger.
Meta AI
Open-Source-Musikgenerierung mit Steuerung über Text und optionale Melodie-Referenz, verfügbar als Code und Modellgewichte; Gewichte unter CC-BY-NC 4.0
Anthropic
LLM mit einem Kontextfenster von 100.000 Tokens, verbessertem Coding (71,2 % HumanEval) und öffentlicher Chat-Oberfläche claude.ai
Meta
Open-Weight-LLM (7B–70B), das über eine Partnerschaft von Meta und Microsoft kostenlos für Forschung und kommerzielle Nutzung veröffentlicht wurde
Stability AI
Pipeline aus einem Basismodell mit 3,5 Mrd.
Meta AI
Open-Source-Framework zur Audiogenerierung, das Text-zu-Musik (MusicGen), Text-zu-Soundeffekten (AudioGen) und einen verbesserten neuronalen Audio-Codec (EnCodec) in einer Bibliothek vereint
Alibaba
Erstes offenes Modell der Qwen-Familie von Alibaba.
Ideogram AI
Text-zu-Bild-Generierung mit branchenführender, gut lesbarer Typografie, die direkt in die erzeugten Bilder eingebettet ist
ElevenLabs
Foundational-Sprachmodell, das nahezu 30 Sprachen abdeckt, die Stimmidentität bewahrt und Professional Voice Cloning integriert
TII
180B-Parameter-Modell auf 3,5 Billionen Tokens; bei Veröffentlichung das größte offen verfügbare LLM.
Stability AI
Latent-Diffusion-Modell für Text-to-Audio, das 44,1-kHz-Stereotracks von bis zu 95 Sekunden Länge erzeugt – mit Timing-Konditionierung zur Steuerung der Länge
OpenAI
GPT-4 bekommt Bildverständnis (GPT-4V) und gesprochene Konversation — ChatGPT wird wirklich multimodal.
Mistral AI
Modell mit 7,3 Mrd.
OpenAI
Nativ in ChatGPT integriert für die dialogbasierte Iteration von Prompts; deutliche Verbesserung der Prompt-Treue und Detailgenauigkeit gegenüber DALL-E 2
OpenAI
Modell der GPT-4-Klasse mit einem Kontextfenster von 128K Tokens und einem Wissensstand bis April 2023, zu einem dreifach niedrigeren Preis pro Input-Token
OpenAI
Entwickler-API für neuronale Text-to-Speech (6 Stimmen, Echtzeit- und HD-Varianten) plus Whisper large-v3 mit einer um 10–20 % niedrigeren WER als v2
Stability AI
Open-Weights-Modell für Image-to-Video, das aus einem einzelnen Referenzbild 14–25 Frames bei 3–30 fps erzeugt
Pika Labs
Verbraucherfreundliche Text-to-Video-Plattform, die aus Text-Prompts über Web und Discord 3D-Animationen, Anime, Cartoons und filmische Clips erzeugt
Google DeepMind
Nativ multimodales Modell (Text, Bild, Audio, Video, Code) in drei Größen: Ultra, Pro, Nano; Ultra war das erste Modell, das mit 90,0 % den Durchschnitt menschlicher Experten im MMLU übertraf
Mistral AI
Sparse-Mixture-of-Experts-Modell mit 46,7 Mrd.
Google DeepMind
Fotorealistische Bildgenerierung mit Text- und Logo-Darstellung in mehreren Sprachen, unsichtbares Wasserzeichen per SynthID und unternehmensrechtliche IP-Freistellung auf Vertex AI
Midjourney
Deutlicher Sprung beim Fotorealismus, lesbare Textdarstellung im Bild, doppelte Länge des Prompt-Tokens und überarbeitetes Prompting in natürlicher Sprache; drittes von Grund auf trainiertes Modell
Suno AI
Endkundenprodukt, das aus einem Text-Prompt in Sekunden vollständige Songs – Gesang, Instrumentierung, Songtext – erzeugt
● Februar 2024 · erst jetzt möglich
Ein Satz wird zu einer Minute kohärentem Video.
Ein Jahr zuvor: vier Sekunden Flackern — der „Will Smith isst Spaghetti“-Clip.
Google DeepMind
Kontextfenster von 1 Million Tokens (später auf 2 Mio.
OpenAI
Diffusion-Transformer, der aus Text-Prompts fotorealistische Videos von bis zu 60 Sekunden Länge erzeugt – mit emergenter Objektpermanenz und kohärenten Szenen mit mehreren Charakteren
Ideogram AI
Spitzentechnologie bei der Textdarstellung mit einer rund halbierten Textfehlerrate gegenüber 0.1, deutlich verbessertem Fotorealismus und kommerziellem API-Zugang
Anthropic
Modellfamilie in drei Stufen mit Bildverständnis; Opus führt bei Erscheinen MMLU, GPQA und weitere führende Benchmarks an und übertrifft GPT-4 in den meisten Evaluierungen
Stability AI
Text-to-Music-Modell, das vollständige Tracks von bis zu 3 Minuten in 44,1-kHz-Stereo mit kohärenter musikalischer Struktur erzeugt, plus Audio-to-Audio-Stilübertragung
Udio
KI-Musikgenerierung aus Text-Prompts, die hochauflösende vollständige Songs mit steuerbarem Genre, Stimmung und Instrumentierung erzeugt – entwickelt von ehemaligen Forschern von Google DeepMind
Meta
Beste quelloffene 8B- und 70B-Modelle bei Erscheinen, mit 128K Kontext und verbessertem Reasoning, Coding und Befolgen von Anweisungen
Adobe
Großer Qualitätssprung mit fotorealistischen Details, Stilisierung und Kompositionsabgleich anhand von Referenzbildern, verbessertem Verständnis komplexer Szenen und höherer Generierungsgeschwindigkeit
● Mai 2024 · erst jetzt möglich
Echtzeit-Sprachgespräch, mit Lachen und Unterbrechungen.
Davor: roboterhafte Vorlese-Stimmen mit spürbarer Verzögerung.
OpenAI
Durchgängiges multimodales Modell mit Sprache als Ein- und Ausgabe, mit einer Latenz unter 300 ms, Handhabung von Unterbrechungen, Erkennung des emotionalen Tonfalls und mehrsprachiger Echtzeitkonversation
Google DeepMind
Erzeugt filmische Videoclips in 1080p von über einer Minute Länge aus Text-Prompts, mit Verständnis für Kamerabewegungen und physikalische Dynamik
Schnelles, günstiges Modell mit 1-Mio.-Token-Kontext für Hochvolumen-Aufgaben.
Stability AI
Open-Weights-Diffusionsmodell für Text-to-Audio zur Erzeugung von bis zu 47 Sekunden an Soundeffekten und Samples, verfügbar für die nichtkommerzielle Nutzung
Microsoft
Zero-Shot-TTS, das auf den VALL-E-Benchmarks menschliches Niveau erreicht – durch wiederholungsbewusstes Sampling und gruppierte Code-Modellierung
Kuaishou
Erzeugt bis zu 2 Minuten lange Videos in 1080p bei 30 fps aus Text oder Bildern mit komplexer Bewegung und Simulation der physischen Welt
Stability AI
Architektur eines Multimodal Diffusion Transformer (MMDiT) mit 2 Mrd.
Luma AI
Multimodaler Transformer, der aus Text- oder Bildeingaben flüssige, physikalisch plausible 5-Sekunden-Videoclips mit filmischer Kamerabewegung erzeugt
Runway
Text- und Bild-zu-Video in hoher Detailtreue mit ausdrucksstarker Generierung menschlicher Figuren, feingranularer zeitlicher Steuerung und filmischen Übergängen
Anthropic
Mittelklassemodell, das Claude 3 Opus in den meisten Benchmarks bei doppelter Geschwindigkeit und einem Fünftel der Kosten übertrifft
Meta
Open-Weights-Modell mit 405B Parametern und 128K Kontext, das GPT-4o und Claude 3.5 Sonnet in zentralen Evaluierungen erreicht, mit einer destillationsfreundlichen Lizenz
Udio
Überarbeitetes Musikmodell mit 48-kHz-Stereo-Ausgabe, Stem-Downloads (Vocals/Bass/Drums), Audio-zu-Audio-Remix aus eigenen Uploads sowie Tonart- und Modussteuerung
Black Forest Labs
Modellreihe mit 12B Parametern auf Basis von Flow Matching: FLUX.1[schnell] (Apache 2.0, 10× schneller dank Destillation), FLUX.1[dev] (Open Weights, nicht kommerziell), FLUX.1[pro] (geschlossene API), allesamt auf dem Qualitätsniveau von Midjourney v6
xAI
Frontier-Chat mit Bildverständnis, Echtzeit-X-Suche und FLUX-gestützter Bildgenerierung.
Google DeepMind
Fotorealistische Bilder mit feinen Details (Stoffe, Wassertropfen, Fell), weniger Artefakten, verbesserter Prompt-Treue und Integration in die Gemini-Apps für alle Nutzer in den USA
Ideogram AI
Großer Sprung beim Fotorealismus, fünf Stilmodi (realistisch, Design, 3D, Anime, allgemein), verbesserte Darstellung von Händen, Gesichtern und Haut, iOS-App und öffentliche API
MiniMax
Text-zu-Video- und Bild-zu-Video-Generierung in 720p bei 25 fps mit filmischen Kameraeffekten in sechssekündigen Clips
Hume AI
Voice-to-Voice-Foundation-Modell mit emotionaler Intelligenz, 500–800 ms Latenz, breiter Nachbildung von Persönlichkeit und Akzent sowie einer neuartigen API zur Stimmmodulation, die direktes Voice-Cloning vermeidet
Verwandelt beliebige Dokumente in eine Podcast-artige Audiodiskussion zweier Hosts.
OpenAI
Reasoning-Modell, das vor der Antwort eine interne Gedankenkette aus 'Thinking-Tokens' nutzt und beim USA Math Olympiad das 83.
Kuaishou
Video-Generierung in 1080p HD mit Motion Brush zur präzisen Bewegungssteuerung einzelner Elemente für bis zu sechs Szenenobjekte
Alibaba
Volle 0,5B–72B-Familie mit starkem Coding/Mathe; eines der größten Open-Source-Releases.
OpenAI
Echtzeit-Sprachassistent auf GPT-4o-Basis mit Erkennung des emotionalen Tonfalls, Unterbrechung mitten im Satz und einer Reaktionszeit unter 300 ms, ausgerollt an alle Plus- und Team-Abonnenten
Meta
Metas erste offene multimodale Modelle (11B/90B Vision) plus 1B/3B-Textmodelle für Mobil/Edge.
OpenAI
Entwickler-API zum Erstellen latenzarmer Speech-to-Speech-Sprachagenten auf GPT-4o-Basis, die in Anwendungen Unterbrechungen in Echtzeit, Function-Calling und natürliche Prosodie ermöglicht
Shanghai Jiao Tong University / Cambridge University
TTS auf Basis eines Diffusion-Transformers mit Flow Matching, das Zero-Shot-Voice-Cloning mit hoher Natürlichkeit aus kurzem Referenzaudio erreicht und Chinesisch sowie Englisch unterstützt
Anthropic
Überarbeitetes Sonnet mit einer öffentlichen Beta-API für Computer-Use, die es dem Modell erlaubt, einen echten Desktop zu steuern, indem es einen Bildschirm betrachtet und Maus und Tastatur bedient
Stability AI
MMDiT-X-Modell mit 8,1B Parametern und drei parallelen Text-Encodern (OpenCLIP, CLIP, T5-XXL), mit einer freizügigen kommerziellen Lizenz für bis zu 1 Mio.
Genmo
Text-zu-Video-Modell mit 10B Parametern unter Apache 2.0, das 480p-Clips bei 30 fps mit hoher Bewegungsqualität und Prompt-Treue erzeugt
Apple
On-Device- und Private-Cloud-KI direkt in iOS/iPadOS/macOS: Schreibwerkzeuge, Zusammenfassungen, Image Playground, ChatGPT-Siri.
Recraft
Text-zu-Bild- und Vektor-Generierung mit präziser Textpositionierung, anatomisch korrekten Figuren und als einziges Modell in der Lage, Bilder mit langen, mehrwortigen Textpassagen zu erzeugen
Suno
Saubereres Audio, schärfere Lyrics, dynamische Songstruktur, Covers und Personas.
Lightricks
DiT-basiertes Text-zu-Video-Modell mit 2B Parametern, das 5 Sekunden Video in 768×512 schneller als in Echtzeit erzeugt (4 s Generierung für einen 5-Sekunden-Clip)
Tencent
Transformer mit 13B Parametern, der von Dual-Stream auf Single-Stream umschaltet, für detailgetreue Text-zu-Video-Generierung mit vollständig offenen Gewichten
OpenAI
Öffentliche Veröffentlichung von Sora Turbo, das 5–20 Sekunden lange Videoclips in 720p–1080p für ChatGPT-Plus- und Pro-Abonnenten erzeugt
Google DeepMind
Agentisches multimodales Modell mit nativer Tool-Nutzung (Suche, Code-Ausführung), Echtzeit-Audio-/Video-Streaming sowie nativ erzeugten Bildern und Sprache
Google DeepMind
Video-Generierung in bis zu 4K und über mehrere Minuten, mit verbesserter realistischer Physik, präziser menschlicher Bewegung und filmischen Objektivsteuerungen
OpenAI
Reasoning-Modell der zweiten Generation, das beim ARC-AGI 87,5 % (mit hoher Rechenleistung) und bei Humanity's Last Exam 25,2 % erreicht — weit über allen früheren Modellen
hexgrad (independent)
Apache-lizenziertes TTS-Modell mit 82M Parametern, das bei seinem Start Platz 1 in der Hugging Face TTS Arena belegte und natürliche englische Sprache für unter 1 US-Dollar pro Million Zeichen erzeugt
DeepSeek
Open-Weights-Modell mit 671B Parametern als sparses MoE, das GPT-4o und Claude 3.5 Sonnet bei Benchmarks erreicht und für nur 5,6 Mio.
● Januar 2025 · erst jetzt möglich
Ein frei herunterladbares Modell auf Augenhöhe mit der teuersten Spitze.
Davor galt Open-Weights als hoffnungslos abgehängt.
DeepSeek
Offenes, MIT-lizenziertes Reasoning-Modell, das mit Reinforcement Learning nahezu von Grund auf (mit minimalen überwachten Daten) trainiert wurde und OpenAI o1 bei Mathematik-, Coding- und Wissenschafts-Benchmarks erreicht
OpenAI
Erster Mainstream-Agent, der eigenständig einen Webbrowser bedient (klicken, tippen, Formulare ausfüllen).
hexgrad (independent)
Erweiterte Version von Kokoro mit Unterstützung für 8 Sprachen (Englisch, Spanisch, Französisch, Hindi, Italienisch, Japanisch, Mandarin, Portugiesisch) und 54 Stimmen unter Apache 2.0
xAI
Frontier-Reasoning-Modell, trainiert auf dem 200k-GPU-Cluster Colossus, mit der DeepSearch-Suchmaschine.
Anthropic
Erstes Hybrid-Modell, das sofortige Antworten und ein vom Nutzer konfigurierbares erweitertes Reasoning in einem einzigen Modell vereint und 70,3 % auf SWE-bench Verified erreicht (mit erweitertem Scaffolding)
Alibaba (Wan Team)
Apache-2.0-Suite von Modellen zur Videogenerierung (bis zu 14 Mrd.
Sesame AI
Modell zur dialogorientierten Sprachgenerierung, das kontextbewusste, emotional ausdrucksstarke Dialoge mit menschenähnlicher Prosodie und Mehrsprecher-Handhabung erzeugt
OpenAI
Neue STT-Modelle (gpt-4o-transcribe, gpt-4o-mini-transcribe) mit branchenführender WER sowie ein instruierbares TTS (gpt-4o-mini-tts), bei dem Entwickler Ton, Emotion und Vortragsstil vorgeben
Google DeepMind
Thinking-Modell, das die Bestenlisten von LMArena und WebDev Arena anführt, bei den Mathematik-Benchmarks AIME 2025 und den Wissenschafts-Benchmarks GPQA führend ist und über ein Kontextfenster von 1 Mio.
OpenAI
Nativ multimodale Bildgenerierung, eingebettet in GPT-4o: dialogorientierte Bildbearbeitung, zuverlässige Texteinblendung im Bild, präzise Befolgung von Anweisungen und Transformation von Bildeingaben
Ideogram AI
Höchste ELO-Werte bei der menschlichen Präferenz über verschiedenste Prompt-Typen hinweg, Style References (bis zu 3 Referenzbilder), Style Codes, Batch-Generierung sowie verbesserter Fotorealismus und Textwiedergabe
Runway
Konsistente Videogenerierung über mehrere Einstellungen hinweg: Beibehaltung derselben Figuren, Kostüme und Umgebungen in unterschiedlichen Szenen mithilfe von Referenzbild-Konditionierung
Midjourney
Völlig neue Architektur mit Draft Mode (10× schneller, 0,5× Kosten), Omni Reference für motivübergreifende Konsistenz sowie deutlich verbesserter Textur, Kohärenz und anatomischer Genauigkeit
Meta
Nativ multimodale offene MoE-Modelle; Scout bietet ein Kontextfenster von 10 Mio.
Kuaishou
Modernste Bewegungsqualität, semantische Reaktionsfähigkeit und multimodale Videobearbeitung aus komplexen Prompts bei branchenführender visueller Wiedergabetreue
Alibaba
Open-Weights-Familie (0,6B–235B MoE) mit umschaltbarem „Thinking/Non-Thinking"-Reasoning.
● Mai 2025 · erst jetzt möglich
Video mit synchronem Ton — in einem einzigen Schritt.
Zwei Jahre zuvor: stumme Vier-Sekunden-Clips.
Google DeepMind
Ausgabe in bis zu 2K-Auflösung, feine Detailwiedergabe (Stoffe, Wassertropfen, Fell), verbesserte Typografie-Integration sowie eine bis zu 10× schnellere Generierung über eine eigene Fast-Variante
Google DeepMind
Videogenerierung mit nativ erzeugtem, synchronisiertem Audio: Dialoge, Soundeffekte und Hintergrundmusik werden gemeinsam mit den Videoframes generiert
Anthropic
Claude-4-Familie, bei der Opus 4 einen Wert von 72,5 % auf SWE-bench Verified und Sonnet 4 einen Wert von 72,7 % erzielt, wobei beide komplexe, mehrstündige agentische Coding-Sitzungen durchhalten
Black Forest Labs
Kontextbewusste Bildbearbeitung: gemeinsames Prompting aus Text und Bild für lokale Bearbeitungen, Beibehaltung von Figuren über Szenen hinweg sowie iterative mehrstufige Bearbeitung ohne Qualitätsverlust
ElevenLabs
Ausdrucksstärkstes TTS-Modell von ElevenLabs mit Audio Tags (inline emotionale Steuerung über in Klammern gesetzte Hinweise), einem Dialogue Mode für Mehrsprecher-JSON-Skripte und Unterstützung für über 70 Sprachen
Black Forest Labs
Open-Weights-Modell mit 12 Mrd.
OpenAI
Vereint Operator (visueller Browser), Deep Research und eine Code-/Terminal-Toolbox mit eigenem virtuellem Computer.
Google DeepMind
Echtzeit-Weltmodell, das aus einem Prompt begehbare 720p/24fps-Umgebungen erzeugt, minutenlang konsistent.
OpenAI
Einheitliches Modell, das die Sprachgewandtheit der GPT-Serie und das Reasoning der o-Serie hinter einem automatischen Router vereint und 74,9 % auf SWE-bench Verified sowie 94,6 % auf AIME 2025 erzielt
OpenAI
Produktionsreife Speech-to-Speech-API mit verbesserter Befolgung von Anweisungen, präziserem Tool-Calling, SIP-Telefonie, Bildeingabe und Unterstützung für Remote-MCP-Server
Microsoft AI
Erstes hauseigenes, hochgradig expressives Speech-Generation-Modell (TTS) von Microsoft AI.
Microsoft AI
Erstes End-to-End trainiertes Foundation-Modell (Text-LLM) von Microsoft AI.
Suno AI
Musikmodell auf Profi-Niveau mit Mixing in Studioqualität und authentischem Gesang (v5, 23.
Anthropic
Anthropics bestes Coding-/Agenten-Modell, ausgelegt auf stundenlange autonome Software-Aufgaben.
OpenAI
Sora der zweiten Generation mit synchronisierten Dialogen und Soundeffekten, verbesserter Physikgenauigkeit, Konsistenz über mehrere Einstellungen hinweg sowie einer App zum sozialen Teilen im TikTok-Stil
Microsoft AI
Erstes hauseigenes Text-to-Image-Modell von Microsoft AI.
Google DeepMind
Flaggschiff-Modell mit dem Reasoning-Modus Deep Think, der 41 % auf Humanity's Last Exam erreicht; das Standardmodell Gemini 3 Pro erzielte 37,5 %.
Lightricks
LTX-2 erzeugt synchronisiertes Video und Audio in einem einzigen Durchgang mit nativer 4K-Auflösung bei 50 Bildern pro Sekunde und bis zu 20 Sekunden Länge, inklusive ausdrucksstarkem Ton, akkuratem Lip-Sync und Umgebungsgeräuschen.
Black Forest Labs
Kompakte Open-Weights-Modellfamilie (4B und 9B), die Bildgenerierung und -Editing in einer Architektur vereint und Text-to-Image, Single-Reference-Editing sowie Multi-Reference-Generierung in unter einer Sekunde auf Consumer-Hardware (ab ca.
Baidu
Nativ voll-modales Modell mit rund 2,4T Parametern in MoE-Architektur (weniger als 3 % der Parameter je Inferenz aktiv), das Text, Bild, Audio und Video gemeinsam versteht und generiert.
Tencent
Natives multimodales Open-Weights-Modell (80B MoE, ca.
Moonshot AI
Nativ multimodales, agentisches Open-Weights-Modell mit einer 1-Billion-Parameter-Mixture-of-Experts-Architektur (etwa 32 Mrd.
ElevenLabs
Allgemeine Verfügbarkeit des bislang ausdrucksstärksten TTS-Modells von ElevenLabs mit über 70 Sprachen und Audio Tags zur direkten Steuerung von Emotion und Sprechweise im Text.
Kuaishou
Die Kling-3.0-Reihe (Video 3.0, Video 3.0 Omni, Image 3.0, Image 3.0 Omni) basiert auf einem einheitlichen multimodalen Framework, das Video und Audio in einem Durchgang erzeugt.
Anthropic
1-Mio.-Token-Kontext (Beta), Spitzenwerte auf Humanity's Last Exam und Terminal-Bench; anhaltendes agentisches Coding in großen Codebases.
Alibaba (Qwen)
Bildgrundlagenmodell der naechsten Generation, das Text-to-Image-Generierung und Image-Editing in einer einzigen, leichteren Architektur vereint (ca.
Zhipu AI (Z.ai)
Open-Weights-MoE-Frontier-Modell mit 744B Total-Parametern (rund 40-44B aktiv), 200K-Kontextfenster und DeepSeek-Sparse-Attention, ausgelegt auf agentische Engineering- und langlaufende Coding-Workflows.
ByteDance
Seedance 2.0 ist ein einheitliches multimodales Audio-Video-Modell, das Text, Bild, Audio und Video in derselben Anfrage als Eingabe akzeptiert (bis zu 9 Bilder, 3 Videoclips, 3 Audioclips plus Anweisungen) und in einem Durchgang bis zu 15 Sekunden synchrones Mehr-Shot-Video mit Stereo-Audio in mehreren Tonspuren (Musik, Effekte, Sprache) ausgibt.
Anthropic
Mittelgroßes Claude-Modell mit deutlichen Fortschritten bei Coding und Computer-Use sowie einem 1-Mio.-Token-Kontextfenster in der Beta.
Google DeepMind
Musikgenerierungsmodell, das aus Text-Prompts 30-sekuendige Tracks mit automatisch erzeugten Lyrics und passendem Cover-Artwork erstellt.
Google DeepMind
Schnelles, hochfideles Bildgenerierungs- und Editing-Modell, das das Weltwissen, die Qualitaet und das Reasoning von Nano Banana Pro mit Flash-Geschwindigkeit kombiniert; Aufloesungen von 512px bis 4K, Charakterkonsistenz fuer bis zu fuenf Charaktere und Fidelitaet von bis zu 14 Objekten in einem Workflow.
OpenAI
Erstes Mainline-Reasoning-Modell mit integriertem Frontier-Coding und Computer-Use; 33% weniger Faktenfehler als 5.2.
Fish Audio
Open-Weights-TTS-Modell mit Dual-AR-Architektur (rund 4B Parameter auf der Zeitachse, 400M auf der Tiefenachse), trainiert auf ueber 10 Millionen Stunden Audio in etwa 50 Sprachen.
Midjourney
Neue Modellgeneration mit ca.
Microsoft AI
Hauseigenes Text-to-Image-Modell der zweiten Generation.
Google DeepMind
Erweiterte Variante von Lyria 3, die Tracks von bis zu 3 Minuten Laenge mit struktureller Bewusstheit erzeugt.
Suno AI
Musikgenerierung mit persönlicher Voice Capture (eine 30-sekündige bis 4-minütige Gesangsprobe überträgt deine stimmliche Identität auf jeden generierten Track), Fine-Tuning eigener, vom Nutzer trainierter Modelle sowie eine personalisierte Geschmacks-Engine
Microsoft AI
Erstes hauseigenes Speech-to-Text-(Transkriptions-)Modell von Microsoft AI.
Alibaba
Wan2.7-Video ist eine Suite aus vier Modellen (Text-to-Video, Image-to-Video, Reference-to-Video und Video-Editing).
Zhipu / Z.ai
754B-Parameter-MoE; erstes Open-Source-Modell auf Platz 1 von SWE-Bench Pro (58,4%), vor Claude Opus 4.6.
Meta (Superintelligence Labs)
Nativ multimodales Reasoning-Modell mit Tool-Use, visuellem Chain-of-Thought und Multi-Agent-Orchestrierung (Contemplating-Modus).
OpenMOSS / MOSI.AI / Shanghai Innovation Institute
Open-Source-Foundation-Modell fuer einheitliches Audio-Verstehen ueber komplexe reale Audioszenen hinweg: Sprachverstehen, Umgebungsgeraeusche, Musikverstehen, Audio-Captioning, zeitbewusstes Question-Answering und mehrstufiges Reasoning.
Anthropic
Frontier-Modell der Opus-Klasse mit State-of-the-Art-Performance bei langlaufenden, komplexen Coding- und Agenten-Aufgaben.
Moonshot AI
Open-Weights-Modell auf 1-Billion-Parameter-MoE-Basis (32 Mrd.
OpenAI
Bildmodell mit integriertem Reasoning (O-Series-Mechanismus / Thinking-Mode), das vor der Generierung Komposition plant, Objektanzahl verifiziert und Prompt-Constraints prueft; nahezu perfektes mehrsprachiges Text-Rendering (ca.
OpenAI
OpenAIs zu diesem Zeitpunkt fähigstes Modell, mit besonders starken Zuwächsen bei agentischem Coding, Computer-Use, Knowledge Work und früher wissenschaftlicher Forschung.
Tencent
Fused-Reasoning-MoE-Modell (fast-and-slow-thinking) mit 295B Total-Parametern (21B aktiv) und 256K-Kontextfenster, ausgelegt auf komplexes Reasoning, Instruction Following, In-Context-Learning, Code-Verständnis und agentische Workloads.
DeepSeek
Open-Weights-Flaggschiff in zwei Varianten: V4-Pro (1,6 Bio.
Mistral AI
Frontier-multimodales Modell mit einstellbarem reasoning_effort und 256k Kontext; neuer Standard für Le Chat.
Baidu
Effizienzoptimiertes MoE-Modell, das gegenüber ERNIE 5.0 die Total-Parameter auf etwa ein Drittel und die aktiven Parameter auf etwa die Hälfte reduziert, dabei mit decoupled fully-asynchronous Reinforcement Learning und skaliertem agentischem Post-Training trainiert wurde.
● April 2026 · erst jetzt möglich
Agenten, die stundenlang eigenständig Aufgaben lösen.
2022: ein Chatbot, der auf einzelne Fragen antwortet.
OpenAI
Drei neue Audiomodelle in der API.
Schnelles, kostengünstiges Modell der neuen Gemini-3.5-Generation, das auf agentischen und Coding-Benchmarks (Terminal-Bench 2.1 mit 76,2 %, MCP Atlas mit 83,6 %) das vorherige Gemini 3.1 Pro übertrifft und dabei rund viermal schneller läuft als andere Frontier-Modelle derselben Stufe.
Alibaba (Qwen)
Alibabas proprietäres Flaggschiff-Modell für die Agenten-Ära mit 1-Mio.-Token-Kontextfenster, ausgelegt auf Coding-Agenten, Büro-Automatisierung und Langzeit-Autonomie.
Google DeepMind
Gemini Omni Flash ist das erste Modell der Gemini-Omni-Familie und erzeugt aus beliebiger Kombination von Bild, Audio, Video und Text hochwertige Videos von rund 10 Sekunden mit synchronem Audio.
Immer aktiver persönlicher Agent auf Google-Cloud-VMs, der Langzeit-Aufgaben über Gmail/Docs/Slides und Dritt-Apps via MCP ausführt.
Stability AI
Modellfamilie zur Audiogenerierung aus vier Modellen: Small SFX, Small, Medium und Large.
ElevenLabs
Neues Musikgenerierungsmodell, das innerhalb eines einzelnen Songs das Genre wechseln kann (etwa von Oper zu Heavy Metal und zurueck), schnellen Rap und dichte Textlieferung beherrscht und nicht-musikalische Soundeffekte direkt in den Track einbettet, ohne die musikalische Kohaerenz zu verlieren.
Anthropic
Modell der Opus-Klasse mit Schwerpunkt auf Ehrlichkeit und Zuverlässigkeit: laut Anthropic rund viermal seltener als Opus 4.7 dabei, selbst geschriebene Code-Fehler unkommentiert durchgehen zu lassen.
StepFun
Vision-Language-MoE-Modell mit 198B Total-Parametern (rund 11B aktiv), das einen 1,8B-Vision-Encoder mit einem 196B-Sprach-Backbone koppelt und Charts, PDFs, UI-Wireframes und App-GUIs ohne separate Vision-API verarbeitet.
MiniMax
Nativ multimodales Open-Weights-Modell mit der neuen MSA-Architektur (MiniMax Sparse Attention), 1M-Kontextfenster, Bild- und Video-Input sowie Computer-Use, das Frontier-Coding (SWE-Bench Pro 59,0 %) mit langlaufender autonomer Ausführung über 24+ Stunden verbindet.
Microsoft AI
Sparse-MoE-Reasoning-Modell mit rund 35B aktiven und etwa 1T Total-Parametern und 256K-Kontextfenster, ausgelegt auf mehrstufige agentische Aufgaben; vollständig auf kommerziell lizenzierten, nachvollziehbaren Daten trainiert, ohne Distillation aus Drittmodellen.
Microsoft AI
Hauseigenes Bildmodell für maximale Fidelity, das sowohl Text-to-Image als auch präzises, kontrollierbares Image-Editing beherrscht.
Microsoft AI
Bisher ausdrucksstärkstes, natürlich klingendes Text-to-Speech-Modell von Microsoft AI.
Microsoft AI
Erstes hauseigenes Coding-Modell von Microsoft AI: ein inference-effizientes, agentisches Code-Modell mit 5 Mrd.
Ideogram
Erstes Open-Weights-Foundation-Modell von Ideogram (9.3B, Single-Stream-Diffusion-Transformer mit 34 Layern und Qwen3-VL-8B-Instruct als Text-Encoder), spezialisiert auf Design-Arbeit: branchenfuehrendes Text-Rendering (0.97 X-Omni English OCR), Bounding-Box-Layout-Kontrolle, strukturiertes JSON-Prompting, native Transparenz und 2K-Aufloesung; laeuft mit Quantisierung auf einer einzelnen 24-GB-GPU.
Anthropic
Anthropics bis dahin fähigstes öffentlich verfügbares Modell, das die neue Mythos-Klasse oberhalb der Opus-Klasse breit zugänglich macht.
Google DeepMind
Experimentelles offenes Text-Diffusion-Modell auf Gemma-4-Basis mit 26B MoE-Parametern (rund 3,8B aktiv), das 256-Token-Blöcke parallel statt sequenziell generiert und so bis zu 4x schnellere Textgenerierung erreicht (über 1.000 Tokens/s auf einer einzelnen H100).
Moonshot AI
Coding-fokussiertes agentisches MoE-Modell mit 1T Total-Parametern (32B aktiv, 384 Experts) und 256K-Kontextfenster, das mehrstufig plant, editiert, Tools ausführt und debuggt.
Zhipu AI (Z.ai)
Agentisch ausgerichtetes Coding-Modell auf Basis derselben 744B-MoE-Architektur wie GLM-5, mit einem nutzbaren Kontextfenster von 1M Tokens, bis zu 131.072 Output-Tokens und einem neuen System mit zwei Reasoning-Stufen (High und Max).
ByteDance (Dreamina)
Leichtere, schnellere und günstigere Variante von Seedance 2.0 — rund 2× schneller als Seedance 2.0 Fast, 720p–1080p, 5–12 Sekunden, ab $0,02/Sek.
Fortsetzung folgt
Das Tempo lässt nicht nach — der nächste Durchbruch ist näher, als du denkst. Bleib neugierig.
Von Wissen zu Handlung
Die Tools ändern sich im Wochentakt — du hast es gerade gescrollt. Der Vorsprung liegt nicht im nächsten Modell, sondern in der Fähigkeit, diese Veränderung einzuordnen und KI im Arbeitsalltag produktiv zu nutzen.
Genau dafür gibt es snipKI.
Offen vs. geschlossen
Geschlossene Labore bringen weiterhin die meisten Modelle heraus, daher laufen 32% dieser Meilensteine auf Open-Weights. Die Verschiebung dreht sich um Qualität, nicht um Anzahl: 2025 lieferten sich offene Releases wie DeepSeek-R1, Qwen und Llama einen Schlagabtausch mit den besten geschlossenen Systemen. Jeder Balken unten ist ein Jahr, seine Länge die Zahl der Meilensteine, aufgeteilt nach Lizenz.
Schon vergessen?
Nichts davon ist älter als dreieinhalb Jahre.