Generative KI · Ende 2022 → heute

Die Beschleunigung, die wir alle unterschätzen.

2022 brachte KI kaum einen Satz zu Ende. Heute schreibt sie Software, malt Fotos, dreht Filme und spricht wie ein Mensch — alles in dreieinhalb Jahren.

Text

2022: Autovervollständigung

heute: schreibt Software & besteht Examen

Bild

2022: verschmierte Gesichter

heute: Fotorealismus mit lesbarem Text

Video

2022: gab es praktisch nicht

heute: filmreife Clips — mit Ton

Audio

2022: Roboter-Vorlesestimme

heute: Echtzeit-Gespräch & ganze Songs

185 Meilensteine · jedes Datum primärgeprüft

Scrollen

Damals → Heute

Wie viel besser? Sieh selbst.

Vier Dimensionen, dreieinhalb Jahre. Links der Stand 2022, rechts heute.

TextTokens Kontext4.000→1 Mio.+

2022

Stichwortsuche und Autovervollständigung. Verlor nach ein paar Sätzen den Faden.

Heute

Schreibt Software, besteht Examen, arbeitet stundenlang eigenständig als Agent.

BildBildqualität512 px→2K + Text

2022

Verschmierte Gesichter, sechs Finger, unlesbare Buchstaben.

Heute

Fotorealismus mit korrekter Typografie — in wenigen Sekunden.

VideoBewegtbild4 Sek.→Minuten + Ton

2022

Vier Sekunden stummes Flackern (das „Will Smith isst Spaghetti“-Meme).

Heute

Filmreife Clips mit lippensynchronem Dialog und Geräuschen.

AudioStimme & KlangVorlese-Roboter→Echtzeit < 1 Sek.

2022

Roboterhaftes Vorlesen mit hörbarer Verzögerung.

Heute

Natürliches Gespräch in Echtzeit — und ganze Songs aus einem Satz.

Das Wichtigste in Zahlen

verfolgte Meilensteine

Text · Bild · Video · Audio

Tage seit ChatGPT

≈ 3,5 Jahre

0 %

laufen auf Open-Weights

59 von 185 Releases

0,0×

Spitzen-Takt vs. Start

Höhepunkt: 33 in 2026-Q2

Release-Takt

Bemerkenswerte Releases pro Quartal

Jeder Balken ist ein Quartal, gestapelt nach Modalität. Die Form ist die Geschichte: Was früher ein paar Mal im Jahr kam, kommt heute alle paar Wochen.

TextBildVideoAudio

2022

2023

2024

2025

2026

Jeder Balken = ein Quartal · gestapelt nach Modalität · 2026 läuft noch

Releases in 2022-Q1

Höhepunkt — 2026-Q2

33.0×

Höhepunkt vs. Start

Tempo im Vergleich

Frühere Umbrüche brauchten ein Jahrzehnt.

Grobe Maßstäbe zum Einordnen, kein exakter Vergleich — aber die Größenordnung stimmt.

Das Web

ca. 1993 – 2000

Vom ersten Browser bis zur alltäglichen Massennutzung vergingen rund sieben Jahre.

Das Smartphone

ca. 2007 – 2012

Vom ersten iPhone bis zur App-Wirtschaft, die den Alltag umbaute: etwa fünf Jahre.

Generative KI

2022 – 2026

Dieselben dreieinhalb Jahre: von Stichwortsuche zu autonomen Agenten, Video mit Ton und Songs auf Zuruf.

Im Herbst 2022 wirkte eine Maschine, die ein Gespräch führen konnte, wie Science-Fiction. Bildmodelle verschmierten Gesichter zu Albträumen. Video war eine flackernde Kuriosität. Synthetische Stimmen klangen synthetisch.

Dann geriet der Boden in Bewegung. Was folgt, ist das Protokoll — Release für Release, über vier Modalitäten hinweg — davon, wie schnell aus „unmöglich“ „alltäglich“ wurde. Lies es langsam. Achte darauf, wie weit die frühen Meilensteine auseinander liegen, und wie sie sich drängen, je näher du der Gegenwart kommst.

Die Zeitachse

Alles, Monat für Monat.

Jedes Modell, jedes Datum — von Ende 2022 bis heute. Filtere nach Disziplin, such ein Modell, klapp die Details auf.

Filter

Januar 2022

1 Release

Jan. 2022

TextGeschlossen▸

InstructGPT

OpenAI

Erstes per RLHF an menschlichen Anweisungen ausgerichtetes Produktionsmodell, ausgeliefert als Standard in der OpenAI-API.

April 2022

1 Release

Apr. 2022

TextGeschlossen▸

PaLM (540B)

Google

540-Mrd.-Parameter-Sprachmodell, das GPT-3 auf fast allen Benchmarks schlug und emergentes Chain-of-Thought-Reasoning zeigte.

Juli 2022

1 Release

Juli 2022

BildGeschlossen▸

Midjourney (Open Beta, v3)

Midjourney

Öffnete die Discord-basierte Text-zu-Bild-Generierung für alle.

August 2022

1 Release

Aug. 2022

BildOffen▸

Stable Diffusion 1.4 (public release)

Stability AI / CompVis / RunwayML

Erstes leistungsfähiges Open-Weights-Diffusionsmodell für Text-zu-Bild, das auf Consumer-GPUs läuft und 512×512-Bilder in Sekunden erzeugt

September 2022

5 Releases

212

Sept. 2022

AudioGeschlossen▸

AudioLM

Google

Erzeugt zusammenhängendes Audio (Sprache, Klavier) per Sprachmodellierung über Audio-Tokens.

Sept. 2022

AudioOffen▸

Whisper (large-v1)

OpenAI

Mehrsprachige Open-Source-ASR, trainiert auf 680.000 Stunden Web-Audio, die über 99 Sprachen hinweg eine nahezu menschliche Transkriptionsqualität erreicht

Sept. 2022

BildGeschlossen▸

DALL-E 2 (public launch, no waitlist)

OpenAI

Fotorealistische Bilderzeugung und -bearbeitung per Inpainting/Outpainting mit 1024×1024, ergänzt um CLIP-gestütztes semantisches Verständnis

Sept. 2022

VideoGeschlossen▸

Make-A-Video

Meta

Erstes prominentes Text-zu-Video-Modell; lernte Bewegung aus unbeschriftetem Video, Aussehen aus Text-Bild-Paaren.

Sept. 2022

BildGeschlossen▸

DreamFusion

Google

Text-zu-3D ohne 3D-Trainingsdaten, durch Destillation eines 2D-Diffusionsmodells in ein NeRF (Score Distillation).

Oktober 2022

1 Release

Okt. 2022

BildOffen▸

Stable Diffusion 1.5

RunwayML / Stability AI

Verbesserte Bildqualität, bessere Ästhetik und höhere Prompt-Treue gegenüber SD 1.4 auf derselben 512×512-Architektur

November 2022

3 Releases

Nov. 2022

BildGeschlossen▸

Midjourney v4

Midjourney

Völlig neue Architektur, trainiert auf Midjourneys eigenem KI-Supercluster, mit deutlich verbesserter Kohärenz, mehr Detailtreue und Unterstützung komplexer Prompts mit mehreren Motiven

Nov. 2022

BildOffen▸

Stable Diffusion 2.0

Stability AI

Native Auflösung von 768×768, neuer OpenCLIP-Text-Encoder, Depth-to-Image-Pipeline und ein 4×-Upscaler-Modell

Nov. 2022

TextGeschlossen▸

ChatGPT (GPT-3.5-turbo)

OpenAI

Dialogorientierter, anweisungsbefolgender Chatbot, der über den Webbrowser für die breite Öffentlichkeit zugänglich ist

● November 2022 · erst jetzt möglich

Zum ersten Mal redet eine Maschine wie ein Mensch.

Davor: Stichwortsuche und holprige Autovervollständigung.

Dezember 2022

1 Release

Dez. 2022

AudioOffen▸

Whisper large-v2

OpenAI

Verbessertes Whisper-Modell mit einer um etwa 10–15 % geringeren Wortfehlerrate, insbesondere bei verrauschten Aufnahmen, das 2,5-mal länger und mit Regularisierung trainiert wurde

Januar 2023

3 Releases

Jan. 2023

★ Newsletter▸

KI-Newsletter von Jens

jens.marketing

Ein deutschsprachiger Newsletter, der seit Anfang 2023 die KI-Entwicklung verfolgt und einordnet.

Jan. 2023

AudioGeschlossen▸

VALL-E

Microsoft

Zero-Shot-TTS als neuronales Codec-Sprachmodell, das die Stimme eines Sprechers aus einem 3-sekündigen Audio-Prompt synthetisiert und dabei die emotionale Färbung des Sprechers bewahrt

Jan. 2023

AudioGeschlossen▸

ElevenLabs Beta Launch (instant voice cloning + TTS)

ElevenLabs

Für Verbraucher zugängliches sofortiges Voice-Cloning aus kurzen Audioproben, kombiniert mit emotionsbewusster Sprachsynthese, zunächst auf Englisch und Polnisch

Februar 2023

2 Releases

Feb. 2023

VideoGeschlossen▸

Runway Gen-1

Runway

Video-zu-Video-Stilübertragung: Anwendung eines beliebigen Bild- oder Textstils auf jedes Einzelbild eines bestehenden Videoclips

Feb. 2023

TextOffen▸

LLaMA 1

Meta

Hochwertiges, forschungstaugliches LLM (7B–65B), veröffentlicht mit offenen Gewichten unter einer nichtkommerziellen Lizenz

März 2023

6 Releases

222

März 2023

TextGeschlossen▸

GPT-4

OpenAI

Großes multimodales Modell, das Bild- und Texteingaben verarbeitet, etwa das 90.

März 2023

BildGeschlossen⚠▸

Midjourney v5

Midjourney

Fotorealistische Bilder in doppelter Auflösung (1024×1024), Prompting in natürlicher Sprache, beliebige Seitenverhältnisse und verlässlich fünffingrige Hände

März 2023

VideoGeschlossen▸

Runway Gen-2

Runway

Reine Text-zu-Video-Generierung: Erstellung neuartiger Videoclips allein aus Text-Prompts, ohne jegliche Quellvideo-Eingabe

März 2023

VideoOffen⚠▸

ModelScope Text-to-Video

Alibaba DAMO Academy

Open-Weight-Diffusionsmodell mit 1,7 Mrd.

März 2023

BildGeschlossen▸

Adobe Firefly (beta)

Adobe

Erzeugung von Text-zu-Bild und Texteffekten, ausschließlich auf lizenzierten Adobe-Stock-Inhalten und gemeinfreiem Material trainiert, eingebettet in Photoshop und die Creative Cloud

März 2023

TextOffen▸

AutoGPT

Significant Gravitas

Open-Source-Agent, der GPT-4-Aufrufe verkettet, um ein Ziel selbstständig mit Web- und Datei-Tools zu verfolgen.

April 2023

2 Releases

Apr. 2023

AudioOffen▸

Bark

Suno AI

Open-Source-TTS auf Transformer-Basis mit Zero-Shot-Voice-Cloning, nonverbalen Lautäußerungen (Lachen, Seufzen), Hintergrundmusik und Unterstützung für über 100 Sprachen

Apr. 2023

AudioGeschlossen▸

Eleven Multilingual v1

ElevenLabs

Sprachübergreifendes TTS, das die Merkmale einer geklonten Stimme in einem einzigen Prompt über 7 europäische und südasiatische Sprachen hinweg bewahrt

Mai 2023

2 Releases

Mai 2023

AudioGeschlossen▸

Google MusicLM (public)

Google

Text-zu-Musik-Generierung, die aus frei formulierten natürlichsprachlichen Prompts hochauflösende Stereomusik erzeugt, trainiert auf 280.000 Stunden Musik

Mai 2023

TextGeschlossen▸

PaLM 2

Google

Googles nächste LLM-Generation mit stärkerem Multilingual-/Reasoning-/Coding-Können; trieb Bard und 25+ Produkte an.

● Juni 2023 · erst jetzt möglich

Fotorealistische Bilder auf Zuruf.

Wenige Monate zuvor: verschmierte Gesichter und sechs Finger.

Juni 2023

1 Release

Juni 2023

AudioOffen▸

Meta MusicGen (open-source)

Meta AI

Open-Source-Musikgenerierung mit Steuerung über Text und optionale Melodie-Referenz, verfügbar als Code und Modellgewichte; Gewichte unter CC-BY-NC 4.0

Juli 2023

3 Releases

Juli 2023

TextGeschlossen⚠▸

Claude 2

Anthropic

LLM mit einem Kontextfenster von 100.000 Tokens, verbessertem Coding (71,2 % HumanEval) und öffentlicher Chat-Oberfläche claude.ai

Juli 2023

TextOffen⚠▸

Llama 2

Meta

Open-Weight-LLM (7B–70B), das über eine Partnerschaft von Meta und Microsoft kostenlos für Forschung und kommerzielle Nutzung veröffentlicht wurde

Juli 2023

BildOffen▸

Stable Diffusion XL 1.0 (SDXL)

Stability AI

Pipeline aus einem Basismodell mit 3,5 Mrd.

August 2023

4 Releases

112

Aug. 2023

AudioOffen▸

Meta AudioCraft (MusicGen + AudioGen + EnCodec)

Meta AI

Open-Source-Framework zur Audiogenerierung, das Text-zu-Musik (MusicGen), Text-zu-Soundeffekten (AudioGen) und einen verbesserten neuronalen Audio-Codec (EnCodec) in einer Bibliothek vereint

Aug. 2023

TextOffen▸

Qwen-7B

Alibaba

Erstes offenes Modell der Qwen-Familie von Alibaba.

Aug. 2023

BildGeschlossen▸

Ideogram 0.1 (public launch)

Ideogram AI

Text-zu-Bild-Generierung mit branchenführender, gut lesbarer Typografie, die direkt in die erzeugten Bilder eingebettet ist

Aug. 2023

AudioGeschlossen▸

ElevenLabs Eleven Multilingual v2 (exit beta)

ElevenLabs

Foundational-Sprachmodell, das nahezu 30 Sprachen abdeckt, die Stimmidentität bewahrt und Professional Voice Cloning integriert

September 2023

4 Releases

Sept. 2023

TextOffen▸

Falcon 180B

TII

180B-Parameter-Modell auf 3,5 Billionen Tokens; bei Veröffentlichung das größte offen verfügbare LLM.

Sept. 2023

AudioGeschlossen▸

Stability AI Stable Audio 1.0

Stability AI

Latent-Diffusion-Modell für Text-to-Audio, das 44,1-kHz-Stereotracks von bis zu 95 Sekunden Länge erzeugt – mit Timing-Konditionierung zur Steuerung der Länge

Sept. 2023

TextGeschlossen▸

GPT-4V (Vision) + Sprache

OpenAI

GPT-4 bekommt Bildverständnis (GPT-4V) und gesprochene Konversation — ChatGPT wird wirklich multimodal.

Sept. 2023

TextOffen▸

Mistral 7B

Mistral AI

Modell mit 7,3 Mrd.

Oktober 2023

1 Release

Okt. 2023

BildGeschlossen▸

DALL-E 3

OpenAI

Nativ in ChatGPT integriert für die dialogbasierte Iteration von Prompts; deutliche Verbesserung der Prompt-Treue und Detailgenauigkeit gegenüber DALL-E 2

November 2023

4 Releases

121

Nov. 2023

TextGeschlossen▸

GPT-4 Turbo

OpenAI

Modell der GPT-4-Klasse mit einem Kontextfenster von 128K Tokens und einem Wissensstand bis April 2023, zu einem dreifach niedrigeren Preis pro Input-Token

Nov. 2023

AudioGeschlossen▸

OpenAI TTS API (tts-1 / tts-1-hd) + Whisper large-v3

OpenAI

Entwickler-API für neuronale Text-to-Speech (6 Stimmen, Echtzeit- und HD-Varianten) plus Whisper large-v3 mit einer um 10–20 % niedrigeren WER als v2

Nov. 2023

VideoOffen▸

Stable Video Diffusion (SVD)

Stability AI

Open-Weights-Modell für Image-to-Video, das aus einem einzelnen Referenzbild 14–25 Frames bei 3–30 fps erzeugt

Nov. 2023

VideoGeschlossen▸

Pika 1.0

Pika Labs

Verbraucherfreundliche Text-to-Video-Plattform, die aus Text-Prompts über Web und Discord 3D-Animationen, Anime, Cartoons und filmische Clips erzeugt

Dezember 2023

5 Releases

221

Dez. 2023

TextGeschlossen▸

Gemini 1.0

Google DeepMind

Nativ multimodales Modell (Text, Bild, Audio, Video, Code) in drei Größen: Ultra, Pro, Nano; Ultra war das erste Modell, das mit 90,0 % den Durchschnitt menschlicher Experten im MMLU übertraf

Dez. 2023

TextOffen▸

Mixtral 8x7B

Mistral AI

Sparse-Mixture-of-Experts-Modell mit 46,7 Mrd.

Dez. 2023

BildGeschlossen▸

Google Imagen 2

Google DeepMind

Fotorealistische Bildgenerierung mit Text- und Logo-Darstellung in mehreren Sprachen, unsichtbares Wasserzeichen per SynthID und unternehmensrechtliche IP-Freistellung auf Vertex AI

Dez. 2023

BildGeschlossen⚠▸

Midjourney v6

Midjourney

Deutlicher Sprung beim Fotorealismus, lesbare Textdarstellung im Bild, doppelte Länge des Prompt-Tokens und überarbeitetes Prompting in natürlicher Sprache; drittes von Grund auf trainiertes Modell

Dez. 2023

AudioGeschlossen▸

Suno public launch (Chirp / v2 model)

Suno AI

Endkundenprodukt, das aus einem Text-Prompt in Sekunden vollständige Songs – Gesang, Instrumentierung, Songtext – erzeugt

● Februar 2024 · erst jetzt möglich

Ein Satz wird zu einer Minute kohärentem Video.

Ein Jahr zuvor: vier Sekunden Flackern — der „Will Smith isst Spaghetti“-Clip.

Februar 2024

3 Releases

111

Feb. 2024

TextGeschlossen▸

Gemini 1.5 Pro

Google DeepMind

Kontextfenster von 1 Million Tokens (später auf 2 Mio.

Feb. 2024

VideoGeschlossen▸

OpenAI Sora (preview announcement)

OpenAI

Diffusion-Transformer, der aus Text-Prompts fotorealistische Videos von bis zu 60 Sekunden Länge erzeugt – mit emergenter Objektpermanenz und kohärenten Szenen mit mehreren Charakteren

Feb. 2024

BildGeschlossen▸

Ideogram 1.0

Ideogram AI

Spitzentechnologie bei der Textdarstellung mit einer rund halbierten Textfehlerrate gegenüber 0.1, deutlich verbessertem Fotorealismus und kommerziellem API-Zugang

März 2024

1 Release

März 2024

TextGeschlossen▸

Claude 3 (Opus / Sonnet / Haiku)

Anthropic

Modellfamilie in drei Stufen mit Bildverständnis; Opus führt bei Erscheinen MMLU, GPQA und weitere führende Benchmarks an und übertrifft GPT-4 in den meisten Evaluierungen

April 2024

4 Releases

112

Apr. 2024

AudioGeschlossen▸

Stability AI Stable Audio 2.0

Stability AI

Text-to-Music-Modell, das vollständige Tracks von bis zu 3 Minuten in 44,1-kHz-Stereo mit kohärenter musikalischer Struktur erzeugt, plus Audio-to-Audio-Stilübertragung

Apr. 2024

AudioGeschlossen▸

Udio public beta launch

Udio

KI-Musikgenerierung aus Text-Prompts, die hochauflösende vollständige Songs mit steuerbarem Genre, Stimmung und Instrumentierung erzeugt – entwickelt von ehemaligen Forschern von Google DeepMind

Apr. 2024

TextOffen▸

Llama 3 (8B / 70B)

Meta

Beste quelloffene 8B- und 70B-Modelle bei Erscheinen, mit 128K Kontext und verbessertem Reasoning, Coding und Befolgen von Anweisungen

Apr. 2024

BildGeschlossen▸

Adobe Firefly Image 3

Adobe

Großer Qualitätssprung mit fotorealistischen Details, Stilisierung und Kompositionsabgleich anhand von Referenzbildern, verbessertem Verständnis komplexer Szenen und höherer Generierungsgeschwindigkeit

● Mai 2024 · erst jetzt möglich

Echtzeit-Sprachgespräch, mit Lachen und Unterbrechungen.

Davor: roboterhafte Vorlese-Stimmen mit spürbarer Verzögerung.

Mai 2024

3 Releases

111

Mai 2024

AudioGeschlossen▸

GPT-4o native speech-to-speech (demo)

OpenAI

Durchgängiges multimodales Modell mit Sprache als Ein- und Ausgabe, mit einer Latenz unter 300 ms, Handhabung von Unterbrechungen, Erkennung des emotionalen Tonfalls und mehrsprachiger Echtzeitkonversation

Mai 2024

VideoGeschlossen▸

Google Veo 1

Google DeepMind

Erzeugt filmische Videoclips in 1080p von über einer Minute Länge aus Text-Prompts, mit Verständnis für Kamerabewegungen und physikalische Dynamik

Mai 2024

TextGeschlossen▸

Gemini 1.5 Flash

Google

Schnelles, günstiges Modell mit 1-Mio.-Token-Kontext für Hochvolumen-Aufgaben.

Juni 2024

7 Releases

1132

Juni 2024

AudioOffen▸

Stability Stable Audio Open

Stability AI

Open-Weights-Diffusionsmodell für Text-to-Audio zur Erzeugung von bis zu 47 Sekunden an Soundeffekten und Samples, verfügbar für die nichtkommerzielle Nutzung

Juni 2024

AudioGeschlossen▸

Microsoft VALL-E 2

Microsoft

Zero-Shot-TTS, das auf den VALL-E-Benchmarks menschliches Niveau erreicht – durch wiederholungsbewusstes Sampling und gruppierte Code-Modellierung

Juni 2024

VideoGeschlossen▸

Kuaishou Kling 1.0

Kuaishou

Erzeugt bis zu 2 Minuten lange Videos in 1080p bei 30 fps aus Text oder Bildern mit komplexer Bewegung und Simulation der physischen Welt

Juni 2024

BildOffen▸

Stable Diffusion 3 Medium (open weights)

Stability AI

Architektur eines Multimodal Diffusion Transformer (MMDiT) mit 2 Mrd.

Juni 2024

VideoGeschlossen▸

Luma Dream Machine

Luma AI

Multimodaler Transformer, der aus Text- oder Bildeingaben flüssige, physikalisch plausible 5-Sekunden-Videoclips mit filmischer Kamerabewegung erzeugt

Juni 2024

VideoGeschlossen▸

Runway Gen-3 Alpha

Runway

Text- und Bild-zu-Video in hoher Detailtreue mit ausdrucksstarker Generierung menschlicher Figuren, feingranularer zeitlicher Steuerung und filmischen Übergängen

Juni 2024

TextGeschlossen▸

Claude 3.5 Sonnet (v1)

Anthropic

Mittelklassemodell, das Claude 3 Opus in den meisten Benchmarks bei doppelter Geschwindigkeit und einem Fünftel der Kosten übertrifft

Juli 2024

2 Releases

Juli 2024

TextOffen▸

Llama 3.1 405B

Meta

Open-Weights-Modell mit 405B Parametern und 128K Kontext, das GPT-4o und Claude 3.5 Sonnet in zentralen Evaluierungen erreicht, mit einer destillationsfreundlichen Lizenz

Juli 2024

AudioGeschlossen▸

Udio v1.5

Udio

Überarbeitetes Musikmodell mit 48-kHz-Stereo-Ausgabe, Stem-Downloads (Vocals/Bass/Drums), Audio-zu-Audio-Remix aus eigenen Uploads sowie Tonart- und Modussteuerung

August 2024

5 Releases

131

Aug. 2024

BildOffen▸

FLUX.1 (pro / dev / schnell)

Black Forest Labs

Modellreihe mit 12B Parametern auf Basis von Flow Matching: FLUX.1[schnell] (Apache 2.0, 10× schneller dank Destillation), FLUX.1[dev] (Open Weights, nicht kommerziell), FLUX.1[pro] (geschlossene API), allesamt auf dem Qualitätsniveau von Midjourney v6

Aug. 2024

TextGeschlossen▸

Grok-2

xAI

Frontier-Chat mit Bildverständnis, Echtzeit-X-Suche und FLUX-gestützter Bildgenerierung.

Aug. 2024

BildGeschlossen⚠▸

Google Imagen 3

Google DeepMind

Fotorealistische Bilder mit feinen Details (Stoffe, Wassertropfen, Fell), weniger Artefakten, verbesserter Prompt-Treue und Integration in die Gemini-Apps für alle Nutzer in den USA

Aug. 2024

BildGeschlossen▸

Ideogram 2.0

Ideogram AI

Großer Sprung beim Fotorealismus, fünf Stilmodi (realistisch, Design, 3D, Anime, allgemein), verbesserte Darstellung von Händen, Gesichtern und Haut, iOS-App und öffentliche API

Aug. 2024

VideoGeschlossen▸

MiniMax Hailuo Video-01

MiniMax

Text-zu-Video- und Bild-zu-Video-Generierung in 720p bei 25 fps mit filmischen Kameraeffekten in sechssekündigen Clips

September 2024

7 Releases

313

Sept. 2024

AudioGeschlossen▸

Hume AI EVI 2

Hume AI

Voice-to-Voice-Foundation-Modell mit emotionaler Intelligenz, 500–800 ms Latenz, breiter Nachbildung von Persönlichkeit und Akzent sowie einer neuartigen API zur Stimmmodulation, die direktes Voice-Cloning vermeidet

Sept. 2024

AudioGeschlossen▸

NotebookLM Audio Overviews

Google

Verwandelt beliebige Dokumente in eine Podcast-artige Audiodiskussion zweier Hosts.

Sept. 2024

TextGeschlossen▸

OpenAI o1-preview

OpenAI

Reasoning-Modell, das vor der Antwort eine interne Gedankenkette aus 'Thinking-Tokens' nutzt und beim USA Math Olympiad das 83.

Sept. 2024

VideoGeschlossen▸

Kuaishou Kling 1.5

Kuaishou

Video-Generierung in 1080p HD mit Motion Brush zur präzisen Bewegungssteuerung einzelner Elemente für bis zu sechs Szenenobjekte

Sept. 2024

TextOffen▸

Qwen2.5

Alibaba

Volle 0,5B–72B-Familie mit starkem Coding/Mathe; eines der größten Open-Source-Releases.

Sept. 2024

AudioGeschlossen▸

OpenAI ChatGPT Advanced Voice Mode (ChatGPT Plus rollout)

OpenAI

Echtzeit-Sprachassistent auf GPT-4o-Basis mit Erkennung des emotionalen Tonfalls, Unterbrechung mitten im Satz und einer Reaktionszeit unter 300 ms, ausgerollt an alle Plus- und Team-Abonnenten

Sept. 2024

TextOffen▸

Llama 3.2 (Vision + Edge)

Meta

Metas erste offene multimodale Modelle (11B/90B Vision) plus 1B/3B-Textmodelle für Mobil/Edge.

Oktober 2024

7 Releases

2212

Okt. 2024

AudioGeschlossen▸

OpenAI Realtime API (public beta)

OpenAI

Entwickler-API zum Erstellen latenzarmer Speech-to-Speech-Sprachagenten auf GPT-4o-Basis, die in Anwendungen Unterbrechungen in Echtzeit, Function-Calling und natürliche Prosodie ermöglicht

Okt. 2024

AudioOffen▸

F5-TTS

Shanghai Jiao Tong University / Cambridge University

TTS auf Basis eines Diffusion-Transformers mit Flow Matching, das Zero-Shot-Voice-Cloning mit hoher Natürlichkeit aus kurzem Referenzaudio erreicht und Chinesisch sowie Englisch unterstützt

Okt. 2024

TextGeschlossen▸

Claude 3.5 Sonnet (v2) with Computer Use

Anthropic

Überarbeitetes Sonnet mit einer öffentlichen Beta-API für Computer-Use, die es dem Modell erlaubt, einen echten Desktop zu steuern, indem es einen Bildschirm betrachtet und Maus und Tastatur bedient

Okt. 2024

BildOffen▸

Stable Diffusion 3.5 Large

Stability AI

MMDiT-X-Modell mit 8,1B Parametern und drei parallelen Text-Encodern (OpenCLIP, CLIP, T5-XXL), mit einer freizügigen kommerziellen Lizenz für bis zu 1 Mio.

Okt. 2024

VideoOffen▸

Genmo Mochi 1

Genmo

Text-zu-Video-Modell mit 10B Parametern unter Apache 2.0, das 480p-Clips bei 30 fps mit hoher Bewegungsqualität und Prompt-Treue erzeugt

Okt. 2024

TextGeschlossen▸

Apple Intelligence

Apple

On-Device- und Private-Cloud-KI direkt in iOS/iPadOS/macOS: Schreibwerkzeuge, Zusammenfassungen, Image Playground, ChatGPT-Siri.

Okt. 2024

BildGeschlossen▸

Recraft V3

Recraft

Text-zu-Bild- und Vektor-Generierung mit präziser Textpositionierung, anatomisch korrekten Figuren und als einziges Modell in der Lage, Bilder mit langen, mehrwortigen Textpassagen zu erzeugen

November 2024

2 Releases

Nov. 2024

AudioGeschlossen▸

Suno v4

Suno

Saubereres Audio, schärfere Lyrics, dynamische Songstruktur, Covers und Personas.

Nov. 2024

VideoOffen⚠▸

Lightricks LTX-Video (LTXV)

Lightricks

DiT-basiertes Text-zu-Video-Modell mit 2B Parametern, das 5 Sekunden Video in 768×512 schneller als in Echtzeit erzeugt (4 s Generierung für einen 5-Sekunden-Clip)

Dezember 2024

7 Releases

331

Dez. 2024

VideoOffen▸

Tencent HunyuanVideo

Tencent

Transformer mit 13B Parametern, der von Dual-Stream auf Single-Stream umschaltet, für detailgetreue Text-zu-Video-Generierung mit vollständig offenen Gewichten

Dez. 2024

VideoGeschlossen▸

OpenAI Sora GA (Sora Turbo)

OpenAI

Öffentliche Veröffentlichung von Sora Turbo, das 5–20 Sekunden lange Videoclips in 720p–1080p für ChatGPT-Plus- und Pro-Abonnenten erzeugt

Dez. 2024

TextGeschlossen▸

Gemini 2.0 Flash

Google DeepMind

Agentisches multimodales Modell mit nativer Tool-Nutzung (Suche, Code-Ausführung), Echtzeit-Audio-/Video-Streaming sowie nativ erzeugten Bildern und Sprache

Dez. 2024

VideoGeschlossen▸

Google Veo 2

Google DeepMind

Video-Generierung in bis zu 4K und über mehrere Minuten, mit verbesserter realistischer Physik, präziser menschlicher Bewegung und filmischen Objektivsteuerungen

Dez. 2024

TextGeschlossen▸

OpenAI o3 (preview/announcement)

OpenAI

Reasoning-Modell der zweiten Generation, das beim ARC-AGI 87,5 % (mit hoher Rechenleistung) und bei Humanity's Last Exam 25,2 % erreicht — weit über allen früheren Modellen

Dez. 2024

AudioOffen▸

Kokoro-82M v0.19

hexgrad (independent)

Apache-lizenziertes TTS-Modell mit 82M Parametern, das bei seinem Start Platz 1 in der Hugging Face TTS Arena belegte und natürliche englische Sprache für unter 1 US-Dollar pro Million Zeichen erzeugt

Dez. 2024

TextOffen⚠▸

DeepSeek-V3

DeepSeek

Open-Weights-Modell mit 671B Parametern als sparses MoE, das GPT-4o und Claude 3.5 Sonnet bei Benchmarks erreicht und für nur 5,6 Mio.

● Januar 2025 · erst jetzt möglich

Ein frei herunterladbares Modell auf Augenhöhe mit der teuersten Spitze.

Davor galt Open-Weights als hoffnungslos abgehängt.

Januar 2025

3 Releases

Jan. 2025

TextOffen▸

DeepSeek-R1

DeepSeek

Offenes, MIT-lizenziertes Reasoning-Modell, das mit Reinforcement Learning nahezu von Grund auf (mit minimalen überwachten Daten) trainiert wurde und OpenAI o1 bei Mathematik-, Coding- und Wissenschafts-Benchmarks erreicht

Jan. 2025

TextGeschlossen▸

OpenAI Operator

OpenAI

Erster Mainstream-Agent, der eigenständig einen Webbrowser bedient (klicken, tippen, Formulare ausfüllen).

Jan. 2025

AudioOffen▸

Kokoro TTS v1.0

hexgrad (independent)

Erweiterte Version von Kokoro mit Unterstützung für 8 Sprachen (Englisch, Spanisch, Französisch, Hindi, Italienisch, Japanisch, Mandarin, Portugiesisch) und 54 Stimmen unter Apache 2.0

Februar 2025

4 Releases

211

Feb. 2025

TextGeschlossen▸

xAI Grok 3 + DeepSearch

xAI

Frontier-Reasoning-Modell, trainiert auf dem 200k-GPU-Cluster Colossus, mit der DeepSearch-Suchmaschine.

Feb. 2025

TextGeschlossen⚠▸

Claude 3.7 Sonnet

Anthropic

Erstes Hybrid-Modell, das sofortige Antworten und ein vom Nutzer konfigurierbares erweitertes Reasoning in einem einzigen Modell vereint und 70,3 % auf SWE-bench Verified erreicht (mit erweitertem Scaffolding)

Feb. 2025

VideoOffen▸

Alibaba Wan 2.1

Alibaba (Wan Team)

Apache-2.0-Suite von Modellen zur Videogenerierung (bis zu 14 Mrd.

Feb. 2025

AudioOffen▸

Sesame CSM (conversational speech model) demo

Sesame AI

Modell zur dialogorientierten Sprachgenerierung, das kontextbewusste, emotional ausdrucksstarke Dialoge mit menschenähnlicher Prosodie und Mehrsprecher-Handhabung erzeugt

März 2025

5 Releases

1211

März 2025

AudioGeschlossen▸

OpenAI gpt-4o-transcribe / gpt-4o-mini-tts audio models

OpenAI

Neue STT-Modelle (gpt-4o-transcribe, gpt-4o-mini-transcribe) mit branchenführender WER sowie ein instruierbares TTS (gpt-4o-mini-tts), bei dem Entwickler Ton, Emotion und Vortragsstil vorgeben

März 2025

TextGeschlossen▸

Gemini 2.5 Pro

Google DeepMind

Thinking-Modell, das die Bestenlisten von LMArena und WebDev Arena anführt, bei den Mathematik-Benchmarks AIME 2025 und den Wissenschafts-Benchmarks GPQA führend ist und über ein Kontextfenster von 1 Mio.

März 2025

BildGeschlossen▸

GPT-4o Native Image Generation (gpt-image-1)

OpenAI

Nativ multimodale Bildgenerierung, eingebettet in GPT-4o: dialogorientierte Bildbearbeitung, zuverlässige Texteinblendung im Bild, präzise Befolgung von Anweisungen und Transformation von Bildeingaben

März 2025

BildGeschlossen▸

Ideogram 3.0

Ideogram AI

Höchste ELO-Werte bei der menschlichen Präferenz über verschiedenste Prompt-Typen hinweg, Style References (bis zu 3 Referenzbilder), Style Codes, Batch-Generierung sowie verbesserter Fotorealismus und Textwiedergabe

März 2025

VideoGeschlossen▸

Runway Gen-4

Runway

Konsistente Videogenerierung über mehrere Einstellungen hinweg: Beibehaltung derselben Figuren, Kostüme und Umgebungen in unterschiedlichen Szenen mithilfe von Referenzbild-Konditionierung

April 2025

4 Releases

211

Apr. 2025

BildGeschlossen▸

Midjourney v7

Midjourney

Völlig neue Architektur mit Draft Mode (10× schneller, 0,5× Kosten), Omni Reference für motivübergreifende Konsistenz sowie deutlich verbesserter Textur, Kohärenz und anatomischer Genauigkeit

Apr. 2025

TextOffen⚠▸

Llama 4 (Scout / Maverick)

Meta

Nativ multimodale offene MoE-Modelle; Scout bietet ein Kontextfenster von 10 Mio.

Apr. 2025

VideoGeschlossen▸

Kuaishou Kling 2.0

Kuaishou

Modernste Bewegungsqualität, semantische Reaktionsfähigkeit und multimodale Videobearbeitung aus komplexen Prompts bei branchenführender visueller Wiedergabetreue

Apr. 2025

TextOffen▸

Alibaba Qwen3

Alibaba

Open-Weights-Familie (0,6B–235B MoE) mit umschaltbarem „Thinking/Non-Thinking"-Reasoning.

● Mai 2025 · erst jetzt möglich

Video mit synchronem Ton — in einem einzigen Schritt.

Zwei Jahre zuvor: stumme Vier-Sekunden-Clips.

Mai 2025

4 Releases

121

Mai 2025

BildGeschlossen▸

Google Imagen 4

Google DeepMind

Ausgabe in bis zu 2K-Auflösung, feine Detailwiedergabe (Stoffe, Wassertropfen, Fell), verbesserte Typografie-Integration sowie eine bis zu 10× schnellere Generierung über eine eigene Fast-Variante

Mai 2025

VideoGeschlossen▸

Google Veo 3

Google DeepMind

Videogenerierung mit nativ erzeugtem, synchronisiertem Audio: Dialoge, Soundeffekte und Hintergrundmusik werden gemeinsam mit den Videoframes generiert

Mai 2025

TextGeschlossen▸

Claude Opus 4 / Sonnet 4

Anthropic

Claude-4-Familie, bei der Opus 4 einen Wert von 72,5 % auf SWE-bench Verified und Sonnet 4 einen Wert von 72,7 % erzielt, wobei beide komplexe, mehrstündige agentische Coding-Sitzungen durchhalten

Mai 2025

BildGeschlossen▸

FLUX.1 Kontext [pro] + [max]

Black Forest Labs

Kontextbewusste Bildbearbeitung: gemeinsames Prompting aus Text und Bild für lokale Bearbeitungen, Beibehaltung von Figuren über Szenen hinweg sowie iterative mehrstufige Bearbeitung ohne Qualitätsverlust

Juni 2025

2 Releases

Juni 2025

AudioGeschlossen▸

ElevenLabs Eleven v3 (alpha)

ElevenLabs

Ausdrucksstärkstes TTS-Modell von ElevenLabs mit Audio Tags (inline emotionale Steuerung über in Klammern gesetzte Hinweise), einem Dialogue Mode für Mehrsprecher-JSON-Skripte und Unterstützung für über 70 Sprachen

Juni 2025

BildOffen▸

FLUX.1 Kontext [dev] (open weights)

Black Forest Labs

Open-Weights-Modell mit 12 Mrd.

Juli 2025

1 Release

Juli 2025

TextGeschlossen▸

OpenAI ChatGPT Agent

OpenAI

Vereint Operator (visueller Browser), Deep Research und eine Code-/Terminal-Toolbox mit eigenem virtuellem Computer.

August 2025

5 Releases

212

Aug. 2025

VideoGeschlossen▸

Google DeepMind Genie 3

Google DeepMind

Echtzeit-Weltmodell, das aus einem Prompt begehbare 720p/24fps-Umgebungen erzeugt, minutenlang konsistent.

Aug. 2025

TextGeschlossen▸

GPT-5

OpenAI

Einheitliches Modell, das die Sprachgewandtheit der GPT-Serie und das Reasoning der o-Serie hinter einem automatischen Router vereint und 74,9 % auf SWE-bench Verified sowie 94,6 % auf AIME 2025 erzielt

Aug. 2025

AudioGeschlossen▸

OpenAI gpt-realtime (Realtime API GA)

OpenAI

Produktionsreife Speech-to-Speech-API mit verbesserter Befolgung von Anweisungen, präziserem Tool-Calling, SIP-Telefonie, Bildeingabe und Unterstützung für Remote-MCP-Server

Aug. 2025

AudioGeschlossen▸

MAI-Voice-1

Microsoft AI

Erstes hauseigenes, hochgradig expressives Speech-Generation-Modell (TTS) von Microsoft AI.

Aug. 2025

TextGeschlossen▸

MAI-1-preview

Microsoft AI

Erstes End-to-End trainiertes Foundation-Modell (Text-LLM) von Microsoft AI.

September 2025

3 Releases

111

Sept. 2025

AudioGeschlossen▸

Suno v5 + Suno Studio

Suno AI

Musikmodell auf Profi-Niveau mit Mixing in Studioqualität und authentischem Gesang (v5, 23.

Sept. 2025

TextGeschlossen▸

Claude Sonnet 4.5

Anthropic

Anthropics bestes Coding-/Agenten-Modell, ausgelegt auf stundenlange autonome Software-Aufgaben.

Sept. 2025

VideoGeschlossen▸

OpenAI Sora 2

OpenAI

Sora der zweiten Generation mit synchronisierten Dialogen und Soundeffekten, verbesserter Physikgenauigkeit, Konsistenz über mehrere Einstellungen hinweg sowie einer App zum sozialen Teilen im TikTok-Stil

Oktober 2025

1 Release

Okt. 2025

BildGeschlossen▸

MAI-Image-1

Microsoft AI

Erstes hauseigenes Text-to-Image-Modell von Microsoft AI.

November 2025

1 Release

Nov. 2025

TextGeschlossen▸

Gemini 3

Google DeepMind

Flaggschiff-Modell mit dem Reasoning-Modus Deep Think, der 41 % auf Humanity's Last Exam erreicht; das Standardmodell Gemini 3 Pro erzielte 37,5 %.

Januar 2026

5 Releases

221

Jan. 2026

VideoOffen▸

LTX-2

Lightricks

LTX-2 erzeugt synchronisiertes Video und Audio in einem einzigen Durchgang mit nativer 4K-Auflösung bei 50 Bildern pro Sekunde und bis zu 20 Sekunden Länge, inklusive ausdrucksstarkem Ton, akkuratem Lip-Sync und Umgebungsgeräuschen.

Jan. 2026

BildOffen▸

FLUX.2 [klein]

Black Forest Labs

Kompakte Open-Weights-Modellfamilie (4B und 9B), die Bildgenerierung und -Editing in einer Architektur vereint und Text-to-Image, Single-Reference-Editing sowie Multi-Reference-Generierung in unter einer Sekunde auf Consumer-Hardware (ab ca.

Jan. 2026

TextGeschlossen▸

ERNIE 5.0

Baidu

Nativ voll-modales Modell mit rund 2,4T Parametern in MoE-Architektur (weniger als 3 % der Parameter je Inferenz aktiv), das Text, Bild, Audio und Video gemeinsam versteht und generiert.

Jan. 2026

BildOffen▸

HunyuanImage 3.0-Instruct

Tencent

Natives multimodales Open-Weights-Modell (80B MoE, ca.

Jan. 2026

TextOffen▸

Kimi K2.5

Moonshot AI

Nativ multimodales, agentisches Open-Weights-Modell mit einer 1-Billion-Parameter-Mixture-of-Experts-Architektur (etwa 32 Mrd.

Februar 2026

9 Releases

3222

Feb. 2026

AudioGeschlossen▸

ElevenLabs Eleven v3 (GA)

ElevenLabs

Allgemeine Verfügbarkeit des bislang ausdrucksstärksten TTS-Modells von ElevenLabs mit über 70 Sprachen und Audio Tags zur direkten Steuerung von Emotion und Sprechweise im Text.

Feb. 2026

VideoGeschlossen▸

Kling 3.0 (Video 3.0 / Video 3.0 Omni)

Kuaishou

Die Kling-3.0-Reihe (Video 3.0, Video 3.0 Omni, Image 3.0, Image 3.0 Omni) basiert auf einem einheitlichen multimodalen Framework, das Video und Audio in einem Durchgang erzeugt.

Feb. 2026

TextGeschlossen▸

Claude Opus 4.6

Anthropic

1-Mio.-Token-Kontext (Beta), Spitzenwerte auf Humanity's Last Exam und Terminal-Bench; anhaltendes agentisches Coding in großen Codebases.

Feb. 2026

BildGeschlossen▸

Qwen-Image-2.0

Alibaba (Qwen)

Bildgrundlagenmodell der naechsten Generation, das Text-to-Image-Generierung und Image-Editing in einer einzigen, leichteren Architektur vereint (ca.

Feb. 2026

TextOffen▸

GLM-5

Zhipu AI (Z.ai)

Open-Weights-MoE-Frontier-Modell mit 744B Total-Parametern (rund 40-44B aktiv), 200K-Kontextfenster und DeepSeek-Sparse-Attention, ausgelegt auf agentische Engineering- und langlaufende Coding-Workflows.

Feb. 2026

VideoGeschlossen▸

Seedance 2.0

ByteDance

Seedance 2.0 ist ein einheitliches multimodales Audio-Video-Modell, das Text, Bild, Audio und Video in derselben Anfrage als Eingabe akzeptiert (bis zu 9 Bilder, 3 Videoclips, 3 Audioclips plus Anweisungen) und in einem Durchgang bis zu 15 Sekunden synchrones Mehr-Shot-Video mit Stereo-Audio in mehreren Tonspuren (Musik, Effekte, Sprache) ausgibt.

Feb. 2026

TextGeschlossen▸

Claude Sonnet 4.6

Anthropic

Mittelgroßes Claude-Modell mit deutlichen Fortschritten bei Coding und Computer-Use sowie einem 1-Mio.-Token-Kontextfenster in der Beta.

Feb. 2026

AudioGeschlossen▸

Google Lyria 3

Google DeepMind

Musikgenerierungsmodell, das aus Text-Prompts 30-sekuendige Tracks mit automatisch erzeugten Lyrics und passendem Cover-Artwork erstellt.

Feb. 2026

BildGeschlossen▸

Nano Banana 2 (Gemini 3.1 Flash Image)

Google DeepMind

Schnelles, hochfideles Bildgenerierungs- und Editing-Modell, das das Weltwissen, die Qualitaet und das Reasoning von Nano Banana Pro mit Flash-Geschwindigkeit kombiniert; Aufloesungen von 512px bis 4K, Charakterkonsistenz fuer bis zu fuenf Charaktere und Fidelitaet von bis zu 14 Objekten in einem Workflow.

März 2026

6 Releases

123

März 2026

TextGeschlossen▸

GPT-5.4

OpenAI

Erstes Mainline-Reasoning-Modell mit integriertem Frontier-Coding und Computer-Use; 33% weniger Faktenfehler als 5.2.

März 2026

AudioOffen▸

Fish Audio S2

Fish Audio

Open-Weights-TTS-Modell mit Dual-AR-Architektur (rund 4B Parameter auf der Zeitachse, 400M auf der Tiefenachse), trainiert auf ueber 10 Millionen Stunden Audio in etwa 50 Sprachen.

März 2026

BildGeschlossen▸

Midjourney V8 (Alpha)

Midjourney

Neue Modellgeneration mit ca.

März 2026

BildGeschlossen▸

MAI-Image-2

Microsoft AI

Hauseigenes Text-to-Image-Modell der zweiten Generation.

März 2026

AudioGeschlossen▸

Google Lyria 3 Pro

Google DeepMind

Erweiterte Variante von Lyria 3, die Tracks von bis zu 3 Minuten Laenge mit struktureller Bewusstheit erzeugt.

März 2026

AudioGeschlossen▸

Suno v5.5 (voice capture + custom models)

Suno AI

Musikgenerierung mit persönlicher Voice Capture (eine 30-sekündige bis 4-minütige Gesangsprobe überträgt deine stimmliche Identität auf jeden generierten Track), Fine-Tuning eigener, vom Nutzer trainierter Modelle sowie eine personalisierte Geschmacks-Engine

April 2026

13 Releases

9112

Apr. 2026

AudioGeschlossen▸

MAI-Transcribe-1

Microsoft AI

Erstes hauseigenes Speech-to-Text-(Transkriptions-)Modell von Microsoft AI.

Apr. 2026

VideoGeschlossen▸

Wan2.7-Video

Alibaba

Wan2.7-Video ist eine Suite aus vier Modellen (Text-to-Video, Image-to-Video, Reference-to-Video und Video-Editing).

Apr. 2026

TextOffen▸

GLM-5.1

Zhipu / Z.ai

754B-Parameter-MoE; erstes Open-Source-Modell auf Platz 1 von SWE-Bench Pro (58,4%), vor Claude Opus 4.6.

Apr. 2026

TextGeschlossen▸

Muse Spark

Meta (Superintelligence Labs)

Nativ multimodales Reasoning-Modell mit Tool-Use, visuellem Chain-of-Thought und Multi-Agent-Orchestrierung (Contemplating-Modus).

Apr. 2026

AudioOffen▸

MOSS-Audio

OpenMOSS / MOSI.AI / Shanghai Innovation Institute

Open-Source-Foundation-Modell fuer einheitliches Audio-Verstehen ueber komplexe reale Audioszenen hinweg: Sprachverstehen, Umgebungsgeraeusche, Musikverstehen, Audio-Captioning, zeitbewusstes Question-Answering und mehrstufiges Reasoning.

Apr. 2026

TextGeschlossen▸

Claude Opus 4.7

Anthropic

Frontier-Modell der Opus-Klasse mit State-of-the-Art-Performance bei langlaufenden, komplexen Coding- und Agenten-Aufgaben.

Apr. 2026

TextOffen▸

Kimi K2.6

Moonshot AI

Open-Weights-Modell auf 1-Billion-Parameter-MoE-Basis (32 Mrd.

Apr. 2026

BildGeschlossen▸

gpt-image-2 (ChatGPT Images 2.0)

OpenAI

Bildmodell mit integriertem Reasoning (O-Series-Mechanismus / Thinking-Mode), das vor der Generierung Komposition plant, Objektanzahl verifiziert und Prompt-Constraints prueft; nahezu perfektes mehrsprachiges Text-Rendering (ca.

Apr. 2026

TextGeschlossen▸

GPT-5.5

OpenAI

OpenAIs zu diesem Zeitpunkt fähigstes Modell, mit besonders starken Zuwächsen bei agentischem Coding, Computer-Use, Knowledge Work und früher wissenschaftlicher Forschung.

Apr. 2026

TextOffen▸

Hy3 preview (Hunyuan)

Tencent

Fused-Reasoning-MoE-Modell (fast-and-slow-thinking) mit 295B Total-Parametern (21B aktiv) und 256K-Kontextfenster, ausgelegt auf komplexes Reasoning, Instruction Following, In-Context-Learning, Code-Verständnis und agentische Workloads.

Apr. 2026

TextOffen▸

DeepSeek V4 (Preview)

DeepSeek

Open-Weights-Flaggschiff in zwei Varianten: V4-Pro (1,6 Bio.

Apr. 2026

TextOffen▸

Mistral Medium 3.5

Mistral AI

Frontier-multimodales Modell mit einstellbarem reasoning_effort und 256k Kontext; neuer Standard für Le Chat.

Apr. 2026

TextGeschlossen▸

ERNIE 5.1 Preview

Baidu

Effizienzoptimiertes MoE-Modell, das gegenüber ERNIE 5.0 die Total-Parameter auf etwa ein Drittel und die aktiven Parameter auf etwa die Hälfte reduziert, dabei mit decoupled fully-asynchronous Reinforcement Learning und skaliertem agentischem Post-Training trainiert wurde.

● April 2026 · erst jetzt möglich

Agenten, die stundenlang eigenständig Aufgaben lösen.

2022: ein Chatbot, der auf einzelne Fragen antwortet.

Mai 2026

9 Releases

513

Mai 2026

AudioGeschlossen▸

OpenAI gpt-realtime-2 (mit gpt-realtime-translate und gpt-realtime-whisper)

OpenAI

Drei neue Audiomodelle in der API.

Mai 2026

TextGeschlossen▸

Gemini 3.5 Flash

Google

Schnelles, kostengünstiges Modell der neuen Gemini-3.5-Generation, das auf agentischen und Coding-Benchmarks (Terminal-Bench 2.1 mit 76,2 %, MCP Atlas mit 83,6 %) das vorherige Gemini 3.1 Pro übertrifft und dabei rund viermal schneller läuft als andere Frontier-Modelle derselben Stufe.

Mai 2026

TextGeschlossen▸

Qwen3.7-Max

Alibaba (Qwen)

Alibabas proprietäres Flaggschiff-Modell für die Agenten-Ära mit 1-Mio.-Token-Kontextfenster, ausgelegt auf Coding-Agenten, Büro-Automatisierung und Langzeit-Autonomie.

Mai 2026

VideoGeschlossen▸

Gemini Omni Flash

Google DeepMind

Gemini Omni Flash ist das erste Modell der Gemini-Omni-Familie und erzeugt aus beliebiger Kombination von Bild, Audio, Video und Text hochwertige Videos von rund 10 Sekunden mit synchronem Audio.

Mai 2026

TextGeschlossen▸

Gemini Spark

Google

Immer aktiver persönlicher Agent auf Google-Cloud-VMs, der Langzeit-Aufgaben über Gmail/Docs/Slides und Dritt-Apps via MCP ausführt.

Mai 2026

AudioOffen▸

Stable Audio 3.0

Stability AI

Modellfamilie zur Audiogenerierung aus vier Modellen: Small SFX, Small, Medium und Large.

Mai 2026

AudioGeschlossen▸

ElevenLabs Music v2

ElevenLabs

Neues Musikgenerierungsmodell, das innerhalb eines einzelnen Songs das Genre wechseln kann (etwa von Oper zu Heavy Metal und zurueck), schnellen Rap und dichte Textlieferung beherrscht und nicht-musikalische Soundeffekte direkt in den Track einbettet, ohne die musikalische Kohaerenz zu verlieren.

Mai 2026

TextGeschlossen▸

Claude Opus 4.8

Anthropic

Modell der Opus-Klasse mit Schwerpunkt auf Ehrlichkeit und Zuverlässigkeit: laut Anthropic rund viermal seltener als Opus 4.7 dabei, selbst geschriebene Code-Fehler unkommentiert durchgehen zu lassen.

Mai 2026

TextOffen▸

Step 3.7 Flash

StepFun

Vision-Language-MoE-Modell mit 198B Total-Parametern (rund 11B aktiv), das einen 1,8B-Vision-Encoder mit einem 196B-Sprach-Backbone koppelt und Charts, PDFs, UI-Wireframes und App-GUIs ohne separate Vision-API verarbeitet.

Juni 2026

11 Releases

7211

Juni 2026

TextOffen▸

MiniMax M3

MiniMax

Nativ multimodales Open-Weights-Modell mit der neuen MSA-Architektur (MiniMax Sparse Attention), 1M-Kontextfenster, Bild- und Video-Input sowie Computer-Use, das Frontier-Coding (SWE-Bench Pro 59,0 %) mit langlaufender autonomer Ausführung über 24+ Stunden verbindet.

Juni 2026

TextGeschlossen▸

MAI-Thinking-1

Microsoft AI

Sparse-MoE-Reasoning-Modell mit rund 35B aktiven und etwa 1T Total-Parametern und 256K-Kontextfenster, ausgelegt auf mehrstufige agentische Aufgaben; vollständig auf kommerziell lizenzierten, nachvollziehbaren Daten trainiert, ohne Distillation aus Drittmodellen.

Juni 2026

BildGeschlossen▸

MAI-Image-2.5

Microsoft AI

Hauseigenes Bildmodell für maximale Fidelity, das sowohl Text-to-Image als auch präzises, kontrollierbares Image-Editing beherrscht.

Juni 2026

AudioGeschlossen▸

MAI-Voice-2

Microsoft AI

Bisher ausdrucksstärkstes, natürlich klingendes Text-to-Speech-Modell von Microsoft AI.

Juni 2026

TextGeschlossen▸

MAI-Code-1-Flash

Microsoft AI

Erstes hauseigenes Coding-Modell von Microsoft AI: ein inference-effizientes, agentisches Code-Modell mit 5 Mrd.

Juni 2026

BildOffen▸

Ideogram 4.0

Ideogram

Erstes Open-Weights-Foundation-Modell von Ideogram (9.3B, Single-Stream-Diffusion-Transformer mit 34 Layern und Qwen3-VL-8B-Instruct als Text-Encoder), spezialisiert auf Design-Arbeit: branchenfuehrendes Text-Rendering (0.97 X-Omni English OCR), Bounding-Box-Layout-Kontrolle, strukturiertes JSON-Prompting, native Transparenz und 2K-Aufloesung; laeuft mit Quantisierung auf einer einzelnen 24-GB-GPU.

Juni 2026

TextGeschlossen▸

Claude Fable 5

Anthropic

Anthropics bis dahin fähigstes öffentlich verfügbares Modell, das die neue Mythos-Klasse oberhalb der Opus-Klasse breit zugänglich macht.

Juni 2026

TextOffen▸

DiffusionGemma 26B-A4B

Google DeepMind

Experimentelles offenes Text-Diffusion-Modell auf Gemma-4-Basis mit 26B MoE-Parametern (rund 3,8B aktiv), das 256-Token-Blöcke parallel statt sequenziell generiert und so bis zu 4x schnellere Textgenerierung erreicht (über 1.000 Tokens/s auf einer einzelnen H100).

Juni 2026

TextOffen▸

Kimi K2.7 Code

Moonshot AI

Coding-fokussiertes agentisches MoE-Modell mit 1T Total-Parametern (32B aktiv, 384 Experts) und 256K-Kontextfenster, das mehrstufig plant, editiert, Tools ausführt und debuggt.

Juni 2026

TextOffen▸

GLM-5.2

Zhipu AI (Z.ai)

Agentisch ausgerichtetes Coding-Modell auf Basis derselben 744B-MoE-Architektur wie GLM-5, mit einem nutzbaren Kontextfenster von 1M Tokens, bis zu 131.072 Output-Tokens und einem neuen System mit zwei Reasoning-Stufen (High und Max).

Juni 2026

VideoGeschlossen▸

Seedance 2.0 Mini

ByteDance (Dreamina)

Leichtere, schnellere und günstigere Variante von Seedance 2.0 — rund 2× schneller als Seedance 2.0 Fast, 720p–1080p, 5–12 Sekunden, ab $0,02/Sek.

Fortsetzung folgt

Und das war erst der Anfang.

Das Tempo lässt nicht nach — der nächste Durchbruch ist näher, als du denkst. Bleib neugierig.

lädt …

Von Wissen zu Handlung

Wissen reicht nicht. Dein Team muss mithalten.

Die Tools ändern sich im Wochentakt — du hast es gerade gescrollt. Der Vorsprung liegt nicht im nächsten Modell, sondern in der Fähigkeit, diese Veränderung einzuordnen und KI im Arbeitsalltag produktiv zu nutzen.

Genau dafür gibt es snipKI.

snipKI für dein Team→Oder im Bild bleiben: der KI-Newsletter →

Offen vs. geschlossen

Die Speerspitze ist kein geschlossener Club mehr

Geschlossene Labore bringen weiterhin die meisten Modelle heraus, daher laufen 32% dieser Meilensteine auf Open-Weights. Die Verschiebung dreht sich um Qualität, nicht um Anzahl: 2025 lieferten sich offene Releases wie DeepSeek-R1, Qwen und Llama einen Schlagabtausch mit den besten geschlossenen Systemen. Jeder Balken unten ist ein Jahr, seine Länge die Zahl der Meilensteine, aufgeteilt nach Lizenz.

2022

5/14 offen

2023

14/37 offen

2024

14/48 offen

2025

7/33 offen

2026

19/53 offen

Open-WeightsGeschlossenBalkenlänge = Releases pro Jahr

Schon vergessen?

Das fühlte sich gerade noch wie Magie an.

Mit dem Computer reden — und verstanden werden.heute Alltag
Ein Foto live in jede Sprache übersetzen.heute Alltag
Aus einem Satz ein fertiges Lied mit Gesang.heute Alltag
Eine Idee in Sekunden als fotorealistisches Bild.heute Alltag
Software aus einer Beschreibung schreiben lassen.heute Alltag
Ein Video aus zwei Zeilen Text — mit Ton.heute Alltag
Hunderte Seiten zu einem Gespräch zusammenfassen.heute Alltag
Eine Stimme aus drei Sekunden Audio nachbilden.heute Alltag

Nichts davon ist älter als dreieinhalb Jahre.