Generative KI · Ende 2022 → heute

Die Beschleunigung, die wir alle unterschätzen.

2022 brachte KI kaum einen Satz zu Ende. Heute schreibt sie Software, malt Fotos, dreht Filme und spricht wie ein Mensch — alles in dreieinhalb Jahren.

Text

2022: Autovervollständigung

heute: schreibt Software & besteht Examen

Bild

2022: verschmierte Gesichter

heute: Fotorealismus mit lesbarem Text

Video

2022: gab es praktisch nicht

heute: filmreife Clips — mit Ton

Audio

2022: Roboter-Vorlesestimme

heute: Echtzeit-Gespräch & ganze Songs

185 Meilensteine · jedes Datum primärgeprüft
Scrollen

Damals → Heute

Wie viel besser? Sieh selbst.

Vier Dimensionen, dreieinhalb Jahre. Links der Stand 2022, rechts heute.

TextTokens Kontext4.0001 Mio.+
2022

Stichwortsuche und Autovervollständigung. Verlor nach ein paar Sätzen den Faden.

Heute

Schreibt Software, besteht Examen, arbeitet stundenlang eigenständig als Agent.

BildBildqualität512 px2K + Text
2022

Verschmierte Gesichter, sechs Finger, unlesbare Buchstaben.

Heute

Fotorealismus mit korrekter Typografie — in wenigen Sekunden.

VideoBewegtbild4 Sek.Minuten + Ton
2022

Vier Sekunden stummes Flackern (das „Will Smith isst Spaghetti“-Meme).

Heute

Filmreife Clips mit lippensynchronem Dialog und Geräuschen.

AudioStimme & KlangVorlese-RoboterEchtzeit < 1 Sek.
2022

Roboterhaftes Vorlesen mit hörbarer Verzögerung.

Heute

Natürliches Gespräch in Echtzeit — und ganze Songs aus einem Satz.

Das Wichtigste in Zahlen

0
verfolgte Meilensteine
Text · Bild · Video · Audio
0
Tage seit ChatGPT
≈ 3,5 Jahre
0 %
laufen auf Open-Weights
59 von 185 Releases
0,0×
Spitzen-Takt vs. Start
Höhepunkt: 33 in 2026-Q2

Release-Takt

Bemerkenswerte Releases pro Quartal

Jeder Balken ist ein Quartal, gestapelt nach Modalität. Die Form ist die Geschichte: Was früher ein paar Mal im Jahr kam, kommt heute alle paar Wochen.

TextBildVideoAudio
2022
2023
2024
2025
2026

Jeder Balken = ein Quartal · gestapelt nach Modalität · 2026 läuft noch

1
Releases in 2022-Q1
33
Höhepunkt — 2026-Q2
33.0×
Höhepunkt vs. Start

Tempo im Vergleich

Frühere Umbrüche brauchten ein Jahrzehnt.

Grobe Maßstäbe zum Einordnen, kein exakter Vergleich — aber die Größenordnung stimmt.

Das Web
ca. 1993 – 2000

Vom ersten Browser bis zur alltäglichen Massennutzung vergingen rund sieben Jahre.

Das Smartphone
ca. 2007 – 2012

Vom ersten iPhone bis zur App-Wirtschaft, die den Alltag umbaute: etwa fünf Jahre.

Generative KI
2022 – 2026

Dieselben dreieinhalb Jahre: von Stichwortsuche zu autonomen Agenten, Video mit Ton und Songs auf Zuruf.

Im Herbst 2022 wirkte eine Maschine, die ein Gespräch führen konnte, wie Science-Fiction. Bildmodelle verschmierten Gesichter zu Albträumen. Video war eine flackernde Kuriosität. Synthetische Stimmen klangen synthetisch.

Dann geriet der Boden in Bewegung. Was folgt, ist das Protokoll — Release für Release, über vier Modalitäten hinweg — davon, wie schnell aus „unmöglich“ „alltäglich“ wurde. Lies es langsam. Achte darauf, wie weit die frühen Meilensteine auseinander liegen, und wie sie sich drängen, je näher du der Gegenwart kommst.

Die Zeitachse

Alles, Monat für Monat.

Jedes Modell, jedes Datum — von Ende 2022 bis heute. Filtere nach Disziplin, such ein Modell, klapp die Details auf.

Filter

Januar 2022

1 Release
27
Jan. 2022
TextGeschlossen

InstructGPT

OpenAI

Erstes per RLHF an menschlichen Anweisungen ausgerichtetes Produktionsmodell, ausgeliefert als Standard in der OpenAI-API.

April 2022

1 Release
4
Apr. 2022
TextGeschlossen

PaLM (540B)

Google

540-Mrd.-Parameter-Sprachmodell, das GPT-3 auf fast allen Benchmarks schlug und emergentes Chain-of-Thought-Reasoning zeigte.

Juli 2022

1 Release
12
Juli 2022
BildGeschlossen

Midjourney (Open Beta, v3)

Midjourney

Öffnete die Discord-basierte Text-zu-Bild-Generierung für alle.

August 2022

1 Release
22
Aug. 2022
BildOffen

Stable Diffusion 1.4 (public release)

Stability AI / CompVis / RunwayML

Erstes leistungsfähiges Open-Weights-Diffusionsmodell für Text-zu-Bild, das auf Consumer-GPUs läuft und 512×512-Bilder in Sekunden erzeugt

September 2022

5 Releases
7
Sept. 2022
AudioGeschlossen

AudioLM

Google

Erzeugt zusammenhängendes Audio (Sprache, Klavier) per Sprachmodellierung über Audio-Tokens.

21
Sept. 2022
AudioOffen

Whisper (large-v1)

OpenAI

Mehrsprachige Open-Source-ASR, trainiert auf 680.000 Stunden Web-Audio, die über 99 Sprachen hinweg eine nahezu menschliche Transkriptionsqualität erreicht

28
Sept. 2022
BildGeschlossen

DALL-E 2 (public launch, no waitlist)

OpenAI

Fotorealistische Bilderzeugung und -bearbeitung per Inpainting/Outpainting mit 1024×1024, ergänzt um CLIP-gestütztes semantisches Verständnis

29
Sept. 2022
VideoGeschlossen

Make-A-Video

Meta

Erstes prominentes Text-zu-Video-Modell; lernte Bewegung aus unbeschriftetem Video, Aussehen aus Text-Bild-Paaren.

29
Sept. 2022
BildGeschlossen

DreamFusion

Google

Text-zu-3D ohne 3D-Trainingsdaten, durch Destillation eines 2D-Diffusionsmodells in ein NeRF (Score Distillation).

Oktober 2022

1 Release
20
Okt. 2022
BildOffen

Stable Diffusion 1.5

RunwayML / Stability AI

Verbesserte Bildqualität, bessere Ästhetik und höhere Prompt-Treue gegenüber SD 1.4 auf derselben 512×512-Architektur

November 2022

3 Releases
5
Nov. 2022
BildGeschlossen

Midjourney v4

Midjourney

Völlig neue Architektur, trainiert auf Midjourneys eigenem KI-Supercluster, mit deutlich verbesserter Kohärenz, mehr Detailtreue und Unterstützung komplexer Prompts mit mehreren Motiven

24
Nov. 2022
BildOffen

Stable Diffusion 2.0

Stability AI

Native Auflösung von 768×768, neuer OpenCLIP-Text-Encoder, Depth-to-Image-Pipeline und ein 4×-Upscaler-Modell

30
Nov. 2022
TextGeschlossen

ChatGPT (GPT-3.5-turbo)

OpenAI

Dialogorientierter, anweisungsbefolgender Chatbot, der über den Webbrowser für die breite Öffentlichkeit zugänglich ist

November 2022 · erst jetzt möglich

Zum ersten Mal redet eine Maschine wie ein Mensch.

Davor: Stichwortsuche und holprige Autovervollständigung.

Dezember 2022

1 Release
8
Dez. 2022
AudioOffen

Whisper large-v2

OpenAI

Verbessertes Whisper-Modell mit einer um etwa 10–15 % geringeren Wortfehlerrate, insbesondere bei verrauschten Aufnahmen, das 2,5-mal länger und mit Regularisierung trainiert wurde

Januar 2023

3 Releases
·
Jan. 2023
★ Newsletter

KI-Newsletter von Jens

jens.marketing

Ein deutschsprachiger Newsletter, der seit Anfang 2023 die KI-Entwicklung verfolgt und einordnet.

5
Jan. 2023
AudioGeschlossen

VALL-E

Microsoft

Zero-Shot-TTS als neuronales Codec-Sprachmodell, das die Stimme eines Sprechers aus einem 3-sekündigen Audio-Prompt synthetisiert und dabei die emotionale Färbung des Sprechers bewahrt

23
Jan. 2023
AudioGeschlossen

ElevenLabs Beta Launch (instant voice cloning + TTS)

ElevenLabs

Für Verbraucher zugängliches sofortiges Voice-Cloning aus kurzen Audioproben, kombiniert mit emotionsbewusster Sprachsynthese, zunächst auf Englisch und Polnisch

Februar 2023

2 Releases
6
Feb. 2023
VideoGeschlossen

Runway Gen-1

Runway

Video-zu-Video-Stilübertragung: Anwendung eines beliebigen Bild- oder Textstils auf jedes Einzelbild eines bestehenden Videoclips

24
Feb. 2023
TextOffen

LLaMA 1

Meta

Hochwertiges, forschungstaugliches LLM (7B–65B), veröffentlicht mit offenen Gewichten unter einer nichtkommerziellen Lizenz

März 2023

6 Releases
14
März 2023
TextGeschlossen

GPT-4

OpenAI

Großes multimodales Modell, das Bild- und Texteingaben verarbeitet, etwa das 90.

15
März 2023
BildGeschlossen

Midjourney v5

Midjourney

Fotorealistische Bilder in doppelter Auflösung (1024×1024), Prompting in natürlicher Sprache, beliebige Seitenverhältnisse und verlässlich fünffingrige Hände

20
März 2023
VideoGeschlossen

Runway Gen-2

Runway

Reine Text-zu-Video-Generierung: Erstellung neuartiger Videoclips allein aus Text-Prompts, ohne jegliche Quellvideo-Eingabe

20
März 2023
VideoOffen

ModelScope Text-to-Video

Alibaba DAMO Academy

Open-Weight-Diffusionsmodell mit 1,7 Mrd.

21
März 2023
BildGeschlossen

Adobe Firefly (beta)

Adobe

Erzeugung von Text-zu-Bild und Texteffekten, ausschließlich auf lizenzierten Adobe-Stock-Inhalten und gemeinfreiem Material trainiert, eingebettet in Photoshop und die Creative Cloud

30
März 2023
TextOffen

AutoGPT

Significant Gravitas

Open-Source-Agent, der GPT-4-Aufrufe verkettet, um ein Ziel selbstständig mit Web- und Datei-Tools zu verfolgen.

April 2023

2 Releases
·
Apr. 2023
AudioOffen

Bark

Suno AI

Open-Source-TTS auf Transformer-Basis mit Zero-Shot-Voice-Cloning, nonverbalen Lautäußerungen (Lachen, Seufzen), Hintergrundmusik und Unterstützung für über 100 Sprachen

27
Apr. 2023
AudioGeschlossen

Eleven Multilingual v1

ElevenLabs

Sprachübergreifendes TTS, das die Merkmale einer geklonten Stimme in einem einzigen Prompt über 7 europäische und südasiatische Sprachen hinweg bewahrt

Mai 2023

2 Releases
10
Mai 2023
AudioGeschlossen

Google MusicLM (public)

Google

Text-zu-Musik-Generierung, die aus frei formulierten natürlichsprachlichen Prompts hochauflösende Stereomusik erzeugt, trainiert auf 280.000 Stunden Musik

10
Mai 2023
TextGeschlossen

PaLM 2

Google

Googles nächste LLM-Generation mit stärkerem Multilingual-/Reasoning-/Coding-Können; trieb Bard und 25+ Produkte an.

Juni 2023 · erst jetzt möglich

Fotorealistische Bilder auf Zuruf.

Wenige Monate zuvor: verschmierte Gesichter und sechs Finger.

Juni 2023

1 Release
8
Juni 2023
AudioOffen

Meta MusicGen (open-source)

Meta AI

Open-Source-Musikgenerierung mit Steuerung über Text und optionale Melodie-Referenz, verfügbar als Code und Modellgewichte; Gewichte unter CC-BY-NC 4.0

Juli 2023

3 Releases
11
Juli 2023
TextGeschlossen

Claude 2

Anthropic

LLM mit einem Kontextfenster von 100.000 Tokens, verbessertem Coding (71,2 % HumanEval) und öffentlicher Chat-Oberfläche claude.ai

18
Juli 2023
TextOffen

Llama 2

Meta

Open-Weight-LLM (7B–70B), das über eine Partnerschaft von Meta und Microsoft kostenlos für Forschung und kommerzielle Nutzung veröffentlicht wurde

26
Juli 2023
BildOffen

Stable Diffusion XL 1.0 (SDXL)

Stability AI

Pipeline aus einem Basismodell mit 3,5 Mrd.

August 2023

4 Releases
2
Aug. 2023
AudioOffen

Meta AudioCraft (MusicGen + AudioGen + EnCodec)

Meta AI

Open-Source-Framework zur Audiogenerierung, das Text-zu-Musik (MusicGen), Text-zu-Soundeffekten (AudioGen) und einen verbesserten neuronalen Audio-Codec (EnCodec) in einer Bibliothek vereint

3
Aug. 2023
TextOffen

Qwen-7B

Alibaba

Erstes offenes Modell der Qwen-Familie von Alibaba.

22
Aug. 2023
BildGeschlossen

Ideogram 0.1 (public launch)

Ideogram AI

Text-zu-Bild-Generierung mit branchenführender, gut lesbarer Typografie, die direkt in die erzeugten Bilder eingebettet ist

22
Aug. 2023
AudioGeschlossen

ElevenLabs Eleven Multilingual v2 (exit beta)

ElevenLabs

Foundational-Sprachmodell, das nahezu 30 Sprachen abdeckt, die Stimmidentität bewahrt und Professional Voice Cloning integriert

September 2023

4 Releases
6
Sept. 2023
TextOffen

Falcon 180B

TII

180B-Parameter-Modell auf 3,5 Billionen Tokens; bei Veröffentlichung das größte offen verfügbare LLM.

13
Sept. 2023
AudioGeschlossen

Stability AI Stable Audio 1.0

Stability AI

Latent-Diffusion-Modell für Text-to-Audio, das 44,1-kHz-Stereotracks von bis zu 95 Sekunden Länge erzeugt – mit Timing-Konditionierung zur Steuerung der Länge

25
Sept. 2023
TextGeschlossen

GPT-4V (Vision) + Sprache

OpenAI

GPT-4 bekommt Bildverständnis (GPT-4V) und gesprochene Konversation — ChatGPT wird wirklich multimodal.

27
Sept. 2023
TextOffen

Mistral 7B

Mistral AI

Modell mit 7,3 Mrd.

Oktober 2023

1 Release
19
Okt. 2023
BildGeschlossen

DALL-E 3

OpenAI

Nativ in ChatGPT integriert für die dialogbasierte Iteration von Prompts; deutliche Verbesserung der Prompt-Treue und Detailgenauigkeit gegenüber DALL-E 2

November 2023

4 Releases
6
Nov. 2023
TextGeschlossen

GPT-4 Turbo

OpenAI

Modell der GPT-4-Klasse mit einem Kontextfenster von 128K Tokens und einem Wissensstand bis April 2023, zu einem dreifach niedrigeren Preis pro Input-Token

6
Nov. 2023
AudioGeschlossen

OpenAI TTS API (tts-1 / tts-1-hd) + Whisper large-v3

OpenAI

Entwickler-API für neuronale Text-to-Speech (6 Stimmen, Echtzeit- und HD-Varianten) plus Whisper large-v3 mit einer um 10–20 % niedrigeren WER als v2

21
Nov. 2023
VideoOffen

Stable Video Diffusion (SVD)

Stability AI

Open-Weights-Modell für Image-to-Video, das aus einem einzelnen Referenzbild 14–25 Frames bei 3–30 fps erzeugt

28
Nov. 2023
VideoGeschlossen

Pika 1.0

Pika Labs

Verbraucherfreundliche Text-to-Video-Plattform, die aus Text-Prompts über Web und Discord 3D-Animationen, Anime, Cartoons und filmische Clips erzeugt

Dezember 2023

5 Releases
6
Dez. 2023
TextGeschlossen

Gemini 1.0

Google DeepMind

Nativ multimodales Modell (Text, Bild, Audio, Video, Code) in drei Größen: Ultra, Pro, Nano; Ultra war das erste Modell, das mit 90,0 % den Durchschnitt menschlicher Experten im MMLU übertraf

11
Dez. 2023
TextOffen

Mixtral 8x7B

Mistral AI

Sparse-Mixture-of-Experts-Modell mit 46,7 Mrd.

13
Dez. 2023
BildGeschlossen

Google Imagen 2

Google DeepMind

Fotorealistische Bildgenerierung mit Text- und Logo-Darstellung in mehreren Sprachen, unsichtbares Wasserzeichen per SynthID und unternehmensrechtliche IP-Freistellung auf Vertex AI

20
Dez. 2023
BildGeschlossen

Midjourney v6

Midjourney

Deutlicher Sprung beim Fotorealismus, lesbare Textdarstellung im Bild, doppelte Länge des Prompt-Tokens und überarbeitetes Prompting in natürlicher Sprache; drittes von Grund auf trainiertes Modell

20
Dez. 2023
AudioGeschlossen

Suno public launch (Chirp / v2 model)

Suno AI

Endkundenprodukt, das aus einem Text-Prompt in Sekunden vollständige Songs – Gesang, Instrumentierung, Songtext – erzeugt

Februar 2024 · erst jetzt möglich

Ein Satz wird zu einer Minute kohärentem Video.

Ein Jahr zuvor: vier Sekunden Flackern — der „Will Smith isst Spaghetti“-Clip.

Februar 2024

3 Releases
15
Feb. 2024
TextGeschlossen

Gemini 1.5 Pro

Google DeepMind

Kontextfenster von 1 Million Tokens (später auf 2 Mio.

15
Feb. 2024
VideoGeschlossen

OpenAI Sora (preview announcement)

OpenAI

Diffusion-Transformer, der aus Text-Prompts fotorealistische Videos von bis zu 60 Sekunden Länge erzeugt – mit emergenter Objektpermanenz und kohärenten Szenen mit mehreren Charakteren

28
Feb. 2024
BildGeschlossen

Ideogram 1.0

Ideogram AI

Spitzentechnologie bei der Textdarstellung mit einer rund halbierten Textfehlerrate gegenüber 0.1, deutlich verbessertem Fotorealismus und kommerziellem API-Zugang

März 2024

1 Release
4
März 2024
TextGeschlossen

Claude 3 (Opus / Sonnet / Haiku)

Anthropic

Modellfamilie in drei Stufen mit Bildverständnis; Opus führt bei Erscheinen MMLU, GPQA und weitere führende Benchmarks an und übertrifft GPT-4 in den meisten Evaluierungen

April 2024

4 Releases
3
Apr. 2024
AudioGeschlossen

Stability AI Stable Audio 2.0

Stability AI

Text-to-Music-Modell, das vollständige Tracks von bis zu 3 Minuten in 44,1-kHz-Stereo mit kohärenter musikalischer Struktur erzeugt, plus Audio-to-Audio-Stilübertragung

10
Apr. 2024
AudioGeschlossen

Udio public beta launch

Udio

KI-Musikgenerierung aus Text-Prompts, die hochauflösende vollständige Songs mit steuerbarem Genre, Stimmung und Instrumentierung erzeugt – entwickelt von ehemaligen Forschern von Google DeepMind

18
Apr. 2024
TextOffen

Llama 3 (8B / 70B)

Meta

Beste quelloffene 8B- und 70B-Modelle bei Erscheinen, mit 128K Kontext und verbessertem Reasoning, Coding und Befolgen von Anweisungen

23
Apr. 2024
BildGeschlossen

Adobe Firefly Image 3

Adobe

Großer Qualitätssprung mit fotorealistischen Details, Stilisierung und Kompositionsabgleich anhand von Referenzbildern, verbessertem Verständnis komplexer Szenen und höherer Generierungsgeschwindigkeit

Mai 2024 · erst jetzt möglich

Echtzeit-Sprachgespräch, mit Lachen und Unterbrechungen.

Davor: roboterhafte Vorlese-Stimmen mit spürbarer Verzögerung.

Mai 2024

3 Releases
13
Mai 2024
AudioGeschlossen

GPT-4o native speech-to-speech (demo)

OpenAI

Durchgängiges multimodales Modell mit Sprache als Ein- und Ausgabe, mit einer Latenz unter 300 ms, Handhabung von Unterbrechungen, Erkennung des emotionalen Tonfalls und mehrsprachiger Echtzeitkonversation

14
Mai 2024
VideoGeschlossen

Google Veo 1

Google DeepMind

Erzeugt filmische Videoclips in 1080p von über einer Minute Länge aus Text-Prompts, mit Verständnis für Kamerabewegungen und physikalische Dynamik

14
Mai 2024
TextGeschlossen

Gemini 1.5 Flash

Google

Schnelles, günstiges Modell mit 1-Mio.-Token-Kontext für Hochvolumen-Aufgaben.

Juni 2024

7 Releases
5
Juni 2024
AudioOffen

Stability Stable Audio Open

Stability AI

Open-Weights-Diffusionsmodell für Text-to-Audio zur Erzeugung von bis zu 47 Sekunden an Soundeffekten und Samples, verfügbar für die nichtkommerzielle Nutzung

8
Juni 2024
AudioGeschlossen

Microsoft VALL-E 2

Microsoft

Zero-Shot-TTS, das auf den VALL-E-Benchmarks menschliches Niveau erreicht – durch wiederholungsbewusstes Sampling und gruppierte Code-Modellierung

10
Juni 2024
VideoGeschlossen

Kuaishou Kling 1.0

Kuaishou

Erzeugt bis zu 2 Minuten lange Videos in 1080p bei 30 fps aus Text oder Bildern mit komplexer Bewegung und Simulation der physischen Welt

12
Juni 2024
BildOffen

Stable Diffusion 3 Medium (open weights)

Stability AI

Architektur eines Multimodal Diffusion Transformer (MMDiT) mit 2 Mrd.

12
Juni 2024
VideoGeschlossen

Luma Dream Machine

Luma AI

Multimodaler Transformer, der aus Text- oder Bildeingaben flüssige, physikalisch plausible 5-Sekunden-Videoclips mit filmischer Kamerabewegung erzeugt

17
Juni 2024
VideoGeschlossen

Runway Gen-3 Alpha

Runway

Text- und Bild-zu-Video in hoher Detailtreue mit ausdrucksstarker Generierung menschlicher Figuren, feingranularer zeitlicher Steuerung und filmischen Übergängen

21
Juni 2024
TextGeschlossen

Claude 3.5 Sonnet (v1)

Anthropic

Mittelklassemodell, das Claude 3 Opus in den meisten Benchmarks bei doppelter Geschwindigkeit und einem Fünftel der Kosten übertrifft

Juli 2024

2 Releases
23
Juli 2024
TextOffen

Llama 3.1 405B

Meta

Open-Weights-Modell mit 405B Parametern und 128K Kontext, das GPT-4o und Claude 3.5 Sonnet in zentralen Evaluierungen erreicht, mit einer destillationsfreundlichen Lizenz

24
Juli 2024
AudioGeschlossen

Udio v1.5

Udio

Überarbeitetes Musikmodell mit 48-kHz-Stereo-Ausgabe, Stem-Downloads (Vocals/Bass/Drums), Audio-zu-Audio-Remix aus eigenen Uploads sowie Tonart- und Modussteuerung

August 2024

5 Releases
1
Aug. 2024
BildOffen

FLUX.1 (pro / dev / schnell)

Black Forest Labs

Modellreihe mit 12B Parametern auf Basis von Flow Matching: FLUX.1[schnell] (Apache 2.0, 10× schneller dank Destillation), FLUX.1[dev] (Open Weights, nicht kommerziell), FLUX.1[pro] (geschlossene API), allesamt auf dem Qualitätsniveau von Midjourney v6

13
Aug. 2024
TextGeschlossen

Grok-2

xAI

Frontier-Chat mit Bildverständnis, Echtzeit-X-Suche und FLUX-gestützter Bildgenerierung.

15
Aug. 2024
BildGeschlossen

Google Imagen 3

Google DeepMind

Fotorealistische Bilder mit feinen Details (Stoffe, Wassertropfen, Fell), weniger Artefakten, verbesserter Prompt-Treue und Integration in die Gemini-Apps für alle Nutzer in den USA

21
Aug. 2024
BildGeschlossen

Ideogram 2.0

Ideogram AI

Großer Sprung beim Fotorealismus, fünf Stilmodi (realistisch, Design, 3D, Anime, allgemein), verbesserte Darstellung von Händen, Gesichtern und Haut, iOS-App und öffentliche API

31
Aug. 2024
VideoGeschlossen

MiniMax Hailuo Video-01

MiniMax

Text-zu-Video- und Bild-zu-Video-Generierung in 720p bei 25 fps mit filmischen Kameraeffekten in sechssekündigen Clips

September 2024

7 Releases
11
Sept. 2024
AudioGeschlossen

Hume AI EVI 2

Hume AI

Voice-to-Voice-Foundation-Modell mit emotionaler Intelligenz, 500–800 ms Latenz, breiter Nachbildung von Persönlichkeit und Akzent sowie einer neuartigen API zur Stimmmodulation, die direktes Voice-Cloning vermeidet

11
Sept. 2024
AudioGeschlossen

NotebookLM Audio Overviews

Google

Verwandelt beliebige Dokumente in eine Podcast-artige Audiodiskussion zweier Hosts.

12
Sept. 2024
TextGeschlossen

OpenAI o1-preview

OpenAI

Reasoning-Modell, das vor der Antwort eine interne Gedankenkette aus 'Thinking-Tokens' nutzt und beim USA Math Olympiad das 83.

19
Sept. 2024
VideoGeschlossen

Kuaishou Kling 1.5

Kuaishou

Video-Generierung in 1080p HD mit Motion Brush zur präzisen Bewegungssteuerung einzelner Elemente für bis zu sechs Szenenobjekte

19
Sept. 2024
TextOffen

Qwen2.5

Alibaba

Volle 0,5B–72B-Familie mit starkem Coding/Mathe; eines der größten Open-Source-Releases.

24
Sept. 2024
AudioGeschlossen

OpenAI ChatGPT Advanced Voice Mode (ChatGPT Plus rollout)

OpenAI

Echtzeit-Sprachassistent auf GPT-4o-Basis mit Erkennung des emotionalen Tonfalls, Unterbrechung mitten im Satz und einer Reaktionszeit unter 300 ms, ausgerollt an alle Plus- und Team-Abonnenten

25
Sept. 2024
TextOffen

Llama 3.2 (Vision + Edge)

Meta

Metas erste offene multimodale Modelle (11B/90B Vision) plus 1B/3B-Textmodelle für Mobil/Edge.

Oktober 2024

7 Releases
1
Okt. 2024
AudioGeschlossen

OpenAI Realtime API (public beta)

OpenAI

Entwickler-API zum Erstellen latenzarmer Speech-to-Speech-Sprachagenten auf GPT-4o-Basis, die in Anwendungen Unterbrechungen in Echtzeit, Function-Calling und natürliche Prosodie ermöglicht

9
Okt. 2024
AudioOffen

F5-TTS

Shanghai Jiao Tong University / Cambridge University

TTS auf Basis eines Diffusion-Transformers mit Flow Matching, das Zero-Shot-Voice-Cloning mit hoher Natürlichkeit aus kurzem Referenzaudio erreicht und Chinesisch sowie Englisch unterstützt

22
Okt. 2024
TextGeschlossen

Claude 3.5 Sonnet (v2) with Computer Use

Anthropic

Überarbeitetes Sonnet mit einer öffentlichen Beta-API für Computer-Use, die es dem Modell erlaubt, einen echten Desktop zu steuern, indem es einen Bildschirm betrachtet und Maus und Tastatur bedient

22
Okt. 2024
BildOffen

Stable Diffusion 3.5 Large

Stability AI

MMDiT-X-Modell mit 8,1B Parametern und drei parallelen Text-Encodern (OpenCLIP, CLIP, T5-XXL), mit einer freizügigen kommerziellen Lizenz für bis zu 1 Mio.

22
Okt. 2024
VideoOffen

Genmo Mochi 1

Genmo

Text-zu-Video-Modell mit 10B Parametern unter Apache 2.0, das 480p-Clips bei 30 fps mit hoher Bewegungsqualität und Prompt-Treue erzeugt

28
Okt. 2024
TextGeschlossen

Apple Intelligence

Apple

On-Device- und Private-Cloud-KI direkt in iOS/iPadOS/macOS: Schreibwerkzeuge, Zusammenfassungen, Image Playground, ChatGPT-Siri.

30
Okt. 2024
BildGeschlossen

Recraft V3

Recraft

Text-zu-Bild- und Vektor-Generierung mit präziser Textpositionierung, anatomisch korrekten Figuren und als einziges Modell in der Lage, Bilder mit langen, mehrwortigen Textpassagen zu erzeugen

November 2024

2 Releases
19
Nov. 2024
AudioGeschlossen

Suno v4

Suno

Saubereres Audio, schärfere Lyrics, dynamische Songstruktur, Covers und Personas.

22
Nov. 2024
VideoOffen

Lightricks LTX-Video (LTXV)

Lightricks

DiT-basiertes Text-zu-Video-Modell mit 2B Parametern, das 5 Sekunden Video in 768×512 schneller als in Echtzeit erzeugt (4 s Generierung für einen 5-Sekunden-Clip)

Dezember 2024

7 Releases
3
Dez. 2024
VideoOffen

Tencent HunyuanVideo

Tencent

Transformer mit 13B Parametern, der von Dual-Stream auf Single-Stream umschaltet, für detailgetreue Text-zu-Video-Generierung mit vollständig offenen Gewichten

9
Dez. 2024
VideoGeschlossen

OpenAI Sora GA (Sora Turbo)

OpenAI

Öffentliche Veröffentlichung von Sora Turbo, das 5–20 Sekunden lange Videoclips in 720p–1080p für ChatGPT-Plus- und Pro-Abonnenten erzeugt

11
Dez. 2024
TextGeschlossen

Gemini 2.0 Flash

Google DeepMind

Agentisches multimodales Modell mit nativer Tool-Nutzung (Suche, Code-Ausführung), Echtzeit-Audio-/Video-Streaming sowie nativ erzeugten Bildern und Sprache

16
Dez. 2024
VideoGeschlossen

Google Veo 2

Google DeepMind

Video-Generierung in bis zu 4K und über mehrere Minuten, mit verbesserter realistischer Physik, präziser menschlicher Bewegung und filmischen Objektivsteuerungen

20
Dez. 2024
TextGeschlossen

OpenAI o3 (preview/announcement)

OpenAI

Reasoning-Modell der zweiten Generation, das beim ARC-AGI 87,5 % (mit hoher Rechenleistung) und bei Humanity's Last Exam 25,2 % erreicht — weit über allen früheren Modellen

25
Dez. 2024
AudioOffen

Kokoro-82M v0.19

hexgrad (independent)

Apache-lizenziertes TTS-Modell mit 82M Parametern, das bei seinem Start Platz 1 in der Hugging Face TTS Arena belegte und natürliche englische Sprache für unter 1 US-Dollar pro Million Zeichen erzeugt

26
Dez. 2024
TextOffen

DeepSeek-V3

DeepSeek

Open-Weights-Modell mit 671B Parametern als sparses MoE, das GPT-4o und Claude 3.5 Sonnet bei Benchmarks erreicht und für nur 5,6 Mio.

Januar 2025 · erst jetzt möglich

Ein frei herunterladbares Modell auf Augenhöhe mit der teuersten Spitze.

Davor galt Open-Weights als hoffnungslos abgehängt.

Januar 2025

3 Releases
20
Jan. 2025
TextOffen

DeepSeek-R1

DeepSeek

Offenes, MIT-lizenziertes Reasoning-Modell, das mit Reinforcement Learning nahezu von Grund auf (mit minimalen überwachten Daten) trainiert wurde und OpenAI o1 bei Mathematik-, Coding- und Wissenschafts-Benchmarks erreicht

23
Jan. 2025
TextGeschlossen

OpenAI Operator

OpenAI

Erster Mainstream-Agent, der eigenständig einen Webbrowser bedient (klicken, tippen, Formulare ausfüllen).

27
Jan. 2025
AudioOffen

Kokoro TTS v1.0

hexgrad (independent)

Erweiterte Version von Kokoro mit Unterstützung für 8 Sprachen (Englisch, Spanisch, Französisch, Hindi, Italienisch, Japanisch, Mandarin, Portugiesisch) und 54 Stimmen unter Apache 2.0

Februar 2025

4 Releases
17
Feb. 2025
TextGeschlossen

xAI Grok 3 + DeepSearch

xAI

Frontier-Reasoning-Modell, trainiert auf dem 200k-GPU-Cluster Colossus, mit der DeepSearch-Suchmaschine.

24
Feb. 2025
TextGeschlossen

Claude 3.7 Sonnet

Anthropic

Erstes Hybrid-Modell, das sofortige Antworten und ein vom Nutzer konfigurierbares erweitertes Reasoning in einem einzigen Modell vereint und 70,3 % auf SWE-bench Verified erreicht (mit erweitertem Scaffolding)

25
Feb. 2025
VideoOffen

Alibaba Wan 2.1

Alibaba (Wan Team)

Apache-2.0-Suite von Modellen zur Videogenerierung (bis zu 14 Mrd.

27
Feb. 2025
AudioOffen

Sesame CSM (conversational speech model) demo

Sesame AI

Modell zur dialogorientierten Sprachgenerierung, das kontextbewusste, emotional ausdrucksstarke Dialoge mit menschenähnlicher Prosodie und Mehrsprecher-Handhabung erzeugt

März 2025

5 Releases
20
März 2025
AudioGeschlossen

OpenAI gpt-4o-transcribe / gpt-4o-mini-tts audio models

OpenAI

Neue STT-Modelle (gpt-4o-transcribe, gpt-4o-mini-transcribe) mit branchenführender WER sowie ein instruierbares TTS (gpt-4o-mini-tts), bei dem Entwickler Ton, Emotion und Vortragsstil vorgeben

25
März 2025
TextGeschlossen

Gemini 2.5 Pro

Google DeepMind

Thinking-Modell, das die Bestenlisten von LMArena und WebDev Arena anführt, bei den Mathematik-Benchmarks AIME 2025 und den Wissenschafts-Benchmarks GPQA führend ist und über ein Kontextfenster von 1 Mio.

25
März 2025
BildGeschlossen

GPT-4o Native Image Generation (gpt-image-1)

OpenAI

Nativ multimodale Bildgenerierung, eingebettet in GPT-4o: dialogorientierte Bildbearbeitung, zuverlässige Texteinblendung im Bild, präzise Befolgung von Anweisungen und Transformation von Bildeingaben

26
März 2025
BildGeschlossen

Ideogram 3.0

Ideogram AI

Höchste ELO-Werte bei der menschlichen Präferenz über verschiedenste Prompt-Typen hinweg, Style References (bis zu 3 Referenzbilder), Style Codes, Batch-Generierung sowie verbesserter Fotorealismus und Textwiedergabe

31
März 2025
VideoGeschlossen

Runway Gen-4

Runway

Konsistente Videogenerierung über mehrere Einstellungen hinweg: Beibehaltung derselben Figuren, Kostüme und Umgebungen in unterschiedlichen Szenen mithilfe von Referenzbild-Konditionierung

April 2025

4 Releases
4
Apr. 2025
BildGeschlossen

Midjourney v7

Midjourney

Völlig neue Architektur mit Draft Mode (10× schneller, 0,5× Kosten), Omni Reference für motivübergreifende Konsistenz sowie deutlich verbesserter Textur, Kohärenz und anatomischer Genauigkeit

5
Apr. 2025
TextOffen

Llama 4 (Scout / Maverick)

Meta

Nativ multimodale offene MoE-Modelle; Scout bietet ein Kontextfenster von 10 Mio.

15
Apr. 2025
VideoGeschlossen

Kuaishou Kling 2.0

Kuaishou

Modernste Bewegungsqualität, semantische Reaktionsfähigkeit und multimodale Videobearbeitung aus komplexen Prompts bei branchenführender visueller Wiedergabetreue

29
Apr. 2025
TextOffen

Alibaba Qwen3

Alibaba

Open-Weights-Familie (0,6B–235B MoE) mit umschaltbarem „Thinking/Non-Thinking"-Reasoning.

Mai 2025 · erst jetzt möglich

Video mit synchronem Ton — in einem einzigen Schritt.

Zwei Jahre zuvor: stumme Vier-Sekunden-Clips.

Mai 2025

4 Releases
20
Mai 2025
BildGeschlossen

Google Imagen 4

Google DeepMind

Ausgabe in bis zu 2K-Auflösung, feine Detailwiedergabe (Stoffe, Wassertropfen, Fell), verbesserte Typografie-Integration sowie eine bis zu 10× schnellere Generierung über eine eigene Fast-Variante

20
Mai 2025
VideoGeschlossen

Google Veo 3

Google DeepMind

Videogenerierung mit nativ erzeugtem, synchronisiertem Audio: Dialoge, Soundeffekte und Hintergrundmusik werden gemeinsam mit den Videoframes generiert

22
Mai 2025
TextGeschlossen

Claude Opus 4 / Sonnet 4

Anthropic

Claude-4-Familie, bei der Opus 4 einen Wert von 72,5 % auf SWE-bench Verified und Sonnet 4 einen Wert von 72,7 % erzielt, wobei beide komplexe, mehrstündige agentische Coding-Sitzungen durchhalten

29
Mai 2025
BildGeschlossen

FLUX.1 Kontext [pro] + [max]

Black Forest Labs

Kontextbewusste Bildbearbeitung: gemeinsames Prompting aus Text und Bild für lokale Bearbeitungen, Beibehaltung von Figuren über Szenen hinweg sowie iterative mehrstufige Bearbeitung ohne Qualitätsverlust

Juni 2025

2 Releases
3
Juni 2025
AudioGeschlossen

ElevenLabs Eleven v3 (alpha)

ElevenLabs

Ausdrucksstärkstes TTS-Modell von ElevenLabs mit Audio Tags (inline emotionale Steuerung über in Klammern gesetzte Hinweise), einem Dialogue Mode für Mehrsprecher-JSON-Skripte und Unterstützung für über 70 Sprachen

26
Juni 2025
BildOffen

FLUX.1 Kontext [dev] (open weights)

Black Forest Labs

Open-Weights-Modell mit 12 Mrd.

Juli 2025

1 Release
17
Juli 2025
TextGeschlossen

OpenAI ChatGPT Agent

OpenAI

Vereint Operator (visueller Browser), Deep Research und eine Code-/Terminal-Toolbox mit eigenem virtuellem Computer.

August 2025

5 Releases
5
Aug. 2025
VideoGeschlossen

Google DeepMind Genie 3

Google DeepMind

Echtzeit-Weltmodell, das aus einem Prompt begehbare 720p/24fps-Umgebungen erzeugt, minutenlang konsistent.

7
Aug. 2025
TextGeschlossen

GPT-5

OpenAI

Einheitliches Modell, das die Sprachgewandtheit der GPT-Serie und das Reasoning der o-Serie hinter einem automatischen Router vereint und 74,9 % auf SWE-bench Verified sowie 94,6 % auf AIME 2025 erzielt

28
Aug. 2025
AudioGeschlossen

OpenAI gpt-realtime (Realtime API GA)

OpenAI

Produktionsreife Speech-to-Speech-API mit verbesserter Befolgung von Anweisungen, präziserem Tool-Calling, SIP-Telefonie, Bildeingabe und Unterstützung für Remote-MCP-Server

28
Aug. 2025
AudioGeschlossen

MAI-Voice-1

Microsoft AI

Erstes hauseigenes, hochgradig expressives Speech-Generation-Modell (TTS) von Microsoft AI.

28
Aug. 2025
TextGeschlossen

MAI-1-preview

Microsoft AI

Erstes End-to-End trainiertes Foundation-Modell (Text-LLM) von Microsoft AI.

September 2025

3 Releases
23
Sept. 2025
AudioGeschlossen

Suno v5 + Suno Studio

Suno AI

Musikmodell auf Profi-Niveau mit Mixing in Studioqualität und authentischem Gesang (v5, 23.

29
Sept. 2025
TextGeschlossen

Claude Sonnet 4.5

Anthropic

Anthropics bestes Coding-/Agenten-Modell, ausgelegt auf stundenlange autonome Software-Aufgaben.

30
Sept. 2025
VideoGeschlossen

OpenAI Sora 2

OpenAI

Sora der zweiten Generation mit synchronisierten Dialogen und Soundeffekten, verbesserter Physikgenauigkeit, Konsistenz über mehrere Einstellungen hinweg sowie einer App zum sozialen Teilen im TikTok-Stil

Oktober 2025

1 Release
13
Okt. 2025
BildGeschlossen

MAI-Image-1

Microsoft AI

Erstes hauseigenes Text-to-Image-Modell von Microsoft AI.

November 2025

1 Release
18
Nov. 2025
TextGeschlossen

Gemini 3

Google DeepMind

Flaggschiff-Modell mit dem Reasoning-Modus Deep Think, der 41 % auf Humanity's Last Exam erreicht; das Standardmodell Gemini 3 Pro erzielte 37,5 %.

Januar 2026

5 Releases
6
Jan. 2026
VideoOffen

LTX-2

Lightricks

LTX-2 erzeugt synchronisiertes Video und Audio in einem einzigen Durchgang mit nativer 4K-Auflösung bei 50 Bildern pro Sekunde und bis zu 20 Sekunden Länge, inklusive ausdrucksstarkem Ton, akkuratem Lip-Sync und Umgebungsgeräuschen.

15
Jan. 2026
BildOffen

FLUX.2 [klein]

Black Forest Labs

Kompakte Open-Weights-Modellfamilie (4B und 9B), die Bildgenerierung und -Editing in einer Architektur vereint und Text-to-Image, Single-Reference-Editing sowie Multi-Reference-Generierung in unter einer Sekunde auf Consumer-Hardware (ab ca.

22
Jan. 2026
TextGeschlossen

ERNIE 5.0

Baidu

Nativ voll-modales Modell mit rund 2,4T Parametern in MoE-Architektur (weniger als 3 % der Parameter je Inferenz aktiv), das Text, Bild, Audio und Video gemeinsam versteht und generiert.

26
Jan. 2026
BildOffen

HunyuanImage 3.0-Instruct

Tencent

Natives multimodales Open-Weights-Modell (80B MoE, ca.

27
Jan. 2026
TextOffen

Kimi K2.5

Moonshot AI

Nativ multimodales, agentisches Open-Weights-Modell mit einer 1-Billion-Parameter-Mixture-of-Experts-Architektur (etwa 32 Mrd.

Februar 2026

9 Releases
2
Feb. 2026
AudioGeschlossen

ElevenLabs Eleven v3 (GA)

ElevenLabs

Allgemeine Verfügbarkeit des bislang ausdrucksstärksten TTS-Modells von ElevenLabs mit über 70 Sprachen und Audio Tags zur direkten Steuerung von Emotion und Sprechweise im Text.

5
Feb. 2026
VideoGeschlossen

Kling 3.0 (Video 3.0 / Video 3.0 Omni)

Kuaishou

Die Kling-3.0-Reihe (Video 3.0, Video 3.0 Omni, Image 3.0, Image 3.0 Omni) basiert auf einem einheitlichen multimodalen Framework, das Video und Audio in einem Durchgang erzeugt.

5
Feb. 2026
TextGeschlossen

Claude Opus 4.6

Anthropic

1-Mio.-Token-Kontext (Beta), Spitzenwerte auf Humanity's Last Exam und Terminal-Bench; anhaltendes agentisches Coding in großen Codebases.

10
Feb. 2026
BildGeschlossen

Qwen-Image-2.0

Alibaba (Qwen)

Bildgrundlagenmodell der naechsten Generation, das Text-to-Image-Generierung und Image-Editing in einer einzigen, leichteren Architektur vereint (ca.

11
Feb. 2026
TextOffen

GLM-5

Zhipu AI (Z.ai)

Open-Weights-MoE-Frontier-Modell mit 744B Total-Parametern (rund 40-44B aktiv), 200K-Kontextfenster und DeepSeek-Sparse-Attention, ausgelegt auf agentische Engineering- und langlaufende Coding-Workflows.

12
Feb. 2026
VideoGeschlossen

Seedance 2.0

ByteDance

Seedance 2.0 ist ein einheitliches multimodales Audio-Video-Modell, das Text, Bild, Audio und Video in derselben Anfrage als Eingabe akzeptiert (bis zu 9 Bilder, 3 Videoclips, 3 Audioclips plus Anweisungen) und in einem Durchgang bis zu 15 Sekunden synchrones Mehr-Shot-Video mit Stereo-Audio in mehreren Tonspuren (Musik, Effekte, Sprache) ausgibt.

17
Feb. 2026
TextGeschlossen

Claude Sonnet 4.6

Anthropic

Mittelgroßes Claude-Modell mit deutlichen Fortschritten bei Coding und Computer-Use sowie einem 1-Mio.-Token-Kontextfenster in der Beta.

18
Feb. 2026
AudioGeschlossen

Google Lyria 3

Google DeepMind

Musikgenerierungsmodell, das aus Text-Prompts 30-sekuendige Tracks mit automatisch erzeugten Lyrics und passendem Cover-Artwork erstellt.

26
Feb. 2026
BildGeschlossen

Nano Banana 2 (Gemini 3.1 Flash Image)

Google DeepMind

Schnelles, hochfideles Bildgenerierungs- und Editing-Modell, das das Weltwissen, die Qualitaet und das Reasoning von Nano Banana Pro mit Flash-Geschwindigkeit kombiniert; Aufloesungen von 512px bis 4K, Charakterkonsistenz fuer bis zu fuenf Charaktere und Fidelitaet von bis zu 14 Objekten in einem Workflow.

März 2026

6 Releases
5
März 2026
TextGeschlossen

GPT-5.4

OpenAI

Erstes Mainline-Reasoning-Modell mit integriertem Frontier-Coding und Computer-Use; 33% weniger Faktenfehler als 5.2.

9
März 2026
AudioOffen

Fish Audio S2

Fish Audio

Open-Weights-TTS-Modell mit Dual-AR-Architektur (rund 4B Parameter auf der Zeitachse, 400M auf der Tiefenachse), trainiert auf ueber 10 Millionen Stunden Audio in etwa 50 Sprachen.

17
März 2026
BildGeschlossen

Midjourney V8 (Alpha)

Midjourney

Neue Modellgeneration mit ca.

19
März 2026
BildGeschlossen

MAI-Image-2

Microsoft AI

Hauseigenes Text-to-Image-Modell der zweiten Generation.

25
März 2026
AudioGeschlossen

Google Lyria 3 Pro

Google DeepMind

Erweiterte Variante von Lyria 3, die Tracks von bis zu 3 Minuten Laenge mit struktureller Bewusstheit erzeugt.

26
März 2026
AudioGeschlossen

Suno v5.5 (voice capture + custom models)

Suno AI

Musikgenerierung mit persönlicher Voice Capture (eine 30-sekündige bis 4-minütige Gesangsprobe überträgt deine stimmliche Identität auf jeden generierten Track), Fine-Tuning eigener, vom Nutzer trainierter Modelle sowie eine personalisierte Geschmacks-Engine

April 2026

13 Releases
2
Apr. 2026
AudioGeschlossen

MAI-Transcribe-1

Microsoft AI

Erstes hauseigenes Speech-to-Text-(Transkriptions-)Modell von Microsoft AI.

7
Apr. 2026
VideoGeschlossen

Wan2.7-Video

Alibaba

Wan2.7-Video ist eine Suite aus vier Modellen (Text-to-Video, Image-to-Video, Reference-to-Video und Video-Editing).

7
Apr. 2026
TextOffen

GLM-5.1

Zhipu / Z.ai

754B-Parameter-MoE; erstes Open-Source-Modell auf Platz 1 von SWE-Bench Pro (58,4%), vor Claude Opus 4.6.

8
Apr. 2026
TextGeschlossen

Muse Spark

Meta (Superintelligence Labs)

Nativ multimodales Reasoning-Modell mit Tool-Use, visuellem Chain-of-Thought und Multi-Agent-Orchestrierung (Contemplating-Modus).

13
Apr. 2026
AudioOffen

MOSS-Audio

OpenMOSS / MOSI.AI / Shanghai Innovation Institute

Open-Source-Foundation-Modell fuer einheitliches Audio-Verstehen ueber komplexe reale Audioszenen hinweg: Sprachverstehen, Umgebungsgeraeusche, Musikverstehen, Audio-Captioning, zeitbewusstes Question-Answering und mehrstufiges Reasoning.

16
Apr. 2026
TextGeschlossen

Claude Opus 4.7

Anthropic

Frontier-Modell der Opus-Klasse mit State-of-the-Art-Performance bei langlaufenden, komplexen Coding- und Agenten-Aufgaben.

20
Apr. 2026
TextOffen

Kimi K2.6

Moonshot AI

Open-Weights-Modell auf 1-Billion-Parameter-MoE-Basis (32 Mrd.

21
Apr. 2026
BildGeschlossen

gpt-image-2 (ChatGPT Images 2.0)

OpenAI

Bildmodell mit integriertem Reasoning (O-Series-Mechanismus / Thinking-Mode), das vor der Generierung Komposition plant, Objektanzahl verifiziert und Prompt-Constraints prueft; nahezu perfektes mehrsprachiges Text-Rendering (ca.

23
Apr. 2026
TextGeschlossen

GPT-5.5

OpenAI

OpenAIs zu diesem Zeitpunkt fähigstes Modell, mit besonders starken Zuwächsen bei agentischem Coding, Computer-Use, Knowledge Work und früher wissenschaftlicher Forschung.

23
Apr. 2026
TextOffen

Hy3 preview (Hunyuan)

Tencent

Fused-Reasoning-MoE-Modell (fast-and-slow-thinking) mit 295B Total-Parametern (21B aktiv) und 256K-Kontextfenster, ausgelegt auf komplexes Reasoning, Instruction Following, In-Context-Learning, Code-Verständnis und agentische Workloads.

24
Apr. 2026
TextOffen

DeepSeek V4 (Preview)

DeepSeek

Open-Weights-Flaggschiff in zwei Varianten: V4-Pro (1,6 Bio.

28
Apr. 2026
TextOffen

Mistral Medium 3.5

Mistral AI

Frontier-multimodales Modell mit einstellbarem reasoning_effort und 256k Kontext; neuer Standard für Le Chat.

30
Apr. 2026
TextGeschlossen

ERNIE 5.1 Preview

Baidu

Effizienzoptimiertes MoE-Modell, das gegenüber ERNIE 5.0 die Total-Parameter auf etwa ein Drittel und die aktiven Parameter auf etwa die Hälfte reduziert, dabei mit decoupled fully-asynchronous Reinforcement Learning und skaliertem agentischem Post-Training trainiert wurde.

April 2026 · erst jetzt möglich

Agenten, die stundenlang eigenständig Aufgaben lösen.

2022: ein Chatbot, der auf einzelne Fragen antwortet.

Mai 2026

9 Releases
7
Mai 2026
AudioGeschlossen

OpenAI gpt-realtime-2 (mit gpt-realtime-translate und gpt-realtime-whisper)

OpenAI

Drei neue Audiomodelle in der API.

19
Mai 2026
TextGeschlossen

Gemini 3.5 Flash

Google

Schnelles, kostengünstiges Modell der neuen Gemini-3.5-Generation, das auf agentischen und Coding-Benchmarks (Terminal-Bench 2.1 mit 76,2 %, MCP Atlas mit 83,6 %) das vorherige Gemini 3.1 Pro übertrifft und dabei rund viermal schneller läuft als andere Frontier-Modelle derselben Stufe.

19
Mai 2026
TextGeschlossen

Qwen3.7-Max

Alibaba (Qwen)

Alibabas proprietäres Flaggschiff-Modell für die Agenten-Ära mit 1-Mio.-Token-Kontextfenster, ausgelegt auf Coding-Agenten, Büro-Automatisierung und Langzeit-Autonomie.

19
Mai 2026
VideoGeschlossen

Gemini Omni Flash

Google DeepMind

Gemini Omni Flash ist das erste Modell der Gemini-Omni-Familie und erzeugt aus beliebiger Kombination von Bild, Audio, Video und Text hochwertige Videos von rund 10 Sekunden mit synchronem Audio.

19
Mai 2026
TextGeschlossen

Gemini Spark

Google

Immer aktiver persönlicher Agent auf Google-Cloud-VMs, der Langzeit-Aufgaben über Gmail/Docs/Slides und Dritt-Apps via MCP ausführt.

20
Mai 2026
AudioOffen

Stable Audio 3.0

Stability AI

Modellfamilie zur Audiogenerierung aus vier Modellen: Small SFX, Small, Medium und Large.

26
Mai 2026
AudioGeschlossen

ElevenLabs Music v2

ElevenLabs

Neues Musikgenerierungsmodell, das innerhalb eines einzelnen Songs das Genre wechseln kann (etwa von Oper zu Heavy Metal und zurueck), schnellen Rap und dichte Textlieferung beherrscht und nicht-musikalische Soundeffekte direkt in den Track einbettet, ohne die musikalische Kohaerenz zu verlieren.

28
Mai 2026
TextGeschlossen

Claude Opus 4.8

Anthropic

Modell der Opus-Klasse mit Schwerpunkt auf Ehrlichkeit und Zuverlässigkeit: laut Anthropic rund viermal seltener als Opus 4.7 dabei, selbst geschriebene Code-Fehler unkommentiert durchgehen zu lassen.

29
Mai 2026
TextOffen

Step 3.7 Flash

StepFun

Vision-Language-MoE-Modell mit 198B Total-Parametern (rund 11B aktiv), das einen 1,8B-Vision-Encoder mit einem 196B-Sprach-Backbone koppelt und Charts, PDFs, UI-Wireframes und App-GUIs ohne separate Vision-API verarbeitet.

Juni 2026

11 Releases
1
Juni 2026
TextOffen

MiniMax M3

MiniMax

Nativ multimodales Open-Weights-Modell mit der neuen MSA-Architektur (MiniMax Sparse Attention), 1M-Kontextfenster, Bild- und Video-Input sowie Computer-Use, das Frontier-Coding (SWE-Bench Pro 59,0 %) mit langlaufender autonomer Ausführung über 24+ Stunden verbindet.

2
Juni 2026
TextGeschlossen

MAI-Thinking-1

Microsoft AI

Sparse-MoE-Reasoning-Modell mit rund 35B aktiven und etwa 1T Total-Parametern und 256K-Kontextfenster, ausgelegt auf mehrstufige agentische Aufgaben; vollständig auf kommerziell lizenzierten, nachvollziehbaren Daten trainiert, ohne Distillation aus Drittmodellen.

2
Juni 2026
BildGeschlossen

MAI-Image-2.5

Microsoft AI

Hauseigenes Bildmodell für maximale Fidelity, das sowohl Text-to-Image als auch präzises, kontrollierbares Image-Editing beherrscht.

2
Juni 2026
AudioGeschlossen

MAI-Voice-2

Microsoft AI

Bisher ausdrucksstärkstes, natürlich klingendes Text-to-Speech-Modell von Microsoft AI.

2
Juni 2026
TextGeschlossen

MAI-Code-1-Flash

Microsoft AI

Erstes hauseigenes Coding-Modell von Microsoft AI: ein inference-effizientes, agentisches Code-Modell mit 5 Mrd.

3
Juni 2026
BildOffen

Ideogram 4.0

Ideogram

Erstes Open-Weights-Foundation-Modell von Ideogram (9.3B, Single-Stream-Diffusion-Transformer mit 34 Layern und Qwen3-VL-8B-Instruct als Text-Encoder), spezialisiert auf Design-Arbeit: branchenfuehrendes Text-Rendering (0.97 X-Omni English OCR), Bounding-Box-Layout-Kontrolle, strukturiertes JSON-Prompting, native Transparenz und 2K-Aufloesung; laeuft mit Quantisierung auf einer einzelnen 24-GB-GPU.

9
Juni 2026
TextGeschlossen

Claude Fable 5

Anthropic

Anthropics bis dahin fähigstes öffentlich verfügbares Modell, das die neue Mythos-Klasse oberhalb der Opus-Klasse breit zugänglich macht.

10
Juni 2026
TextOffen

DiffusionGemma 26B-A4B

Google DeepMind

Experimentelles offenes Text-Diffusion-Modell auf Gemma-4-Basis mit 26B MoE-Parametern (rund 3,8B aktiv), das 256-Token-Blöcke parallel statt sequenziell generiert und so bis zu 4x schnellere Textgenerierung erreicht (über 1.000 Tokens/s auf einer einzelnen H100).

12
Juni 2026
TextOffen

Kimi K2.7 Code

Moonshot AI

Coding-fokussiertes agentisches MoE-Modell mit 1T Total-Parametern (32B aktiv, 384 Experts) und 256K-Kontextfenster, das mehrstufig plant, editiert, Tools ausführt und debuggt.

13
Juni 2026
TextOffen

GLM-5.2

Zhipu AI (Z.ai)

Agentisch ausgerichtetes Coding-Modell auf Basis derselben 744B-MoE-Architektur wie GLM-5, mit einem nutzbaren Kontextfenster von 1M Tokens, bis zu 131.072 Output-Tokens und einem neuen System mit zwei Reasoning-Stufen (High und Max).

16
Juni 2026
VideoGeschlossen

Seedance 2.0 Mini

ByteDance (Dreamina)

Leichtere, schnellere und günstigere Variante von Seedance 2.0 — rund 2× schneller als Seedance 2.0 Fast, 720p–1080p, 5–12 Sekunden, ab $0,02/Sek.

Fortsetzung folgt

Und das war erst der Anfang.

Das Tempo lässt nicht nach — der nächste Durchbruch ist näher, als du denkst. Bleib neugierig.

lädt …

Von Wissen zu Handlung

Wissen reicht nicht. Dein Team muss mithalten.

Die Tools ändern sich im Wochentakt — du hast es gerade gescrollt. Der Vorsprung liegt nicht im nächsten Modell, sondern in der Fähigkeit, diese Veränderung einzuordnen und KI im Arbeitsalltag produktiv zu nutzen.

Genau dafür gibt es snipKI.

Offen vs. geschlossen

Die Speerspitze ist kein geschlossener Club mehr

Geschlossene Labore bringen weiterhin die meisten Modelle heraus, daher laufen 32% dieser Meilensteine auf Open-Weights. Die Verschiebung dreht sich um Qualität, nicht um Anzahl: 2025 lieferten sich offene Releases wie DeepSeek-R1, Qwen und Llama einen Schlagabtausch mit den besten geschlossenen Systemen. Jeder Balken unten ist ein Jahr, seine Länge die Zahl der Meilensteine, aufgeteilt nach Lizenz.

2022
5/14 offen
2023
14/37 offen
2024
14/48 offen
2025
7/33 offen
2026
19/53 offen
Open-WeightsGeschlossen

Schon vergessen?

Das fühlte sich gerade noch wie Magie an.

  • Mit dem Computer reden — und verstanden werden.heute Alltag
  • Ein Foto live in jede Sprache übersetzen.heute Alltag
  • Aus einem Satz ein fertiges Lied mit Gesang.heute Alltag
  • Eine Idee in Sekunden als fotorealistisches Bild.heute Alltag
  • Software aus einer Beschreibung schreiben lassen.heute Alltag
  • Ein Video aus zwei Zeilen Text — mit Ton.heute Alltag
  • Hunderte Seiten zu einem Gespräch zusammenfassen.heute Alltag
  • Eine Stimme aus drei Sekunden Audio nachbilden.heute Alltag

Nichts davon ist älter als dreieinhalb Jahre.

gebaut von snipki.de