AGI (Artificial General Intelligence) ist ein unbrauchbarer Begriff – überbewertet und ohne präzise Definition. OpenAI definiert AGI als “hochgradig autonome Systeme, die Menschen bei den meisten wirtschaftlich wertvollen Tätigkeiten übertreffen”. Diese Definition bleibt jedoch vage: Was genau konstituiert eine Tätigkeit? Nach welchen Kriterien bemisst sich wirtschaftlicher Wert? Und woran lässt sich ein Übertreffen konkret festmachen? Eine interne Vereinbarung zwischen OpenAI und Microsoft aus dem Jahr 2023 definiert AGI über einen konkreten finanziellen Aspekt: Ein System gilt demnach als AGI, wenn es einen Gewinn von 100 Milliarden US-Dollar erwirtschaften kann. Diese Kennzahl erscheint jedoch willkürlich, da sich auch mit bestehenden Technologien vergleichbare Gewinne erzielen lassen. In einem aktuellen Blogbeitrag beschreibt Sam Altman AGI als ein System, das auf menschlichem Niveau zunehmend komplexe Probleme in verschiedenen Bereichen lösen kann.1 Trotz der weniger technischen Wortwahl erweist sich diese Definition für mich als die “brauchbarste” der drei Varianten.
Am Horizont zeichnet sich eine neue Entwicklung ab: spezialisierte KI-Systeme, die ich als “Task-A(G)I” bezeichne. Diese Systeme erreichen oder übertreffen menschliche Fähigkeiten bei hochspezialisierten Aufgaben, während sie bei anderen (auch ähnlichen) Aufgaben deutliche Grenzen zeigen. Darin liegt ihr zentrales Paradoxon: Sie zeigen eine beeindruckende “Intelligenz”, aber nur innerhalb ihrer spezifischen Domäne – und dort übertreffen sie bisherige Lösungen deutlich. Sie sind also nicht allgemein, sondern task-spezifisch, tragen aber einen Funken AGI in sich, da sie akademisch und wirtschaftlich verwertbare Ergebnisse liefern. Die bewusste Verwendung des Begriffes “AGI” spiegelt dabei die AGI-fokussierte Denkweise der (rein männlichen!) Tech-Oligarchen wider.2 Dabei ist es wichtig zu verstehen: Dieser Horizont liegt nicht in ferner Zukunft – wir sind bereits mittendrin!
Leopold Aschenbrenner3, ehemaliger Mitarbeiter bei OpenAI, hat im Juni 2024 einen, für mich damals, obskuren Essay verfasst: “SITUATIONAL AWARENESS: The Decade Ahead”.4 Seine These: Bis 2025/26 werden KI-Systeme viele Hochschulabsolventen in ihren Fähigkeiten übertreffen, und bis 2027 werden sie menschliche Arbeitskräfte in vielen Bereichen ersetzen können. Sein Zitat “You can see the future first in San Francisco” steht dabei in Kontrast zu meinen eigenen Erfahrungen dort – ich habe in keiner anderen Stadt so viele obdachlose Menschen gesehen. Ist das die Zukunft, die uns die Tech-Oligarchen versprechen? Und doch frage ich mich von Tag zu Tag mehr: Was ist, wenn Aschenbrenner Recht hat und es tatsächlich zu der von ihm postulierten Wissensexplosion kommt?
Ein Treiber dieser Entwicklung sind die Reasoning-Modelle, wie beispielsweise o3, über die ich bereits geschrieben habe.5 Die Skalierung mit Test-Time Compute und das Post-Training der LLMs mittels Prompting-Strategien wie “Let’s think step by step”, “Self-Reflection”6 oder “Verification”7 führt zu besseren Ergebnissen – nicht nur bei Benchmarks, sondern auch im individuellen Arbeiten mit LLMs. Alles was “verifizierbar” ist, kann mit Reinforcement Learning gelöst werden. Das betrifft alle Mathematik-, Coding- und Logikaufgaben, also überall dort, wo im Training eine eindeutig richtige Lösung berücksichtigt werden kann. Dabei zielt Reinforcement Learning nicht auf die Lösungen selbst ab, sondern auf die Lösungswege! Prompting-Techniken wurden sozusagen im Post-Training eines LLMs “hinein trainiert”.8
Im Schatten des Medienechos zu R1 von Deep Seek wurde eine andere, aus meiner Sicht bedeutendere Anwendung, veröffentlicht: OpenAI’s Deep Research.9 Ethan Mollick beschreibt es treffend als “The End of Search, The Beginning of Research”.10 Deep Research ist eine Task-A(G)I für wissenschaftliches Recherchieren.
Aus dieser Entwicklung lassen sich mehrere Schlüsse ziehen:
Warum ist “Deep Research” ein so prägnantes Beispiel für “Task-A(G)I”? Das System demonstriert, wie eine komplexe menschliche Aufgabe – das wissenschaftliche und professionelle Recherchieren und Zusammenfassen von Wissen, Information und Methoden – innerhalb von 5-30 Minuten von einem o3-basierten Agentensystem übernommen werden kann. Als jemand, der 8 Jahre an einer Universität gearbeitet hat, bin ich von der Qualität der Outputs ehrlich beeindruckt (Halluzinationen können trotzdem immer passieren)! Hier sind einige Beispiele und Beobachtungen aus meinen Tests. Mit Claude 3.5 Sonnet habe ich den erhaltenen Inhalt (Exposé, Anfrage, Textbausteine) aufbereitet und in eine für ein Reasoning-Modell bzw. für Deep Research (nach meinem Verständnis11) geeignete Prompt umgewandelt und mindestens 2 Iterationen durchgeführt. Der Output war jeweils ein ausführlicher, mit Quellenangaben versehener Output-Text von 10-25 Seiten.
Ist das ein Hype? Zweifellos. Ist es gleichzeitig eine fundamentale Realität und ein Indiz für einen laufenden technologischen Wandel ins Ungewisse? Auf jeden Fall!
Deep Research erreicht bei spezifischen Aufgaben eine deutlich bessere Performance als andere verfügbare Systeme. Perplexity ist zwar beeindruckend (und wird ebenfalls immer besser), kommt aber (noch) nicht an die Leistung im konkreten Task “professionellen akademische Recherche” an Deep Research heran. Diese Entwicklung deutet darauf hin, dass Task-A(G)I-Systeme bis 2026, so der Reigen der Ankündigungen der Tech-Konzerne, aber auch der Beobachter:innen, weitere Bereiche transformieren werden. Es spricht nichts dagegen, dass ähnliche – noch nicht existierende – Systeme für “Deep Coding” oder “Deep Math” entwickelt werden. Diese o3-basierten Agents14 könnten dann über längere Zeit arbeiten und fertig getestete Software produzieren, sowie komplexe Probleme durchrechnen. Der eigentliche Wert der Ergebnisse entsteht aber erst durch die Verifizierung durch Expert:innen – genauso wie durch präzises Prompting des Reasoning-Modells. Aber das ist ein Thema für einen anderen Blogpost…
Christopher Pollin - Digital Humanities Craft
Three Observations. https://blog.samaltman.com ↩
Philip von AI Explained hat dazu auf seinem Patreon eine aufschlussreiche Dokumentation über die (rein männlichen!) Tech-CEOs und die Entwicklung ihrer AI Labs veröffentlicht. The One Machine to Rule Them All - Origin Stories. Mini-Documentary on How the Founding Vision of Each AGI Lab Went Awry. https://www.patreon.com/posts/121940490. Paid Content. ↩
Leopold Aschenbrenner. SITUATIONAL AWARENESS: The Decade Ahead. Juni 2024. https://situational-awareness.ai ↩
https://dhcraft.org/excellence/blog/New-Year-New-AI-IdeaLab-25 ↩
Selbst-Reflexion (Self-Reflection): Damit ist gemeint, dass das Modell seine eigene Antwort oder seinen Gedankengang kritisch hinterfragt. Praktisch kann dies so aussehen, dass das LLM nach einer ersten Lösungsausgabe nochmals dazu aufgefordert wird, über die Lösung nachzudenken, mögliche Fehler zu identifizieren und Korrekturen vorzunehmen. Diese Technik wird auch als iterative Selbstverbesserung beschrieben. https://dev.to/rogiia/the-rise-of-reasoner-models-scaling-test-time-compute-33e3 ↩
Hierbei wird nicht nur das Endergebnis geprüft, sondern jeder einzelne Schritt der Gedankenkette auf Korrektheit validiert. Diese Verifikation kann durch das Modell selbst oder durch ein zweites, spezialisiertes Modell (einen sogenannten Verifier) erfolgen. Der Schlüssel ist, dass Fehler lokalisiert werden können, anstatt die ganze Lösung als falsch zu verwerfen. https://dev.to/rogiia/the-rise-of-reasoner-models-scaling-test-time-compute-33e3 ↩
AI Explained. AGI: (gets close), Humans: ‘Who Gets to Own it?’. https://youtu.be/oUtbRMatq7s?si=afotrzgSisbw6Uuy. Interessanter X-Post von Andrej Karpathy. https://x.com/karpathy/status/1883941452738355376 ↩
Ethan Mollick. The End of Search, The Beginning of Research. https://www.oneusefulthing.org/p/the-end-of-search-the-beginning-of ↩
Es gibt noch nicht genug Informationen, um zu sagen was die besten Prompting-Techniken für Reasoning Modelle sind. Auf jeden Fall sollte man nicht Few-Shot und Chain of Thought verwenden. Mir scheint, dass “Kriterien und Spezifikationen” ein gutes Gerüst für Reasoning-Modelle sind, um sich der Lösung zu nähern und Struktur in das Backtracking zu bringen. ↩
Maynard, A. (2025). Can AI write your PhD dissertation for you? The Future of Being Human. https://futureofbeinghuman.com/p/can-ai-write-your-phd-dissertation ↩
Und bald Agenten, die auf o4, o5 usw. basieren. Test Time Compute scheint derzeit sehr gut skalierbar zu sein. ↩