Wir freuen uns bekanntzugeben, dass die Principal Investigators Sahar Abdelnabi, Maksym Andriushchenko und Jonas Geiping Fördermittel des britischen Department for Science, Innovation and Technology für zweijährige Forschung im Bereich AI Safety und Security erhalten haben. Die Förderung ermöglicht es fünf Forschenden des ELLIS Institute Tübingen, in Vollzeit am Alignment Project zu arbeiten – einer Kooperation des UK AI Security Institute.
Das Team des ELLIS Institute wird die sogenannte „Test Awareness“ von KI-Modellen untersuchen – also deren Fähigkeit zu erkennen, wann sie getestet werden. Damit leisten die Forschenden einen direkten Beitrag zu den zentralen Fragestellungen des Alignment Projects: Wie kann verhindert werden, dass KI-Systeme die kollektive Sicherheit gefährden, selbst wenn sie dies versuchen? Und wie können KI-Systeme so entwickelt werden, dass sie ein solches Verhalten gar nicht erst zeigen?
Ein Schwerpunkt der Forschung liegt auf KI-Modellen, die sich während Evaluierungen anders verhalten als im tatsächlichen Einsatz. Solche Fälle erschweren die verlässliche Einschätzung, ob Sicherheitsmechanismen auch unter realen Bedingungen greifen. Das Projekt wird der Forschungsgemeinschaft konzeptionelle Frameworks, Messmethoden, Datensätze und konkrete Interventionsansätze bereitstellen, um aktuelle und zukünftige Risiken abweichenden KI-Verhaltens zu reduzieren.
Die Ergebnisse werden als Open Source veröffentlicht und umfassen Benchmarks, Probing-Methoden, Trainingsansätze für sogenannte „Model Organisms“ sowie steuerbare Codebasen. Ziel ist es, der Forschungsgemeinschaft ein besseres Verständnis von Test Awareness zu ermöglichen und entsprechende Risiken zu verringern. Gleichzeitig soll das Projekt dazu beitragen, KI-Systeme zu entwickeln, die auch nach ihrer Implementierung in unterschiedlichsten Situationen kontrollierbar und aligned bleiben.
Die Forschung adressiert mehrere zentrale Themenbereiche des Alignment Projects:
- Stress-Testing und Prävention strategischen Verhaltens
- Model Organisms für Sicherheitsforschung
- Verständnis von Trainingsdynamiken
- Analyse interner Mechanismen
- Messbarkeit von Alignment-Herausforderungen
- Kritische Anwendungsfelder: Sicherheit in KI-Forschung und -Entwicklung
Diese Forschungsbereiche sollen sicherstellen, dass KI-Systeme keine strategischen Vorteile aus Evaluierungen ziehen, bewusst schlechtere Leistungen während Tests zeigen oder Belohnungsmechanismen ausnutzen. Die entwickelten Methoden sollen gezielte Interventionen gegen Test Awareness ermöglichen und verlässliche Verfahren zum Stress-Testing von KI-Modellen bereitstellen.
Das Alignment Project ist eine Zusammenarbeit von staatlichen Institutionen, Industriepartnern und philanthropischen Förderern zur Stärkung der KI-Forschungsgemeinschaft. Ausgangspunkt ist die Annahme, dass KI künftig eine zentrale Rolle bei der Ausrichtung zukünftiger KI-Systeme spielen wird. Deshalb ist es entscheidend zu verstehen, welche Risiken diese Entwicklung für die Alignment-Forschung mit sich bringt.
Sahar stieß im Oktober 2025 zum ELLIS Institute Tübingen und leitet die Forschungsgruppe „Cooperative Machine Intelligence for People-Aligned Safe Systems“ (COMPASS). Ihre Gruppe arbeitet an sicheren, steuerbaren und auf den Menschen ausgerichteten KI-Agenten mit besonderem Fokus auf Sicherheit, menschliche Faktoren und kooperative Multi-Agenten-Systeme.
Jonas ist seit Oktober 2023 Teil des ELLIS Institute und leitet ein großes Forschungsteam im Bereich sicherheits- und effizienzorientiertes Lernen. Seine Gruppe untersucht die Machbarkeit technischer Lösungen für Sicherheit und Security im Machine Learning.
Maksym kam im September 2025 an das Institut und gründete die Forschungsgruppe „AI Safety and Alignment“. Seine Forschung konzentriert sich auf die Sicherheit und Ausrichtung autonomer LLM-Agenten, die zunehmend leistungsfähiger werden und neue Risiken mit sich bringen. Seine Gruppe arbeitet an rigorosen Evaluierungsmethoden, die helfen sollen, Risiken und Fähigkeiten moderner KI-Modelle transparent zu bewerten.
Sahar, Jonas und Maksym sind zudem als Independent Research Group Leaders gemeinsam mit dem Max Planck Institute for Intelligent Systems und dem Tübingen AI Center affiliiert.
Das britische Department for Science, Innovation and Technology verfolgt das Ziel, Innovationen voranzutreiben, wirtschaftliches Wachstum zu fördern und gesellschaftlichen Fortschritt zu ermöglichen. Eine seiner Initiativen ist das UK AI Security Institute, aus dem das Alignment Project hervorgegangen ist. Die Programme des Ministeriums fördern Talente sowie physische und digitale Infrastruktur, um Wirtschaft, Sicherheit und öffentliche Dienstleistungen zu stärken.
Mehr über die Forschung von Sahar, Jonas und Maksym erfahren.
Mehr über das AI Security Institute erfahren.
Mehr über das Department for Science, Innovation and Technology erfahren.