AI Big Data

Von natürlicher Sprache zu SQL: Einsatz großer Sprachmodelle für Datenbankabfragen

Die Nutzung großer Sprachmodelle (LLMs) zur automatisierten Generierung von SQL-Abfragen aus natürlichsprachlichen Eingaben eröffnet neue Möglichkeiten für datengetriebene Unternehmen. Besonders in der Luftfahrtindustrie, in der präzise Datenanalysen für die strategische Netzwerkplanung essenziell sind, kann diese Technologie den Zugriff auf relevante Informationen erheblich erleichtern. Dieser Beitrag untersucht den Einsatz von LLMs in Kombination mit Retrieval-Augmented Generation (RAG) zur Verbesserung der Abfragegenauigkeit. Basierend auf einem Datensatz mit 150 natürlichsprachlichen Anfragen wurden verschiedene Ansätze evaluiert. Die Ergebnisse zeigen, dass durch optimierte Prompting-Strategien und kontextgestützte Abfragen eine Genauigkeit von bis zu 85 Prozent erreicht werden kann. Trotz verbleibender Herausforderungen, insbesondere im Hinblick auf die Mehrdeutigkeit natürlicher Sprache, stellt diese Technologie einen bedeutenden Fortschritt in der Interaktion mit relationalen Datenbanken dar.

Artikel zur BI-Spektrum 1/2025

Markus Schüttengruber

Co-Founder

10.03.2025
Lesezeit: 13 Minuten
403 Views

Die Transformation natürlicher Sprache in SQL durch den Einsatz großer Sprachmodelle (LLMs) stellt einen bedeutenden Fortschritt in der Datenanalyse dar [1]. Besonders in datengetriebenen Branchen wie der Luftfahrt eröffnet dieseTechnologie neue Möglichkeiten, komplexe Datenbankabfragen auch für Nicht-SQL-Experten zugänglich zu machen. Dieser Beitrag untersucht, wie LLMs in der strategischen Netzwerkplanung der Luftfahrtindustrie eingesetzt werden können, um datenbasierte Entscheidungen zu optimieren. Die Analyse beruht auf einem Aviation-Datensatz mit 150 natürlichsprachlichen Anfragen, die mit Hilfe verschiedener Architekturen in SQL übersetzt wurden. Durch den Einsatz von Retrieval-Augmented Generation (RAG) konnte eine signifikante Steigerung der Abfragegenauigkeit erzielt werden.

Relationale Datenbanken bilden in vielen datenintensiven Branchen die Grundlage für fundierte Entscheidungen. Die Formulierung komplexer SQL-Abfragen erfordert jedoch tiefgehendes Fachwissen sowohl über die Syntax der Sprache als auch über die spezifische Struktur der jeweiligen Datenbank. Dieser Herausforderung kann auf unterschiedliche Weise begegnet werden. Für typische Anfragen lassen sich analytische Datenmodelle etablieren, beispielsweise in einem dimensionalen Data Mart, mit Namenskonventionen und Metadaten in Kombination mit Self-Service-BI-Tools.

Bei weniger vorhersehbaren Ad-hoc-Anfragen bleibt jedoch häufig nur der direkte Weg auf die Datenbank. Für viele Anwender stellt dies eine erhebliche Hürde dar, insbesondere wenn sie nicht regelmäßig mit SQL arbeiten. In der Praxis sind Fachabteilungen daher häufig auf die Unterstützung von Datenanalysten angewiesen, um relevante Informationen aus der Datenbank zu extrahieren – ein Prozess, der zeitaufwendig ist und die Flexibilität bei datengetriebenen Entscheidungen einschränken kann.

Text-to-SQL-Technologien schließen die Lücke zwischen natürlicher Sprache und SQL, indem sie natürlichsprachliche Anfragen direkt in ausführbare Datenbankabfragen umwandeln. Die Entwicklung dieser Systeme lässt sich in drei Phasen unterteilen: In den frühen Jahren dominierten regelbasierte Ansätze mit begrenzten Fähigkeiten. Ab 2016 wurden diese durch neuronale Netzwerke und Encoder-Decoder-Modelle abgelöst, die SQL-Abfragen auf Basis von Sequenz-zu-Sequenz-Architekturen generieren konnten. Seit 2020 haben große Sprachmodelle (LLMs) wie GPT die Text-to-SQL-Generierung revolutioniert, da sie Syntax, Kontext und Semantik natürlicher Sprache mit hoher Präzision erfassen [2]. Abbildung 1 zeigt die wichtigsten Meilensteine dieser Entwicklung.

Abb. 1: Entwicklung der Text-zu-SQL-Ansätze [2]

Besonders vielversprechende Ergebnisse werden inzwischen durch die Kombination mehrerer Techniken erzielt. Few-Shot- und Chain-of-Thought-Prompting haben sich als äußerst effektive Methoden zur Generierung komplexer SQL-Abfragen erwiesen. Während Zero-Shot-Prompting lediglich eine direkte Übersetzung der natürlichsprachlichen Anfrage in SQL vornimmt, steigert Few-Shot-Prompting mit Retrieval-Augmented Generation (RAG) [3] die Präzision erheblich, indem es den Modellen Beispielabfragen zur Orientierung bereitstellt [4]. Chain-of-Thought-Prompting zwingt das Modell hingegen dazu, seine Schritte bei der Abfrageerstellung explizit nachzuvollziehen, was insbesondere bei mehrstufigen SQL-Abfragen zu präziseren Ergebnissen führt [5].

Luftfahrt als Praxisbeispiel

Die Luftfahrtindustrie ist eine stark datengetriebene Branche, in der präzise Analysen für die Optimierung von Flugrouten, das Kapazitätsmanagement und die Marktanalyse eine zentrale Rolle spielen. Airlines, Flughäfen und Beratungsunternehmen greifen auf umfangreiche Datenmengen zurück, um fundierte strategische Entscheidungen zu treffen und wettbewerbsfähig zu bleiben.

Eine wesentliche Methode zur Bewertung der Attraktivität einer Flugverbindung ist das Quality-Service-Index-(QSI-)Modell, das die Wahrscheinlichkeit berechnet, mit der sich Passagiere für eine bestimmte Verbindung entscheiden. Dabei fließen Faktoren wie Flugzeiten, Umsteigeverbindungen, Streckenführung, Preisgestaltung und Servicequalität in die Berechnung ein. Auf Basis dieser Ergebnisse optimieren Fluggesellschaften ihr Streckennetz, passen Frequenzen an oder entscheiden über die Einführung neuer Verbindungen.

Die für solche Analysen benötigten Daten sind jedoch oft in komplexen relationalen Datenbanken gespeichert, deren Struktur ein tiefgehendes Verständnis von Datenbankschemata und SQL erfordert. Um strategische Fragen zu beantworten, müssen beispielsweise Abfragen formuliert werden, die Auskunft darüber geben, welche Flugstrecken zwischen bestimmten Regionen die höchsten Einnahmen erzielen, wie sich Passagierzahlen auf verschiedenen Routen über Zeiträume hinweg entwickeln oder welche Verbindungen besonders häufig von Umsteigepassagieren genutzt werden.

In der Praxis bedeutet dies, dass nichttechnische Experten, wie Netzwerkplaner oder Marktanalysten, häufig auf die Unterstützung von spezialisierten Datenanalysten oder IT-Teams angewiesen sind, um die benötigten Informationen aus der Datenbank zu extrahieren. Dieser Prozess ist nicht nur zeitaufwendig, sondern auch ressourcenintensiv, da Anfragen erst formuliert, validiert und gegebenenfalls angepasst werden müssen. Die daraus resultierenden Verzögerungen in der Entscheidungsfindung können sich in einer dynamischen Branche wie der Luftfahrt nachteilig auswirken.

Hier setzt die Text-to-SQL-Technologie auf Basis großer Sprachmodelle (LLMs) an. Sie ermöglicht es, natürlichsprachliche Anfragen direkt in ausführbare SQL-Befehle zu übersetzen und damit den Zugriff auf relevante Daten erheblich zu vereinfachen. Anstatt sich mit der Syntax komplexer SQL-Abfragen auseinandersetzen zu müssen, können Fachanwender ihre Fragen in natürlicher Sprache stellen und erhalten automatisch generierte Abfragen, die die entsprechenden Informationen aus der Datenbank extrahieren. Das beschleunigt nicht nur den Analyseprozess, sondern reduziert auch die Abhängigkeit von technischen Experten und erhöht die Flexibilität in der strategischen Planung.

Technische Umsetzung und Ergebnisse

Um die Leistungsfähigkeit von LLM-basierten Textto-SQL-Systemen in der strategischen Netzwerkplanung der Luftfahrtindustrie zu testen, wurde ein speziell entwickelter Datensatz mit 150 natürlichsprachlichen Anfragen und den entsprechenden SQL-Statements erstellt. Das zugrunde liegende Datenmodell entstammt einer Anwendung zur Ermittlung des Quality Service Index (QSI) bei Fluggesellschaften und folgt Strukturmustern, wie man sie auch in Core-Data-Warehouse- oder Data-Vault-Architekturen finden würde. Es gibt technische Surrogatschlüssel sowie teilweise redundante Daten in verschiedenen Tabellen. Beispielsweise enthält die Tabelle flight detaillierte Informationen zu einzelnen Flügen, während Flugverbindungen nach einem mehrstufigen Konzept erfasst werden: Direktflüge, einfache Umsteigeverbindungen und doppelte Umsteigeverbindungen werden in separaten Tabellen gespeichert.

Diese Anfragen deckten ein breites Spektrum typischer Fragestellungen aus der Luftfahrtbranche ab, darunter einfache Selektionsabfragen, komplexe Joins über mehrere Tabellen hinweg sowie Aggregationen und Berechnungen, die für die strategische Analyse von Flugrouten und Markttrends erforderlich sind.

Zur Evaluierung wurden verschiedene Sprachmodelle getestet, darunter GPT-3.5-Turbo, GPT-4 und GPT-4-Turbo, um Unterschiede in der Abfragegenauigkeit zu quantifizieren und Optimierungsstrategien für eine höhere Präzision zu identifizieren. Dabei lag der Fokus insbesondere darauf, wie gut die Modelle komplexe SQL-Strukturen generieren, mehrdeutige natürlichsprachliche Anfragen interpretieren und mit den spezifischen Anforderungen relationaler Luftfahrtdatenbanken umgehen konnten.

Ein weiteres zentrales Element war der Einsatz von Schema-Linking-Techniken, um die Zuordnung zwischen natürlichsprachlichen Anfragen und der zugrunde liegenden Datenbankstruktur zu präzisieren. Sprachmodelle neigen dazu, Datenbankschemata fehlerhaft zu interpretieren oder auf allgemeines Weltwissen zurückzugreifen, das nicht mit der tatsächlichen Struktur der Datenbank übereinstimmt. Um dieses Problem zu minimieren, wurden gezielte Schema-Linking-Strategien entwickelt, die es dem Modell erleichtern, natürliche Sprachbegriffe mit den korrekten Tabellen- und Spaltennamen zu verknüpfen.

Die Anfragen wurden dabei in drei Varianten getestet: ohne Schema, mit rein technischen Schemainformationen und mit erweiterten Schemainformationen, bei denen Tabellen und Spalten durch natürlichsprachliche Kommentare näher beschrieben wurden. Diese schrittweise Erweiterung der bereitgestellten Informationen ermöglichte eine detaillierte Analyse der Modellleistung unter unterschiedlichen Bedingungen und half, die besten Strategien zur Verbesserung der Abfragegenauigkeit zu identifizieren.

Zusätzlich führte der Einsatz von Retrieval-Augmented Generation (RAG) zu einer signifikanten Verbesserung der Abfragegenauigkeit. Dieses Verfahren ermöglicht die Integration externer Kontextinformationen in den Abfrageprozess, indem relevante Beispielanfragen – sowohl in textueller Form als auch mit idealen („goldenen“) SQL-Abfragen – aus einer Wissensdatenbank abgerufen und dem Modell als zusätzliche Eingabe bereitgestellt werden. Dadurch wurde die Präzision bei der Identifikation der richtigen Tabellen- und Spaltennamen sowie der logischen Verknüpfungen innerhalb der Abfragen deutlich erhöht. Abbildung 2 veranschaulicht diesen Ablauf unter Einbeziehung von Schemainformationen und Beispielabfragen per RAG.

Abb. 2: Ablauf mit Schema und RAG

In Anlehnung an Nan et al. [6] wird dabei die folgende Prompt-Vorlage verwendet:

You are a ClickHouse database expert.

Please help to generate a ClickHouse query to answer the question. 
Your response should ONLY be based on the given context and 
only generate the generated SQL query and nothing else.

/* Given the following ClickHouse database schema: */ 
{{ schema_prompt }}

{% if include_demonstrations %} /* Sample Questions */ 
{{ original_query }} {% endif %}

/* Answer the following question: */ 
{{ user_question }}

ClickHouse

Variablennamen, die in geschweifte Klammern gesetzt sind, dienen als Platzhalter und werden zur Laufzeit mit den tatsächlichen Werten gefüllt. Die Variable schema_prompt wird durch das Datenbankschema ersetzt und kann optional einen SQL-Kommentar enthalten, der eine kurze Beschreibung der jeweiligen Spalte und ihrer gespeicherten Daten liefert. Diese Technik wird als „Schema Augmentation“ bezeichnet.

Die Variable user_question enthält die natürlichsprachliche Abfrage aus dem Testsatz. Die Variable include_demonstrations ist ein boolesches Flag, das steuert, ob Beispielanfragen in die Eingabeaufforderung aufgenommen werden. Ist der Wert True, wird die Variable original_ query durch die natürlichsprachliche Abfrage und die zugehörige SQL-Abfrage aus dem Trainingsset ersetzt. Falls Beispielanfragen verwendet werden, folgt für jede Demonstrationsanfrage, die dem Modell übergeben wird, die folgende Vorlage, wobei die Variable question die natürlichsprachliche Abfrage repräsentiert und sql_query die zugehörige „goldene“ SQL-Abfrage enthält:

Question: {{ question }}
Query: {{ sql_query }}

Die durchgeführten Tests zeigen, dass das GPT-4-Turbo-Modell in Kombination mit RAG die besten Ergebnisse erzielt. Während Zero-Shot-Abfragen trotz erweiterter Schemainformationen lediglich eine Genauigkeit von 60 Prozent erreichten, konnte die Abfragegenauigkeit durch optimiertes Prompting und die gezielte Bereitstellung passender Beispielanfragen (RAG Few-Shot) auf 83 Prozent gesteigert werden. Diese Ergebnisse, die in Tabelle 1 dargestellt sind, unterstreichen die deutliche Überlegenheit dieser Methode.

Tab. 1: Genauigkeit der verschiedenen Ansätzen

Zusätzlich wurde eine Variante getestet, bei der anstelle des gesamten Schemas nur die jeweils relevanten Tabellen in den Prompt integriert wurden. Diese Anpassung führte insbesondere bei GPT-4- Turbo zu einer weiteren Verbesserung, wodurch eine Genauigkeit von 85 Prozent erreicht werden konnte.

Die Genauigkeit (Accuracy) bezeichnet in diesem Fall den Anteil der Abfragen, bei denen das Modell die erwartete „goldene“ Referenzabfrage korrekt generieren konnte. Dabei ist zu bedenken, dass einige Abfragen als fehlerhaft markiert wurden, obwohl sie die richtigen Daten lieferten, etwa weil kleinere Fehler wie eine falsche Spaltenreihenfolge vorlagen. Für weiterführende Untersuchungen wäre es daher sinnvoll, die Modellleistung nicht nur anhand der syntaktischen Genauigkeit zu bewerten. Stattdessen könnten zusätzliche Metriken wie semantische Ähnlichkeit oder Komponentenabgleich in die Analyse einfließen.

Die Ergebnisse verdeutlichen, dass die Kombination aus fortschrittlichem Prompting, der gezielten Integration externer Kontextinformationen und spezifischen Schema-Linking-Strategien maßgeblich zur Verbesserung der Abfragegenauigkeit beiträgt. Damit stellt der Einsatz von LLMs in der Text-to-SQL-Generierung eine vielversprechende Möglichkeit dar, um komplexe Datenabfragen in der Luftfahrtbranche effizienter und zugänglicher zu gestalten.

Fazit

Text-to-SQL-Systeme auf Basis großer Sprachmodelle bieten erhebliches Potenzial für Unternehmen, die ihre Datenbankabfragen effizienter und intuitiver gestalten möchten. Besonders in der Luftfahrtindustrie, wo datengetriebene Entscheidungen essenziell sind, kann diese Technologie die strategische Netzwerkplanung optimieren und fundiertere Entscheidungen ermöglichen.

Die Untersuchung hat gezeigt, dass der gezielte Einsatz moderner Sprachmodelle in Kombination mit RAG die Abfragegenauigkeit auf bis zu 85 Prozent steigern kann – ein bedeutender Fortschritt gegenüber klassischen regelbasierten Systemen, der jedoch für geschäftliche Anwendungsfälle noch nicht ausreicht. Aktuell kann vermutlich noch kein LLM menschliche Datenanalysten vollständig ersetzen. Herausforderungen bestehen insbesondere in der Ambiguität natürlicher Sprache: Mehrdeutig formulierte Anfragen können zu unterschiedlichen Interpretationen führen, wodurch die generierte SQL-Abfrage möglicherweise nicht exakt dem gewünschten Informationsgehalt entspricht.

Ein weiterer Punkt ist die Datensicherheit beim Einsatz kommerzieller LLMs wie GPT, die in dieser Studie verwendet wurden. Auch wenn bei dem hier vorgestellten Ansatz keine Unternehmensdaten direkt an die Sprachmodelle übermittelt wurden, sondern ausschließlich Metadaten, könnte dies für einige Unternehmen ein sensibles Thema sein.

Stattdessen könnte man auf lokal betriebene, offene LLMs wie Llama 3 oder DeepSeek setzen. Dabei ist ein weiterer kritischer Faktor der hohe Rechenaufwand, den große Sprachmodelle erfordern, insbesondere bei komplexen Abfragen. Um Effizienz und Kosten zu optimieren, kommen verschiedene Optimierungsstrategien in Frage, darunter Caching, optimiertes Prompting und Fine-Tuning-Methoden.

Zukünftig könnten hybride Modelle, die klassische NLP-Techniken mit LLMs kombinieren, die Abfragegenauigkeit weiter steigern. Zudem bietet die Integration von Domänenwissen vielversprechende Ansätze, um spezifische Fachanwendungen präziser zu gestalten. Verbesserte Few-Shotund Zero-Shot-Learning-Ansätze könnten den Trainingsaufwand reduzieren und die Technologie breiter nutzbar machen.

Online-Ressourcen

[1] Naveed, H. et al.: A Comprehensive Overview of Large Language Models. arXiv: 2307.06435, April 2024. http://arxiv.org/abs/2307.06435, abgerufen am 13.2.2025

[2] Zhang, W. et al.: Natural Language Interfaces for Tabular Data Querying and Visualization: A Survey. In: IEEE Transactions on Knowledge and Data Engineering, Vol. 36, No. 11, November 2024. https://doi.org/10.1109/TKDE.2024.3400824, abgerufen am 13.2.2025

[3] Li, H. et al.: A Survey on Retrieval-Augmented Text Generation. arXiv: 2202.01110, Februar 2022. http://arxiv.org/abs/2202.01110, abgerufen am 13.2.2025

[4] Gao, D. et al.: Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation. In: Proceedings of the VLDB Endowment, Vol. 17, No. 5, Januar 2024. https://doi.org/10.14778/3641204.3641221, abgerufen am 13.2.2025

[5] Zhang, H. et al.: ACT-SQL: In-Context Learning for Text-to-SQL with Automatically-Generated Chain-of-Thought. In: Findings of the Association for Computational Linguistics: EMNLP 2023, Oktober 2023. https://doi.org/10.18653/v1/2023.findings-emnlp.227, abgerufen am 13.2.2025

[6] Nan, L. et al.: Enhancing Few-shot Text-to-SQL Capabilities of Large Language Models: A Study on Prompt Design Strategies. arXiv: 2305.12586, Mai 2023.
http://arxiv.org/abs/2305.12586, abgerufen am 13.2.2025

. . .

Vorheriger Artikel