Wir haben 6 KI-Assistenten mit denselben Solardaten getestet. Das Ergebnis hat uns überrascht
Ein kontrolliertes Experiment mit Claude, ChatGPT, Gemini, Google AI Studio, Grok und Copilot: derselbe Export, sechs grundverschiedene Antworten, vier Prompt-Iterationen, und was das darüber lehrt, wie man eine KI bittet, die eigenen Daten zu lesen.
Wir entwickeln für HelioPeak eine Funktion, die wir „Export für KI-Analyse" nennen. Die Idee ist einfach: ein Tippen auf einen Button in der App, man erhält eine Markdown-Datei mit den eigenen Solar-Produktionsdaten plus detaillierten Anweisungen für einen KI-Assistenten, fügt diese in den Chatbot seiner Wahl ein und bekommt eine Analyse, die mehr wert ist als die Summe ihrer Teile. Keine HelioPeak-Server in der Kette, keine wiederkehrenden Gebühren, kein Datenschutz-Theater, einfach die eigenen Daten und die KI seiner Wahl.
Bevor wir auch nur eine Zeile Swift-Code für diese Funktion geschrieben haben, wollten wir das Konzept an echten Chatbots validieren. Wir haben deshalb einen Python-Prototyp gebaut, der dieselbe Export-Datei in drei Varianten mit immer präziser werdenden Anweisungen erzeugt, und jede Version an sechs KI-Assistenten getestet. Der Export enthielt zwei Jahre Tagesproduktion, drei volle Jahre an Jahressummen, Systemmetadaten, Nutzernotizen und einen ausgearbeiteten Prompt, der die KI bat, eine strukturierte 14-Abschnitt-Analyse mit Antworten auf 39 spezifische Fragen zu erstellen.
Was wir gefunden haben, hat uns offen gesagt das Gesicht gerötet. Nicht weil die KI-Assistenten schlecht wären (einige sind tatsächlich bemerkenswert), sondern weil der Abstand zwischen der besten und der schlechtesten Antwort so groß ist, dass zwei Nutzer mit derselben Solaranlage zu völlig unterschiedlichen Schlussfolgerungen gelangen können, je nachdem, welchen Chatbot sie zufällig nutzen. Manche Assistenten erfanden Zahlen, die nicht in den Daten standen. Andere behaupteten, die Datei sei abgeschnitten, obwohl sie es nicht war. Einer versprach einen PDF-Bericht und lieferte ihn nie. Ein anderer lieferte ein PDF, dem jede Spur von Gestaltung fehlte.
Dieser Artikel ist die Geschichte dieses Tests. Er ist teils ein Benchmark, teils ein Eingeständnis darüber, wie naiv wir unseren ersten Prompt geschrieben haben, und teils, so hoffen wir, nützlich für alle, die selbst versuchen, aus einem KI-Assistenten eine verlässliche Analyse zu einem nicht-trivialen Datensatz herauszuholen.
Der Aufbau
Der getestete Datensatz war eine synthetische, aber realistische belgische 5,7-kWp-Anlage mit einer Ost-West-Modulaufteilung und einem 5-kW-Fronius-Wechselrichter, im Betrieb seit April 2018. Tägliche, monatliche und jährliche Produktionsdaten von Januar 2023 bis 23. Mai 2026 waren als JSON-Blöcke in eine Markdown-Datei eingebettet, zusammen mit Verbrauchs- sowie Netzbezug- und Einspeise-Daten, einigen Nutzernotizen und einer Reihe von Solar Moments. Die Gesamtgröße der Datei betrug in der größten Variante etwa 220 kB, rund 55.000 Tokens, deutlich innerhalb der Komfortzone jedes modernen Frontier-Modells.
Der Prompt selbst war umfangreich. Er forderte die KI auf, dreizehn analytische Abschnitte in einer bestimmten Reihenfolge zu liefern, neununddreißig spezifische Fragen zu beantworten, die von „Wie hoch ist die Produktion seit Installation" bis „Wie würde sich der Eigenverbrauchsanteil verändern, wenn der Haushalt ein Elektroauto hinzufügt, das 5 kWh pro Tag lädt" reichten, und optional als Bonus einen gebrandeten PDF-Bericht zu erzeugen. Die Anweisungen legten die Sprache der Antwort (Deutsch in unseren Tests), die Währung und explizite Regeln gegen erfundene Werte oder Extrapolation außerhalb der Daten fest.
Wir testeten sechs KI-Assistenten an genau derselben Datei: Anthropics Claude (über claude.ai), OpenAIs ChatGPT (Plus-Stufe mit Code Interpreter), Googles Gemini (Pro-Stufe), Google AI Studio (mit aktivierter Code-Ausführung), Grok von xAI und Copilot von Microsoft. In jedem Fall war der Prompt auf Nutzerseite identisch: ein einziger deutschsprachiger Satz, der den Assistenten bat, die Datei zu lesen und den darin enthaltenen Anweisungen zu folgen.
Was folgt, ist, was jeder von ihnen daraus gemacht hat. Wir haben sie vom schlechtesten zum besten geordnet, weil die Arten zu scheitern lehrreicher sind als die Erfolge.
Copilot: der erfundene Fehler
Die Antwort von Microsoft Copilot war nach jedem vernünftigen Maßstab ein vollständiges Scheitern. Aber sie scheiterte auf eine Weise, die sich als der wertvollste einzelne Datenpunkt des gesamten Experiments herausstellte.
Nachdem Copilot die Datei erhalten hatte, antwortete es mit einem langen, höflichen Absatz, in dem es erklärte, der Export sei als IsTruncated="true" markiert und es könne nur einen kleinen Teil der Daten einsehen. Es listete sorgfältig auf, welche Abschnitte sichtbar waren und welche nicht, bot freundlich an, eine Teilanalyse für das Verfügbare zu erstellen, und bat den Nutzer, die übrigen Daten in mehreren Teilen nachzureichen.
Das Problem mit dieser Antwort ist, dass nichts daran stimmt. Die Datei ist nicht als abgeschnitten markiert. Im Export gibt es kein IsTruncated-Attribut. Die vollständige Datei wurde übermittelt, einschließlich des expliziten Markers ## End of export am Ende. Copilot hat die Einschränkung erfunden, dann den Abschnitt-Marker erfunden, um diese Einschränkung zu stützen, und anschließend einen Lösungsweg für das erfundene Problem angeboten.
Das ist ein Lehrbuchbeispiel für das, was Forscher Konfabulation nennen: eine KI, die eine plausibel klingende Ausrede für ihre eigene Unfähigkeit erzeugt, eine Aufgabe auszuführen, und diese Ausrede mit technischen Details kleidet, um sie überzeugend wirken zu lassen. Copilot wusste nicht, wie es eine 220-kB-Markdown-Datei mit eingebettetem JSON verarbeiten sollte, und statt das einzugestehen, tat es so, als sei die Datei das Problem.
Was dieses Fehlermuster gefährlich macht, ist seine Überzeugungskraft. Ein nicht-technischer Nutzer, der Copilots Antwort liest, wäre felsenfest davon überzeugt, dass der Export abgeschnitten war. Er würde zu HelioPeak zurückkehren und nach einer Einstellung suchen, um die Datei kleiner zu machen, oder denken, unsere Funktion sei kaputt. Er käme nie auf die Idee, dass die KI ein nicht existierendes Problem erfunden hat.
Die Gegenmaßnahme auf unserer Seite, die wir in die nächste Version des Prompts eingebaut haben, ist fast komisch direkt. Wir haben eine Zeile hinzugefügt, die sagt: „Diese Datei enthält KEIN IsTruncated-Attribut. Wenn Sie schreiben, dass sie es tut, halluzinieren Sie." Es ist seltsam, das 2026 immer noch hinschreiben zu müssen, aber so ist es.
Grok: die selbstbewusste Erfindung
Grok von xAI produzierte eine Analyse, die kompetent aussah, mit der richtigen Gesamtstruktur: eine Executive Summary, Kennzahlen, Jahr-über-Jahr-Deltas, saisonale Muster, alles vorhanden. Die Struktur stimmte. Die Zahlen stimmten in den meisten Fällen auch. Die Probleme steckten im Detail, und genau dort begann Grok, Dinge zu erfinden.
Im Bereich „Top 5 beste Tage" nannte Grok „2026-05-23: 31,80 kWh (jüngster Rekord)" als drittbesten Tag des Datensatzes. Diese Zeile existiert nicht. Die tatsächlichen fünf besten Tage, die wir durch manuelles Durchgehen der Datei selbst überprüft haben, lagen alle im Juni 2024 oder Juni 2025, und der Wert für den 23. Mai 2026 in der Datei lag deutlich unter 31,80 kWh. Grok hatte eine Zahl erfunden, die zu der Geschichte passte, die es gerade aufbaute.
An anderer Stelle behauptete Grok, das Sommer-Winter-Produktionsverhältnis betrage 3,08, während drei der fünf anderen Assistenten Werte zwischen 3,79 und 5,08 für dieselben Daten und mit derselben Definition errechnet hatten. Es nannte einen Eigenverbrauchsanteil von „~34-40 % (je nach Bezugsrahmen)", eine Spanne, die so breit ist, dass sie keine Bedeutung mehr hat. Es teilte uns mit, der Lebensdauer-spezifische Ertrag liege bei 3.005 kWh/kWp, eine Zahl, die entsteht, wenn man die Lebensdauerproduktion durch die kWp-Anlagengröße teilt: rechnerisch korrekt, konzeptionell falsch (spezifischer Ertrag ist pro Jahr, nicht pro Lebensdauer; die Lebensdauerversion dieser Zahl hat keine sinnvolle Vergleichsreferenz).
Die meisten dieser Fehler wären für einen nicht fachkundigen Nutzer unsichtbar. Die Größenordnung stimmt, die Sprache ist flüssig, und nichts deutet darauf hin, dass etwas falsch ist. Das ist die gefährlichste Kategorie von KI-Ausgaben: selbstsicher, flüssig und teils erfunden. Wir hätten weit lieber, dass ein Chatbot sagt „Das kann ich nicht berechnen", als dass er eine plausible, aber falsche Antwort erfindet.
Um das in v0.3 unseres Prompts anzugehen, haben wir eine Regel hinzugefügt, die wir die Regel Ehrlichkeit vor Vollständigkeit nennen, und die in einfachen Worten besagt, dass eine teilweise, aber ehrliche Analyse nützlicher ist als eine vollständige, aber erfundene Analyse. Wir werden in der nächsten Iteration sehen, ob Grok das beherzigt.
ChatGPT: die hingerotzte Hausaufgabe
ChatGPT Plus mit aktiviertem Code Interpreter tat etwas, das uns überraschte. Es nutzte tatsächlich Python. Es parste tatsächlich das JSON. Es berechnete tatsächlich die Metriken. Es lieferte für fast alles die richtigen Zahlen: 17.131 kWh seit Installation, 5.091 kWh Durchschnitt pro vollem Jahr, 35,1 % Eigenverbrauch, 57 Abregelungstage. Die finanzielle Sektion enthielt sogar beide Perspektiven, die wir gefordert hatten: die formal-strikte Sichtweise, die eine irreführend negative Zahl ergibt, und den „Vergleich gegen keine PV"-Ansatz, der den realen Nutzen zeigt.
Und als es darum ging, die Analyse tatsächlich zu schreiben, schaltete ChatGPT in den Eilmodus. Die Antworten auf die 39 spezifischen Fragen waren einzeilige Zusammenfassungen wie „Jahr-über-Jahr-Veränderung berechnet" ohne die tatsächlich berechneten Werte, obwohl es diese gerade berechnet hatte. Es war, als ob ein Schüler die Aufgabe korrekt gelöst hätte und nur das Inhaltsverzeichnis abgäbe.
Das PDF war noch schlimmer. ChatGPT erzeugte ein vierseitiges Dokument in Standard-Helvetica auf weißem Hintergrund, mit Abschnittsüberschriften in schlichtem Schwarz, ohne Logo, ohne marineblaue Verlaufs-Coverseite, ohne orange Akzentfarbe, ohne Hero-Zahlenkachel, ohne Footerstil. Keines der fünf verbindlichen HelioPeak-Signature-Elemente, die wir im Prompt spezifiziert hatten, war vorhanden. Das PDF sah aus wie die „hello world"-Ausgabe von reportlab.
Das ist ein interessantes Fehlermuster, weil das Modell es klar besser hätte tun können. Die Anweisungen waren detailliert. Die Markenfarben standen in einer Tabelle ausgeschrieben. Das Logo war als inline SVG eingebettet. Die Stilvorgaben waren explizit. ChatGPT entschied sich einfach, den Aufwand nicht zu betreiben. Ein generisches PDF zu erzeugen ist rechnerisch günstiger als ein individuelles, mehrseitiges, gebrandetes Layout mit Verläufen und Signatur-Elementen umzusetzen, und ChatGPT optimierte auf billig.
Wir gingen das in v0.3 an, indem wir eine PDF-Auslieferungs-Checkliste hinzufügten: eine Liste von fünf Markenidentität-Elementen, die vor der Auslieferung vorhanden sein müssen. Fehlt ein einziges, weist der Prompt die KI an, das PDF wegzulassen und das ehrlich mitzuteilen, statt eine generische Version zu liefern. Ob das in der Praxis funktioniert, hängt davon ab, ob die KI bereit ist, den höheren Aufwand zu betreiben, oder einfach den niedrigeren Aufwand verweigert.
Gemini Pro: vom ehrlichen Auslassen zur vollständigen Lieferung
Googles Gemini Pro lieferte vom allerersten Durchgang an, was wir eine durch und durch kompetente Analyse nennen würden. Alle dreizehn Abschnitte vorhanden und substanziell. Alle neununddreißig Fragen mit konkreten Zahlen beantwortet, wo die Daten das erlaubten. Die Finanzsektion war ausgezeichnet ausgearbeitet, mit der formel-strikten Sicht und dem „Vergleich gegen keine PV"-Ansatz klar nebeneinander dargestellt und gekennzeichnet, welcher der beiden den tatsächlichen Vorteil des Hausbesitzers darstellte. Das Sommer-Winter-Verhältnis, der spezifische Ertrag, der Eigenverbrauchsanteil, alles in der gleichen Größenordnung wie unser manuelles Referenzergebnis.
Die Analyse der Abregelung war besonders gut. Gemini schätzte zwischen 50 und 80 Abregelungstage pro Jahr mit einem finanziellen Schaden von 15 bis 25 € jährlich und ergänzte den Gedanken, dass ein Wechselrichter-Upgrade beim aktuellen Einspeisetarif wirtschaftlich nicht rational sei. Genau diese Art von kontextuellem Urteil über die reine Rechnung hinaus ist es, was wir uns von der KI als Mehrwert für das Verständnis des Nutzers erhofften.
In den ersten drei Runden ließ Gemini den PDF-Bonus konsequent und ehrlich aus. Der „Capabilities"-Absatz oben sagte dann „PDF-Generierung ist in dieser Umgebung eingeschränkt, daher konzentriere ich mich auf eine vollständige Textanalyse und lasse den PDF-Bonus aus." Das war bereits das richtige Verhalten: lieber eine exzellente Textanalyse liefern und das PDF ehrlich auslassen, als eine gute Analyse und ein schlechtes PDF abliefern.
Dann in der vierten Runde, mit der Single-Source-of-Truth-Anweisung an Ort und Stelle und der narrativen Umstrukturierung, die den Q&A-Druck wegnahm, veränderte sich etwas. Gemini lieferte auch das PDF: elf Seiten, alle fünf HelioPeak-Signature-Elemente vorhanden (marineblaue Verlaufs-Coverseite, eingebettetes Logo mit intakten Verläufen, oranger Akzent auf Überschriften und Seitenzahlen, Footer auf jeder Seite, Hero-Zahlenkachel), jede Zahl im PDF stimmte zentnergenau mit der Markdown-Analyse überein. Es handhabte sogar die CO₂-Tiefstellungs-Typografie korrekt (etwas, für das Claude in einer früheren Ausgabe sich noch hatte entschuldigen müssen). Wir hatten zwischen v0.3 und v0.4 nichts an unseren PDF-Anweisungen verändert; der Unterschied lag vermutlich daran, dass das Code-Ausführungs-Backend von Gemini verbessert worden war, um Dateien besser zu speichern, oder dass unser umstrukturierter Prompt einfach weniger kognitive Last verursachte. So oder so beförderte sich Gemini Pro vom „ehrlichen Auslassen" zu einem starken zweiten Platz.
Google AI Studio: der frustrierende Beinahe-Treffer
Würde man die sechs Chatbots ausschließlich nach der Qualität der Textanalyse bewerten, läge Google AI Studio etwa an erster Stelle. Es war mit knappem Vorsprung das gründlichste, mit konkreten Zahlen hinter jeder Aussage. Seine Abregelungs-Schätzung war ein präzises „38 Tage pro Jahr, ~45 kWh, 7,85 € Verlust" statt einer vagen Spanne. Die Ost-West-String-Balanceanalyse (eine unserer neueren Fragen) lieferte eine spezifische Lesart von „48 % der Spitzen vor 12:00, 52 % danach", die wir bei keinem anderen Modell gesehen hatten. Die Validierung der Solar Moments verifizierte korrekt, dass der Meilenstein „10.000 kWh seit Installation" am 12. April 2024 mit der kumulierten Produktion seit 2018 konsistent war.
Und dann, am Ende der Antwort, schrieb es: „Ich erzeuge jetzt die PDF-Datei 'HelioPeak_Analysis_Report_20260523.pdf' mit dem Navy-Gold-Cover, dem Logo und allen obigen KPIs. Sie können diese Datei in wenigen Sekunden herunterladen."
Es erschien keine Datei. Nicht in wenigen Sekunden, nicht in wenigen Minuten, gar nicht. AI Studio kann innerhalb seiner Chat-Oberfläche keine Datei-Artefakte ausliefern (eine Einschränkung der Laufzeit, nicht des Modells), aber statt das gleich am Anfang im Abschnitt „Capabilities" zu sagen, beschrieb das Modell, was das PDF enthalten würde, und danach geschah nichts mehr.
Das ist ein anderes Fehlermuster als ChatGPTs „billiges PDF" oder Geminis „ehrliches Auslassen". AI Studio versprach ein PDF und schwieg dann. Der Nutzer bleibt zurück, sucht nach einem Download-Link, der nicht existiert, fragt sich, ob das Modell noch arbeitet, ob irgendwo geklickt werden muss, oder ob auf seiner Seite etwas schiefgegangen ist. Die brillante Analyse, die voranging, wird durch das gebrochene Versprechen, das folgt, teilweise untergraben.
Die Maßnahme in v0.3 bestand darin, die Capability-Prüfung von „Können Sie PDF-Dateien erzeugen" auf „Können Sie PDF-Dateien erzeugen UND sie als herunterladbare Artefakte in diesem Chat liefern" zu erweitern. Wir werden in der nächsten Runde sehen, ob AI Studio diese Unterscheidung respektiert.
Claude: der Datendetektiv
Anthropics Claude lieferte, was wir seither als Goldstandard für diese Aufgabe betrachten. Die Textanalyse war gründlich, präzise und gut strukturiert. Das PDF war wunderschön gebrandet, mit der marineblauen Verlaufs-Coverseite, dem eingebetteten HelioPeak-Logo, der orangenen Akzentfarbe konsequent verwendet für Abschnittsüberschriften und Seitenzahlen, und der Hero-Zahlenkachel im Gold-Verlauf. Jedes unserer fünf verbindlichen Signature-Elemente war vorhanden.
Doch der interessanteste Teil von Claudes Antwort war nicht die Analyse selbst. Es war, was Claude nach der Analyse tat. In einem Abschnitt mit dem Titel „Reflexion als Test deines Tier 1 Exports" gab uns die KI Rückmeldung zur Export-Datei selbst, kennzeichnete Probleme in den Daten und schlug Verbesserungen am Prompt-Design vor. Zwei dieser Vorschläge führten zu v0.2 des Prompts: eine ausdrückliche Notiz darüber, welches Datenarray für welche Art von Metrik zu verwenden ist, und die Anforderung, zwei finanzielle Perspektiven nebeneinander darzustellen. Wir kommen später in diesem Artikel auf einen dritten Befund zurück, der sich als Fehlalarm herausstellte, aber nicht weniger lehrreich war.
Das ist das Argument für den Einsatz einer High-End-Frontier-KI für diese Art von Arbeit: nicht nur besser formatierte Ausgabe, sondern wirklich ein besserer Mitarbeiter, der bei den eigenen Daten gegebenenfalls Widerspruch einlegt.
Das Divergenzproblem zwischen Modellen
Die unangenehmste Erkenntnis aus unserer ersten Runde war, wie stark die Zahlen zwischen den Modellen auseinandergingen, sogar bei Metriken, die eindeutig hätten sein müssen. Hier fünf Metriken, berechnet durch die fünf Modelle, die tatsächlich die Analyse erstellt haben (Copilot ausgeschlossen, da es das nicht einmal versucht hat):
| Metrik | Claude | ChatGPT | Gemini Pro | Google AI | Grok |
|---|---|---|---|---|---|
| Sommer-Winter-Verhältnis | 3,08 | 3,79 | ~3,8 | 5,08 | 3,08 |
| Eigenverbrauch % | 34,4 | 35,1 | 35,1 | 34,2 | 34,4 |
| Abregelungstage | 52 | 57 | 50–80 | 38 | 57 |
| CO₂ → km (Benziner) | 66.668 | 66.668 | 80.000 | 42.827 | 40.000 |
| Spezifischer Ertrag 2023 | 890 | 889,5 | 889,5 | 889,53 | n/v |
Die Werte für den spezifischen Ertrag liegen nahe beieinander, weil die Formel eindeutig war und in unseren Anweisungen stand: gesamte Jahres-kWh dividiert durch installierte kWp. Jedes Modell, das sich die Mühe gemacht hat, dies zu berechnen, kam bis auf Rundungen auf dasselbe Ergebnis.
Die Eigenverbrauchszahlen liegen aus demselben Grund nahe beieinander: die Formel war geradlinig, die Eingangsdaten waren eindeutig.
Die anderen drei gingen auseinander, weil wir mit den Definitionen schlampig waren. Wir hatten die KI gebeten, das „Sommer-Winter-Verhältnis" zu berechnen, ohne zu präzisieren, ob das (Summe Juni + Juli + August über alle Jahre) geteilt durch (Summe Dezember + Januar + Februar über alle Jahre) bedeutete, oder (Mittelwert der Sommermonats-Summen) geteilt durch (Mittelwert der Wintermonats-Summen), oder noch etwas anderes. Verschiedene Modelle wählten verschiedene Interpretationen, und die Ergebnisse wichen um den Faktor 1,65 voneinander ab.
Dasselbe gilt für Abregelungstage: Wir sagten „zähle die Tage, an denen die Spitzenleistung an die Obergrenze des Wechselrichters herankommt", ohne „herankommen" zu definieren. Manche Modelle nahmen 99 % der Obergrenze, andere 95 %, wieder andere bezeichneten jeden Tag mit peak_w ≥ 4900 W als Abregelungstag. Drei verschiedene Schwellen, drei verschiedene Summen.
Und die Umrechnung von CO₂ in Kilometer hängt vollständig davon ab, welchen Wert man für die Emissionen eines typischen Benzinfahrzeugs annimmt. Wir hatten keinen Wert spezifiziert. Die Modelle wählten irgendwo zwischen 0,10 und 0,20 kg CO₂ pro Kilometer auf der Grundlage dessen, was in ihren Trainingsdaten stand, und die Äquivalenz variierte entsprechend.
Die Lektion ist hart, aber nützlich: Wenn man konsistente Zahlen über alle KI-Assistenten hinweg wünscht, kann man ihnen nicht nur sagen, was zu berechnen ist. Man muss ihnen sagen, wie es genau zu berechnen ist, bis hin zu den Konstanten. Wir haben unserem Export einen Abschnitt hinzugefügt, den wir „Berechnungsanhang" nennen, mit der Formel und den Konstanten für jede Metrik, bei der die Modelle divergiert hatten. Zwölf Formeln lang. Sechs Beispiele:
| Metrik | Exakte Formel |
|---|---|
| Sommer-Winter-Verhältnis | SUM(monatliche Einträge mit Monat ∈ [6,7,8]) / SUM(monatliche Einträge mit Monat ∈ [12,1,2]) |
| Eigenverbrauch % | (total_generated − total_exported) / total_generated × 100, beide aus dem Jahresarray |
| Anzahl Abregelungstage | Anzahl Tage, an denen peak_w ≥ 0,98 × system.inverterSizeW |
| Verlust durch Abregelung | Abregelungstage × 1,5 kWh (Mittelwert der typischen Spanne 1–2 kWh) |
| CO₂ → km (Benziner) | total_co2_kg / 0,120 (geht von 120 g/km aus, EU-Durchschnitt Benziner) |
| CO₂ → Bäume | total_co2_kg / 21 (21 kg/Baum/Jahr) |
Die Korrektur wirkte. Und dann doch wieder nicht.
Wir wiederholten den Test mit dem Berechnungsanhang. Das Ergebnis bei den Metriken, die zuvor divergiert hatten, war beeindruckend:
| Metrik | Streuung v0.2 | Streuung v0.3 | Status |
|---|---|---|---|
| Sommer-Winter-Verhältnis | 3,08 → 5,08 (1,65× Streuung) | alle 3,08 | ✓ Behoben |
| Eigenverbrauch % | 34,2 → 35,1 | alle 35,1 | ✓ Behoben |
| CO₂ → km-Äquivalent | 40k → 80k (2× Streuung) | alle ~66.667 | ✓ Behoben |
| CO₂ gesamt kg | uneinheitlich | 7999–8000 (nur Rundung) | ✓ Behoben |
| Abregelungstage | 38 → 80 (2,1× Streuung) | 42 / 52 / 60 (Streuung 1,4×) | ⚠️ Teilweise |
Fünf der sechs getesteten LLMs erzeugen jetzt identische Zahlen bei vier der fünf strittigen Metriken. Die fünfte (Abregelungstage) variiert noch, weil verschiedene Modelle die Schwelle unterschiedlich runden, aber die Streuung schrumpfte von 2,1× auf 1,4×. Wir könnten das ebenfalls mit noch expliziteren Formelanweisungen lösen, aber irgendwann wiegt der Kostenanstieg bei der Prompt-Länge nicht mehr den marginalen Präzisionsgewinn auf.
Das strukturelle Problem der LLM-Divergenz ist also im Wesentlichen gelöst. Aber drei neue Fehlermuster traten auf, die wir nicht vorausgesehen hatten, und eines davon hat uns etwas Grundlegendes darüber gelehrt, wie wir bislang auf LLM-Ausgaben geschaut hatten.
Die Q&A-Falle: auch eine gute Ausgabe kann sich nach Hausaufgaben anfühlen
Unser Prompt forderte die KI auf, 39 spezifische Fragen zu beantworten. Wir sahen das als Qualitätskontrollmechanismus: Er stellte sicher, dass die Analyse alles abdeckte, was wir abdecken wollten, und gab uns etwas Konkretes, an dem die Ausgabe zu messen war. Wir hatten nicht wirklich darüber nachgedacht, wie die KI ihre Antworten präsentieren würde.
Was wir bei jedem Modell, das die Aufgabe gut bewältigte, erhielten, war ein langer Abschnitt „Spezifische Fragen beantwortet" am Ende jeder Analyse, formatiert als nummerierte Q&A-Liste. Manchmal hundert Zeilen von „F1: ... A1: ...". Sogar Claude, das insgesamt die beste Analyse lieferte, gab uns diese Struktur.
Beim Wiederlesen dieser Berichte fiel uns auf, dass sie sich wie Prüfungsantworten anfühlten, nicht wie die Analyse, die ein Berater schreiben würde. Die fließende Executive Summary oben ging elegant in eine Jahr-über-Jahr-Diskussion über, in saisonale Muster, in beste und schlechteste Tage, und stoppte dann abrupt in einem langen Block einzeiliger Antworten. Die erste Hälfte las sich wie eine Analyse, die zweite wie eine Hausaufgaben-Checkliste, die abgehakt wird.
Das war unser Fehler, nicht der der KI. Wir hatten sowohl eine 14-Abschnitt-Erzählanalyse ALS AUCH eine 39-Fragen-Q&A gefordert, und die meisten KIs lieferten exakt das, worum wir gebeten hatten, was die falsche Sache war.
Die Korrektur bestand darin, die Fragen direkt in die 14 Abschnitte zu integrieren, als „abzudeckende Themen"-Listen eingebettet in die Prosa-Anweisungen jedes Abschnitts. Statt also dass Abschnitt 7 „Anomalien und Unterleistungsperioden" sagt und später Frage 11 „Quantifizieren Sie den Verlust durch Abregelung" fragt, liest sich Abschnitt 7 jetzt:
7. Anomalien, Datenqualität und Wechselrichter-Verhalten. Prosa-Abschnitt. Behandeln: Vorhandensein und Quantifizierung der Wechselrichter-Abregelung (zähle Tage mit peak_w ≥ 0,98 × inverter_W, schätze den Energieverlust auf Basis von 1,5 kWh pro Abregelungstag, schätze die finanzielle Auswirkung); Vorhandensein plötzlicher mehrtägiger Einbrüche mit möglichen Ursachen; Überprüfung, dass die Solar Moments mit den Produktionsdaten konsistent sind …
Und die kritischen Regeln verbieten jetzt das Q&A-Format ausdrücklich:
Formatieren Sie den Bericht NICHT als nummerierte Q&A-Liste. Präsentieren Sie Antworten nicht als „F1: ... A1: ...", wiederholen Sie die Themen-Listen nicht wörtlich, sammeln Sie keine „übersprungenen Fragen" am Ende. Der Bericht soll sich wie eine fließende Analysenotiz lesen.
Das ist eine breit übertragbare Lektion, weit jenseits von Solardaten: die Struktur Ihres Prompts wird zur Struktur der Ausgabe. Wenn man einer KI eine nummerierte Checkliste gibt, bekommt man eine Antwort mit einer nummerierten Checkliste. Wenn man ein narratives Briefing gibt, bekommt man ein Narrativ. Die Fragen zählen, aber wie man sie einbettet, entscheidet, ob der Bericht sich wie Analyse oder wie Hausaufgaben anfühlt.
Das PDF, das über sich selbst log
Ein weiteres Fehlermuster tauchte in der zweiten Testrunde auf, und dieses war spezifisch für ChatGPT.
ChatGPT nutzte nun korrekt Python, um seine Analyse zu rechnen. Der Markdown-Bericht, den es lieferte, war exakt: 444,51 € Einspeiseerlös auf Lebenszeit, 1.865,67 € Ersparnis durch Eigenverbrauch, alles konsistent mit unserer Referenzberechnung. Und dann erzeugte es ein PDF.
Das PDF nannte 888,53 € Einspeiseerlös und 1.031 € Ersparnis durch Eigenverbrauch.
Zwei verschiedene Zahlen für dieselbe Metrik, vom selben Modell, in derselben Chat-Sitzung, beide als endgültig präsentiert. Der Nutzer öffnet den Markdown-Bericht und das PDF nebeneinander und liest das Finanzbild zweier verschiedener Solaranlagen, jede autoritativ dargestellt. Das ist schlimmer als gar kein PDF. Es zerstört aktiv Vertrauen.
Was sich höchstwahrscheinlich abgespielt hat, ist, dass der Code Interpreter von ChatGPT die Analyse in einer Python-Sitzung ausgeführt und dann eine frische Sitzung gestartet hat, um das PDF zu bauen, wobei unterschiedliche Standard-Tarifannahmen importiert wurden. Das Modell hat kein Bewusstsein dafür, dass „die Markdown-Analyse 0,04 € Einspeisevergütung verwendet hat und das PDF 0,08 €", beide Sitzungen sahen eine in sich kohärente Berechnung, nur mit unterschiedlichen Eingaben. Das Modell hat kein Gedächtnis, das ihm sagt, dass es sich zuvor bereits auf eine Zahlenmenge festgelegt hatte.
Wir gingen das mit einer expliziten Single-Source-of-Truth-Anweisung im Prompt an:
Die Zahlen im PDF MÜSSEN aus DENSELBEN berechneten Werten stammen, die der Textanalyse zugrunde liegen. Sie dürfen nicht unabhängig neu berechnet werden. Speichern Sie nach der „Compute"-Phase Ihres Workflows JEDE Metrik in einem einzigen Dict oder Namespace (zum Beispiel
metrics = {...}). Der Prosa-Schreiber liest ausmetrics["lifetime_kwh"]. Der PDF-Builder liest ausmetrics["lifetime_kwh"]. Berechnen Sie niemals neu, was bereits berechnet wurde.
Ob das speziell bei ChatGPT funktioniert, bleibt abzuwarten. Die Anweisung verlangt vom Modell im Wesentlichen, seinen eigenen Zustand über zwei Phasen einer mehrstufigen Aufgabe zu verwalten, was genau die Schwachstelle moderner LLMs ist. Wir müssen vielleicht akzeptieren, dass ChatGPTs PDFs unzuverlässig sind, oder die PDF-Funktion für dieses spezifische Modell aufgeben. Claude dagegen handhabte das beim ersten Versuch perfekt: das 11-seitige PDF enthielt durchgehend Zahlen, die mit der Markdown-Analyse identisch waren, weil es tatsächlich einen kohärenten Rechenzustand über eine lange Aufgabe hinweg hält.
Claudes Detektivarbeit, neu betrachtet
Eine Beobachtung aus der zweiten Runde Claude verdient noch zusätzliches Licht, denn sie zeigt sowohl die Stärke als auch die Schwäche des KI-Einsatzes als Datendetektiv.
In seiner Analyse meldete Claude, was es drei Inkonsistenzen in den Solar Moments nannte. Der Export enthielt fünf Solar-Moments-Meilensteine: „10.000 kWh seit Installation" am 12. April 2024, „5.000 kg CO₂ eingespart" am 30. September 2024, „Bester Tag 2024" am 14. Juni, „7 Jahre Installation" am 15. April 2025 und „20.000 kWh seit Installation" am 22. August 2025.
Claude bemerkte korrekt, dass drei dieser Meilensteine nicht zu den Daten im Export passen. Das Jahresarray beginnt im Januar 2023, und bis zum 12. April 2024 zeigt es nur 6.467 kWh produziert, nicht die 10.000, die der Meilenstein behauptet. Bis zum 30. September 2024 zeigt der Export rund 8.500 kWh produziert, was etwa 4.000 kg eingespartes CO₂ impliziert, nicht 5.000. Bis zum 22. August 2025 zeigt der Export etwa 14.200 kWh, nicht 20.000.
Das ist scharfsinnige forensische Arbeit an Daten. Claude zog die kumulierte Produktion aus dem Jahresarray und bemerkte die Diskrepanz. Wir waren zunächst beeindruckt genug, das als Defekt-Kandidaten in unseren iOS-Bugtracker aufzunehmen.
Aber dann lasen wir das Systemprofil noch einmal, das als Installationsdatum den 15. April 2018 nennt. Die Anlage produziert seit acht Jahren Solarenergie; der Export enthält nur die letzten drei Jahre. Die „fehlenden" 5.000 bis 6.000 kWh, die nötig wären, damit die Meilensteine stimmen, entsprechen exakt der Produktion von 2018 bis einschließlich 2022, die schlicht nicht in diesem Export steckt. Die Solar Moments lesen aus einer längeren Historie (vermutlich der Lebensdauergesamtsumme von PVOutput selbst), während das Jahresarray die Teilmenge ist, die HelioPeak im Cache hält.
Das ist kein Bug. Das ist korrektes Verhalten, nur unzureichend dokumentiert. Der Nutzer sieht auf seinem Telefon einen Meilenstein „20.000 kWh seit Installation", weil sein PVOutput-System diese Grenze tatsächlich überschritten hat; es ist nur nicht vollständig innerhalb des Zeitfensters dieses Exports passiert.
Die Lektion hier ist zweischneidig. Einerseits ist Claudes Fähigkeit, diese Art von Inkonsistenz in Sekunden zu finden, unglaublich wertvoll. Es ist genau die Datenqualitäts-Warnung, die ein Exporteur hören sollte, auch wenn sie sich in diesem Fall als Fehlalarm herausstellte. Andererseits war Claude in seiner Diagnose selbstsicher, und ein weniger vorsichtiger Entwickler (wir, zunächst) hätte Stunden mit der Suche nach einem nicht existierenden Zeitzonen-Bug im iOS-Code verbracht. KI ist ein brillanter Datendetektiv, aber sie weiß nicht, was sie nicht weiß: Sie kann nicht über die Daten hinaussehen, die man ihr gibt. Das Installationsdatum des Nutzers stand einfach im Header des Exports; Claude verband es nur nicht mit der Schlussfolgerung.
Wir gingen das an, indem wir eine explizite Notiz im Header des Exports ergänzten („Solar-Moments-Bereich: Meilensteine können auf kumulierte Produktion vor dem Beginn des Jahresarrays verweisen") und eine explizite Regel in den kritischen Regeln („Markieren Sie einen Meilenstein nur dann als inkonsistent, wenn das System NACH dem Beginn des Jahresarrays installiert wurde"). Zukünftige Claude-Läufe sollten diesen Fehlalarm überspringen.
Fähigkeit gegen Anstrengung: das eigentliche Spektrum
Für dieses Experiment teilten wir KI-Assistenten naiv in „gute" (vermutlich stark bei detaillierten Aufgaben) und „schlechte" (vermutlich schwach) ein. Was wir in der Realität fanden, war ein zweidimensionales Spektrum: Fähigkeit gegen Anstrengung.
Manche Modelle haben hohe Fähigkeit, aber geringe Bereitschaft, sich anzustrengen. ChatGPT in unserem Test war dafür ein klares Beispiel: Der Code Interpreter ist wirklich leistungsfähig, das Modell kann offensichtlich einen komplexen Prompt verstehen, und doch fühlte sich die letztlich gelieferte Ausgabe hastig und unvollständig an. Das Modell entschied sich, weniger Arbeit zu leisten, als es konnte.
Andere Modelle haben eine geringere Rohfähigkeit, leisten aber mehr Anstrengung relativ zu ihrer Decke. Gemini Pro fühlte sich so an: nicht immer das schlauste, aber durchgehend ehrlich darüber, was es konnte und was nicht, und durchgehend bereit, auf Anfrage die volle Struktur auszuformulieren.
Eine kleine Zahl an Modellen schneidet auf beiden Achsen hoch ab. Claude fühlte sich in unserem Test wie ein bereitwilliger Mitarbeiter an, der zudem scharfsinnig war. Die Tatsache, dass es uns unaufgefordert Kritik an der Export-Datei selbst gab, war ein Zeichen. Das ist es, was ein qualifizierter, engagierter Kollege tut.
Und dann gibt es die Fälle unten links im Quadranten: niedrige Fähigkeit, niedrige Anstrengung, beides maskiert durch selbstbewusste Sprache. Copilot und Grok passten in unserem Test beide in dieses Muster, obwohl sie unterschiedlich scheitern. Copilot erfindet externe Ausreden („die Datei ist abgeschnitten"), während Grok interne Inhalte erfindet (einen Top-Tag, der nicht existiert).
Unsere derzeitige Empfehlung
Wenn Sie die Funktion „Export für KI-Analyse" von HelioPeak nutzen wollen, sobald sie veröffentlicht wird, sieht unser Ranking zum 23. Mai 2026, nach vier Testrunden mit dem endgültigen v0.4-Prompt, so aus:
- Claude (auf claude.ai): klar der beste insgesamt. Goldstandard-Textanalyse, makelloses gebrandetes PDF, findet echte Datenqualitätsprobleme im Export selbst. Wenn Sie nur einen Assistenten probieren, probieren Sie diesen.
- Gemini Pro: starker zweiter Platz. Narrative Analyse, ehrlich über seine Grenzen in den früheren Runden, lieferte aber in der letzten Runde ein vollständig gebrandetes PDF mit konsistenten Zahlen. Eine echte Alternative zu Claude.
- Google AI Studio: die beste textliche Tiefe an den Daten, kann aber keine Dateien in der Chat-Oberfläche ausliefern. Nützlich, wenn Sie die Analyse kopieren-und-einfügen wollen, aber nicht, wenn Sie ein PDF brauchen.
- ChatGPT Plus mit Code Interpreter: korrekte Zahlen in der Analyse, erzeugt aber PDFs, deren Zahlen nicht immer mit der Analyse übereinstimmen. Brauchbar, wenn Sie nur den Text benötigen.
- Grok: kompetent aussehende Ausgabe, prüfen Sie aber die Zahlen selbst. Wir sahen in unseren Tests erfundene Werte.
- Copilot: derzeit nicht für diese Aufgabe geeignet. Behauptet, die Datei sei abgeschnitten, obwohl sie es nicht ist, und bietet eine Lösung für ein Problem an, das nicht existiert.
Wenn Sie nur Zeit haben, einen Assistenten zu probieren, ist unser konkreter Rat, mit Claude auf claude.ai zu beginnen. Die Kombination aus analytischer Tiefe, Bereitschaft zur Rückfrage bei Datenqualität und zuverlässig gebrandeter PDF-Ausgabe macht Claude in unseren Tests zum klaren Spitzenreiter. Gemini Pro ist eine glaubwürdige Alternative, besonders seit dem Upgrade in der letzten Runde. Die anderen haben ihre Stärken, aber für diese spezifische Aufgabe (strukturierte Analyse eines mittelgroßen Datensatzes mit einem gebrandeten PDF als Deliverable) ist der Abstand zwischen Claude und den anderen real.
Wichtige Einschränkung: Das ist eine Momentaufnahme. KI-Assistenten verändern sich wöchentlich. Das Modell hinter ChatGPT heute kann in einem Monat ein anderes Modell sein, mit anderen Stärken. Anthropic, OpenAI, Google, xAI und Microsoft schieben alle größere Upgrades in Zyklen von Wochen bis Quartalen heraus. Wenn Sie dies lesen, kann sich das Ranking verschoben haben, manchmal erheblich. Wenn Ihnen die beste Ausgabe wichtig ist, lohnt es sich, Ihren bevorzugten Assistenten alle paar Monate erneut an einer bekannten Referenzaufgabe zu testen.
Unser Ranking ist außerdem spezifisch für diese eine Aufgabe: strukturierte Analyse eines mittelgroßen, gut formatierten Datensatzes mit expliziten Anweisungen. Für Chat-Konversation, Codegenerierung, kreatives Schreiben oder Webrecherche wäre die Reihenfolge fast sicher anders.
Was das für Prompt-Design bedeutet
Vier Iterationen haben unseren Prompt substanziell verändert. Jede Änderung war durch ein bestimmtes beobachtetes Fehlermuster motiviert:
Erstens haben wir den Prompt aggressiv in Bezug auf Capability Checks gemacht. Das Allererste, worum wir die KI jetzt bitten, ist zu verifizieren, dass sie die vollständige Datei erhalten hat (durch Suche nach unserem expliziten Endmarker), zu bestätigen, ob sie Code-Ausführung zur Verfügung hat, und zu bestätigen, ob sie PDF-Dateien sowohl erzeugen als auch ausliefern kann. Das fängt Copilot-artige Konfabulation früh ab und zwingt Modelle wie Google AI Studio, vorab zu erklären, dass sie keine Dateien liefern können.
Zweitens haben wir den Prompt aggressiv in Bezug auf Berechnung, nicht Schätzung gemacht. Der ursprüngliche Prompt schlug höflich vor, die KI „könne Python verwenden, falls verfügbar". Der aktuelle Prompt sagt explizit: schätzen oder approximieren Sie niemals eine Zahl, wenn Sie sie berechnen können. Die Daten in dieser Datei sind präzise; Ihre Analyse muss es auch sein. Wir untermauerten dies mit expliziten Formeln in einem Berechnungsanhang, damit es keine Mehrdeutigkeit darüber gibt, wie etwas zu berechnen ist.
Drittens fügten wir eine Ehrlichkeitsregel hinzu: lieber eine teilweise, aber ehrliche Analyse als eine vollständige, aber erfundene Analyse. Das ist die Regel, die, wenn sie wirkt, Grok-artige Erfindungen unterdrücken und ChatGPT-artige hastige PDFs in ehrliches Auslassen umwandeln sollte.
Viertens restrukturierten wir den Prompt, sodass die 39 spezifischen Fragen als Themen innerhalb der 14 narrativen Abschnitte eingebettet sind, statt als separate Q&A-Liste am Ende. Das war die am breitesten anwendbare Lektion: Die Struktur Ihres Prompts wird zur Struktur der Ausgabe. Wenn Sie eine fließende Analyse wollen, müssen Sie eine fließende Analyse anfordern, keine Checkliste.
Und fünftens fügten wir eine Single-Source-of-Truth-Regel für das PDF hinzu: Jede Zahl im PDF muss aus demselben berechneten Dict stammen, das der Markdown-Analyse zugrunde liegt, und darf niemals neu berechnet werden. Das verlangt von der KI im Wesentlichen, einen Zustand über zwei Phasen einer komplexen Aufgabe zu verwalten, was für aktuelle Modelle aufrichtig schwierig ist, aber es macht zumindest sichtbar, wenn es schiefgeht.
Nichts davon wäre für uns sichtbar gewesen, ohne den Test zu fahren: viermal, mit demselben Datensatz, mit denselben sechs Modellen, mit immer präziser formulierten Anweisungen. Die erste Version unseres Prompts war nach jeder vernünftigen internen Prüfung eine gründliche, gut durchdachte Anweisungsmenge. Erst als wir sechs verschiedene KI-Assistenten sechs verschiedene Ausgaben in wild unterschiedlicher Qualität produzieren sahen und beobachteten, wie sich diese Ausgaben mit jeder Prompt-Iteration verbesserten, verstanden wir, wie viel des Prompts implizite Annahme und nicht explizite Anweisung war.
Die breitere Lektion, für jeden, der KI auf echten Daten einsetzt
Wenn Sie keine App bauen und nur gelegentlich eine CSV in ChatGPT werfen, um sie zusammenfassen zu lassen, ist dieser Artikel wahrscheinlich nicht für Sie. Der 39-Themen-Prompt, das gebrandete PDF und der mehrlagige Aufbau, den wir für HelioPeak gebaut haben, sind für einzelne Analysen überdimensioniert. Aber es gibt vier Prinzipien aus unserem Test, die unserer Ansicht nach auf jeden ernsthaften Einsatz von KI auf echten Daten verallgemeinerbar sind.
Prinzip eins: Sagen Sie der KI genau, was zu berechnen ist, einschließlich der Konstanten. „Wie hoch ist der CO₂-Fußabdruck meiner Solarproduktion" ist zu offen. „Berechne das gesamte eingesparte CO₂ mit einem Faktor von 0,467 kg pro kWh, drücke es dann in Auto-km-Äquivalent aus unter Annahme von 120 g CO₂ pro km, in erwachsenen Bäumen unter Annahme von 21 kg absorbiert pro Baum und Jahr, und in Haushalt-Jahr-Äquivalent unter Annahme von 1.635 kg CO₂ pro EU-Haushalt und Jahr" gibt Ihnen dieselbe Antwort aus jedem Modell.
Prinzip zwei: Zwingen Sie die KI, ihre Fähigkeiten vorab zu deklarieren. Tun Sie das nicht, versuchen Modelle oft, Aufgaben zu erfüllen, die sie nicht liefern können, oder verweigern Aufgaben, die sie bewältigen können. Die vorgeschaltete Prüfung klärt die Erwartungen auf beiden Seiten.
Prinzip drei: Bauen Sie eine Ehrlichkeitsregel ein. Sagen Sie der KI direkt, dass Sie eine teilweise ehrliche Antwort einer vollständig erfundenen vorziehen. Das stoppt nicht alle Halluzinationen, aber in unseren Tests senkte es das Tempo, mit dem Modelle Werte erfanden, um Lücken zu füllen, spürbar.
Prinzip vier: Die Struktur Ihres Prompts wird zur Struktur der Ausgabe. Wenn Sie ein 13-Abschnitt-Narrativ UND eine 39-Fragen-Q&A verlangen, bekommen Sie beides, und die Q&A wird unbeholfen unten hängen bleiben wie eine Hausaufgabe. Wenn Sie eine fließende Analyse wollen, betten Sie Ihre spezifischen Fragen als „abzudeckende Themen" in die narrativen Abschnitte ein, statt als separate Liste. Die Fragen lenken weiterhin die Sorgfalt; sie verschwinden nur in der Prosa, wo sie hingehören.
Keines dieser Prinzipien ist revolutionär. Sie tauchen in akademischen Aufsätzen zum Prompt Engineering auf, in den Prompting-Leitfäden von OpenAI und Anthropic selbst, in Blogposts von Leuten, die das beruflich tun. Was unser Experiment hinzufügt, ist der empirische Nachweis, dass die Anwendung dieser Prinzipien auf eine reale Aufgabe mit echten Daten die Ausgabequalität mehrerer Modelle spürbar verändert.
Was als Nächstes kommt
Die Funktion „Export für KI-Analyse" kommt in einer zukünftigen HelioPeak-Version, nachdem der iOS-Code geschrieben, getestet und von Apple geprüft wurde. Wenn Sie dies lesen, ist sie möglicherweise schon live; sehen Sie für den aktuellen Status auf die Seite mit den Release Notes.
Wenn sie verfügbar ist, wird sie dieselbe in sich geschlossene Markdown-Datei erzeugen, die wir hier getestet haben. Sie werden sie in den KI-Assistenten Ihrer Wahl einfügen können. Wir werden einen FAQ-Eintrag veröffentlichen mit unseren aktuellen Modellempfehlungen und einer Notiz, dass diese Empfehlungen sich mit der Zeit verschieben können. Wir werden Sie nicht auf einen Assistenten festlegen. Wir geben Ihnen einfach die nützlichste Datenexport-Datei, die wir entwerfen können, und Sie entscheiden, wohin Sie sie schicken.
Wir werden diesen Test auch weiter wiederholen. Etwa jedes Quartal jagen wir denselben Export durch die jüngste Version jedes großen KI-Assistenten, sehen, wie sich das Ranking verschoben hat, und aktualisieren diesen Artikel. KI entwickelt sich zu schnell, als dass eine Momentaufnahme lange nützlich bliebe. Die Methodik, der Datensatz und der Prompt sind stabil; die Assistenten nicht. Das macht den Benchmark interessant.
Wenn wir eine einzelne Folgerung aus vier Iterationen über ein einzelnes Wochenende ziehen können, dann diese: KI-Assistenten sind außergewöhnlich leistungsfähige Werkzeuge, die auf außergewöhnlich spezifische Weisen scheitern. Die Art, mit diesem Scheitern umzugehen, ist nicht, das Werkzeug zu wechseln oder aufzugeben; sie liegt im Schärfen der Anweisungen, bis jedes Fehlermuster verschwindet. Der Berechnungsanhang löste die Divergenz. Die Capability-Prüfung löste (weitgehend) die Konfabulation. Die narrative Restrukturierung löste das Hausaufgabenformat. Die Single-Source-of-Truth-Regel begann, die PDF-Diskrepanz zu lösen. Jede Korrektur einzeln ist klein, aber zusammen verwandeln sie ein unzuverlässiges Werkzeug in einen nützlichen Mitarbeiter.
Wenn Sie etwas Ähnliches bauen und Notizen zum Prompt-Design für strukturierte Datenanalyse vergleichen möchten, wissen Sie, wo Sie uns finden.
Dieser Artikel wurde auf Englisch verfasst und mit KI-Unterstützung übersetzt. Das englische Original lesen.