AgilitätControllingEventcontrollingVertriebsführung

Testen als Teil agiler Führung – A/B-Testing

Dass Tests ein wichtiges Instrument bei der Entscheidungsfindung sein können, ist eigentlich unbestritten. Und doch gibt es vielfach Nachholbedarf, denn viele Verantwortliche verlassen sich auf ihr Bauchgefühl oder scheuen den Zeitaufwand für einen Test. Nicht zuletzt dürfte auch die Angst vor der negativen Rückmeldung eine Rolle spielen – in einem geplanten Test gibt es ein unmissverständliches Ergebnis, in der Realität können dann tausend andere Faktoren eine Rolle gespielt haben. Nur eben nicht die Entscheidung selbst.

Im Zuge agiler Konzepte für das Management wird auch verstärkt auf eine empirische Prüfung von Entscheidungen Wert gelegt – und zwar, bevor sie gefällt werden. Vor allem im Bereich von Aktivitäten im Internet (Gestaltung von Webseiten, Angebote in Online-Shops, Werbemaßnahmen usw.) kann recht einfach mit Tests gearbeitet werden, um das Angebot zu optimieren. Dies läuft unter der Überschrift A/B-Testing, was allerdings irreführend ist, wenn man an die Terminologie der Marktforschung denkt.

Grundidee ist immer ein Vergleich zweier Situationen: einmal mit der Entscheidung und einmal ohne. Das kann sich auf die Absatzmengen eines Produkts nach Preisänderung bzw. mit altem Preis beziehen. Oder auf die Deckungsbeiträge mit Kunden, denen kostenfreie Beratungsleistungen angeboten werden, bzw. mit solchen, die dafür zahlen müssen. In der Marktforschung spricht man von Experimentgruppe (in der etwas getestet wird, bezeichnet als „E“) bzw. Kontrollgruppe (in der der Status quo erhalten bleibt, bezeichnet als „C“). A und B stehen eigentlich für Nachhermessung (A für after) bzw. Vorhermessung (B für before).

A/B-Testing Konzept mit parallelen Vergleichsgruppen
A/B-Testing-Konzept mit Variation hintereinander

Die genannten Varianten A und B können sich auf zwei Gruppen (Kunden, Regionen, Mitarbeiter, Orte usw.) beziehen, in denen etwas variiert (experimentiert) wird, eine davon kann aber auch eine Vergleichsgruppe sein, in der nichts geändert wurde. Ebenso können auch weitere Varianten getestet werden (A, B, C, D,…), die Systematik ändert sich dabei nicht.

Vorab-Tests bedeutender Entscheidungen sind ein wesentlicher Bestandteil agiler Führung.

Ob sich die Entscheidung im Hinblick auf die gemessene Zielgröße gelohnt hat, hängt von der Signifikanz des Unterschieds ab. Stellt man z. B. den gleichen Umsatz fest, muss man gar nicht weiter nachdenken, die Maßnahme hat sich nicht gelohnt. Ist das Ergebnis in der Experimentgruppe besser, dann kommt es darauf an, um wie viel es besser ist (es darf natürlich auch schlechter sein). Bei kleinen Veränderungen wird man noch von Zufall sprechen und die Idee verwerfen, bei großen Veränderungen wird man von einem echten Einfluss durch die Maßnahme sprechen. Ab einem bestimmten Maß an Veränderung spricht man von einem signifikanten Unterschied, letztlich aber immer nur von einer (hohen) Wahrscheinlichkeit, dass das bessere Ergebnis auf die Entscheidung zurückzuführen ist.

Wie signifikant eine Veränderung ist, lässt sich statistisch ermitteln. In der Regel kommt hierfür ein Chi-Quadrat-Test zum Einsatz. Wir sparen uns hier die Details und verlassen uns auf ein Tabellenkalkulationsprogramm. Bei Excel wirft die Funktion CHIQU.TEST schnell die Wahrscheinlichkeit dafür aus, dass ein rechnerischer Unterschied nur auf Zufall basiert.

Aber der Reihe nach.

  1. Zunächst gilt es zu erkennen, wann A/B oder E/C-Tests eingesetzt werden können. Das geht leider nicht immer, sondern nur dann, wenn die Maßnahme in ihrer Wirkung beschränkt werden kann. Das ist etwa bei Aktionen in einzelnen Einzelhandelsgeschäften der Fall, bei Prozessveränderungen in einer einzelnen Vertriebsregion, bei Preisänderungen für einzelne Produkte oder begrenzte Zeiträume. Strategien für den gesamten Vertrieb, Einstellung neuer Mitarbeiter u. ä. weit reichende Entscheidungen lassen sich nicht testen, man kann sie kaum rückgängig machen.

  2. Dann ist zu entscheiden, wie der Test organisiert wird. Man benötigt immer eine Experimentierfläche. Das kann eine Verkaufsregion sein, ein bestimmter Kundentyp oder ein begrenzter Zeitraum, der entweder mit „dem Rest“ oder einer statistisch ähnlichen Region (o. Ä.) verglichen wird. Oft wird aus pragmatischen Gründen der Rest des Unternehmens herangezogen, aussagekräftiger wäre aber der Vergleich mit einer Region oder einem Zeitraum (z. B. die folgende Woche). Die untersuchten Bereiche müssen jeweils deutlich voneinander abgegrenzt sein, sonst sind die Resultate nicht korrekt zuzurechnen.

  3. Nicht unbedeutend ist auch die Frage, was gemessen wird. Umsätze sind zwar oft richtig, aber nicht unbedingt direkt zurechenbar. Gerade im Vertrieb hat man noch die Kundenzahl, den Neukundenanteil, Deckungsbeiträge, die Kundenzufriedenheit u. v. a. m. zur Auswahl. Je schneller und genauer die Zielgröße reagiert, desto besser für die Testsituation.

Sehen wir uns nun ein Beispiel mit Zahlen an. Im Vertrieb eines Unternehmens wird mit der Bildung von Teams aus Innen- und Außendienstmitarbeitern experimentiert. Man möchte herausfinden, ob es sich lohnt, jeweils einen Außen- und einen Innendienstler zusammenarbeiten zu lassen verglichen mit der üblichen Methode, für den Gesamtvertrieb einen zentralen Innendienst ohne feste Zuordnung einzusetzen. Da die Region Nord-West von ihrer Leistung her etwa dem Durchschnitt des Unternehmens entspricht, wird für sie ein Team aus einem Außen- und einem Innendienstler gebildet. Sie sprechen sich untereinander ab, klären, wer welche Kunden wie betreut. Der Testzeitraum ist ein Jahr, dann soll eine Entscheidung über die unternehmensweite Umsetzung gefällt werden.

Beispiel im Vertrieb: Lohnt sich die Zusammenarbeit von Innen- und Außendienst?

Das Erfolgskriterium soll die Verteilung von A-, B- und C-Kunden sein. Man geht davon aus, dass die Teambildung dazu beiträgt, Kunden vom C- zum B- und vom B- zum A-Status zu entwickeln sowie große Kunden intensiver an das Unternehmen zu binden. Für die anderen Regionen wurde der Durchschnitt der A-, B- und C-Kunden berechnet. Es ergibt sich folgendes Bild:

EmpirieTeamskeine TeamsSumme
A-Kunden181331
B-Kunden7651127
C-Kunden411440851
Summe5055041009
Empirisch: So verteilen sich die Kunden auf A, B und C bei Einsatz von Teams und ohne Teams.

Es ist eine Veränderung zu erkennen – aber ist sie auch signifikant oder nur Zufall? Um die Frage zu beantworten, muss eine Matrix mit Werten erstellt werden, die bei Unabhängigkeit der Ergebnisse (Kundenstruktur) vom Einflussfaktor (Teambildung) gilt. Diese wird über die Zeilen- und Spaltensummen errechnet, die von der Tabelle der Beobachtungswerte übernommen wird. Bei Unabhängigkeit verhalten sich die einzelnen Zellenwerte so zueinander wie die Summenwerte zur Gesamtsumme. Oder konkret: der Unabhängigkeitswert für die A-Kunden-Zahl beim Team ist (31/1009)x505=15,52. Ohne Teams wären es (31/1009)x504=15,48. Die Werte unterscheiden sich in diesem Beispiel kaum, weil die Gesamtzahl der Kunden bei beiden Gruppen fast identisch ist.

TheorieTeamskeine TeamsSumme
A-Kunden15,5215,4831
B-Kunden63,5663,44127
C-Kunden425,92425,08851
Summe5055041009
Theoretisch: Diese Kundenstrukturen würden erwartet, wenn die Teambildung keinen Einfluss hätte.

Anhand der Unterschiede zwischen den Tabellenwerten lässt sich nun ermitteln, wie weit die beobachteten von den theoretischen Werten abweichen. Daraus ergibt sich eine Wahrscheinlichkeit dafür, ob die Unterschiede bei den Beobachtungswerten (Kundenstruktur) auf den Experimentfaktor (Teambildung) zurückzuführen sind oder nur auf Zufall. In diesem Fall ergibt sich ein Wert von 0,0348, das heißt einer Wahrscheinlichkeit von knapp 3,5 %, dass die Abweichungen auf Zufall beruhen.

In den meisten Fällen orientiert man sich an einer Grenze von 5 %, die allgemein als Irrtumswahrscheinlichkeit akzeptiert wird. Würde man die Ansprüche höherschrauben, würde man sich automatisch für viele Entscheidungen blockieren. Völlige Sicherheit gibt es nie.

Hier heißt es: Die Teambildung war erfolgreich.

Der dargestellte Fall ist schon recht komplex, denn er erfordert eine lange Laufzeit, bis entschieden werden kann. Zudem muss über die Erfolgsgröße nachgedacht werden. Oft geht es viel einfacher, etwa beim Test von Werbeaussagen oder Einladungen zu Firmenveranstaltungen. Erfasst wird meist nur, ob der Kunde eingeladen wurde/die Werbung gesehen hat und ob er gekauft hat oder nicht. Die Ergebnisse liegen dann auch sehr schnell vor.

Beispiel im Vertrieb: Lohnt sich die Einladung zu einer Veranstaltung im Hinblick auf die Bestellwahrscheinlichkeit?

Dazu noch ein kleines Beispiel. Die Vertriebsleitung möchte wissen, ob es sich lohnt, Kunden zu einer Festveranstaltung einzuladen. Traditionell veranstaltet das Unternehmen im Frühsommer ein Fest auf dem Werksgelände, zu dem alle Kunden eingeladen werden. Der Hintergedanke ist natürlich, den Verkauf anzukurbeln, allerdings gibt es keinen Kaufzwang, auch keinen dezenten. Die Kosten stiegen in der Vergangenheit kontinuierlich, insofern könnte irgendwann der Punkt erreicht sein, die Reißleine ziehen zu müssen.

Das Unternehmen verkauft nicht nur Fertigwaren, sondern auch Dienstleistungen und Projekte. Kleinere Aufträge können dabei auch der Einstieg in höhere Umsätze sein. Deswegen wird nur erfasst, ob es in den drei Folgemonaten überhaupt eine Bestellung gegeben hat. Folgende Zahlen wurden festgestellt:

EmpirieTeilnahmeNicht-TeilnahmeSumme
Bestellung238708946
Nicht-Bestellung189687876
Summe42713951822
Empirisch: So ist das Bestellverhalten in Abhängigkeit von der Teilnahme an der Veranstaltung.

 

Die theoretischen Werte sehen wie folgt aus:

TheorieTeilnahmeNicht-TeilnahmeSumme
Bestellung221,70724,30946
Nicht-Bestellung205,30670,70876
Summe42713951822
Theoretisch: Diese Bestellhäufigkeiten würden erwartet, wenn die Teilnahme keinen Einfluss hätte.

Excel wirft als Wahrscheinlichkeit, dass die Unterschiede nur Zufall sind, 7,12 Prozent aus. Das spricht eher für das Fest, doch ist die Datenlage nicht so eindeutig.

Was heißt das für eine agile Führung vor allem im Vertrieb?

Man sollte immer wieder infrage stellen, was man schon lange macht und nicht ändern will, weil man ja schon immer… Mithilfe eines Tests lässt sich oft prüfen, ob sich das noch lohnt. Die Entscheidung, etwas sein zu lassen oder zu ändern, ist dann keine emotionale mehr. Die Rolle übernimmt dann die Entscheidung für den Test.

Man sollte auch bei den internen Vorgängen innovativer werden. Hier ist die Hürde besonders hoch, weil sich Widerstände schneller entwickeln als Innovationen. Setzt man die Idee erst einmal in kleinerem Rahmen um und stellt dann Erfolge fest, lässt sie sich leichter in größerem Rahmen umsetzen und „verkaufen“.

Unterschiedliche Kunden, Regionen, Vertriebswege, Außendienstmitarbeiter, Produktlinien sind ein ausgezeichnetes Spielfeld für Experimente. Ideen für Verkaufstechniken, Kommunikationsmaßnahmen, Serviceleistungen lassen sich in einzelnen Segmenten testen, optimieren oder auch verwerfen.