Persönlichkeitstests für die Personalauswahl: Was HR wissen muss

Persönlichkeitstests für die Personalauswahl: Was HR wissen muss

Ungefähr 80 % der Fortune-500-Unternehmen verwenden irgendeine Form von Persönlichkeitsbewertung in ihrem Einstellungsprozess. Die meisten verwenden die falsche. Sie bezahlen für Tests, die auf Modellen basieren, die die Arbeits- und Organisationspsychologie vor Jahrzehnten aufgegeben hat, sammeln Daten, die nicht das vorhersagen, was sie denken, und setzen sich rechtlichen Herausforderungen aus, von denen sie nicht wissen, dass sie existieren.

Die Kluft zwischen dem, was die Persönlichkeitswissenschaft weiß, und dem, was HR-Abteilungen tatsächlich tun, ist enorm. Hier erfährst du, was die Forschung sagt, was vor Gericht standhält und was die Daten tatsächlich darüber vorhersagen, wer in einer Rolle leisten wird.

Was Persönlichkeitstests tatsächlich vorhersagen

Die zentrale Frage bei der Einstellungsbewertung ist Validität: Sagt der Test Arbeitsleistung voraus? Für Persönlichkeitstests lautet die Antwort ja, aber mit wichtigen Vorbehalten darüber, welche Tests, welche Eigenschaften und welche Jobs.

Meta-Analysen, die Hunderttausende von Mitarbeitern über alle Branchen hinweg abdecken, zeigen durchgehend, dass bestimmte Persönlichkeitseigenschaften bestimmte Arbeitsergebnisse vorhersagen. Gewissenhaftigkeit sagt Aufgabenleistung in nahezu allen Jobs voraus. Verträglichkeit sagt Teamarbeit und Kundendienstleistung voraus. Emotionale Stabilität (niedriger Neurotizismus) sagt Leistung unter Druck voraus. Extraversion sagt Erfolg im Vertrieb, Management und in kundenorientierten Rollen voraus. Offenheit sagt Leistung in kreativen und Forschungspositionen voraus.

Die Vorhersagekraft ist nicht hypothetisch. Die Korrelation zwischen Gewissenhaftigkeit und allgemeiner Arbeitsleistung (r = ,22 bis ,27 über Meta-Analysen) ist vergleichbar mit der Korrelation zwischen Vorstellungsgesprächen und Leistung. Wenn du Persönlichkeitsdaten mit kognitiven Fähigkeitstests kombinierst, verbessert sich die Vorhersage über das hinaus, was jedes Maß allein erreicht. Du ersetzt nicht das Interview. Du fügst eine Informationsdimension hinzu, die Interviews systematisch verpassen.

Was Interviews verpassen, ist genau das, was Persönlichkeitstests erfassen: stabile Verhaltenstendenzen, die nach den ersten drei Monaten auftauchen, sobald der Kandidat aufgehört hat zu performen und anfängt, er selbst zu sein. Das Interview sagt dir, wer die Person zu sein versucht. Das Persönlichkeitsassessment sagt dir, wer sie sein werden, sobald das Impression Management nachlässt.

Welches Modell zählt: Big Five vs. alles andere

Nicht alle Persönlichkeitstests sind gleich, und das Modell hinter dem Test bestimmt, ob die Ergebnisse etwas bedeuten.

Das Big-Five-Modell (OCEAN) ist der Standard in der Arbeits- und Organisationspsychologie aus einem Grund: Es ist das einzige Modell mit konsistenter, replizierter prädiktiver Validität für Arbeitsleistung. Es misst fünf kontinuierliche Dimensionen (Offenheit, Gewissenhaftigkeit, Extraversion, Verträglichkeit, Neurotizismus), jeweils in sechs Facetten aufgeteilt, was ein 30-Punkte-Profil ergibt, das spezifischen Arbeitsverhalten zugeordnet ist.

MBTI ist das am weitesten verbreitete Persönlichkeitsinstrument in Unternehmensumgebungen und hat die schwächste wissenschaftliche Unterstützung. Es sortiert Menschen in 16 Typen anhand binärer Kategorien (du bist entweder ein Introvertierter oder ein Extravertierter, nie beides). Die Test-Retest-Reliabilität ist schlecht: bis zu 50 % der Menschen erhalten bei einem Retest einen anderen Typ. Wichtiger noch: MBTI-Typen sagen Arbeitsleistung nicht voraus. Das Handbuch des Herausgebers räumt das ein. Unternehmen verwenden es, weil es bekannt ist, nicht weil es funktioniert.

DiSC misst vier Verhaltensstile (Dominanz, Einfluss, Beständigkeit, Gewissenhaftigkeit). Es ist nützlich für Team-Kommunikationsworkshops, wurde aber nicht für die Personalauswahl entwickelt und hat begrenzte prädiktive Validität für Arbeitsleistung. DiSC zur Bewerberfilterung zu verwenden ist wie ein Thermometer zur Blutdruckmessung zu verwenden. Es misst etwas Reales. Es misst nur nicht, was man braucht.

CliftonStrengths identifiziert "Talent-Themen" aus einer festen Liste von 34. Es ist ein Entwicklungsinstrument, kein Auswahlwerkzeug. Gallup erklärt ausdrücklich, dass es nicht für Einstellungsentscheidungen verwendet werden sollte. Unternehmen, die es bei der Einstellung verwenden, wenden das Instrument falsch an und schaffen rechtliche Exposition.

Das Enneagramm hat keine peer-reviewten Validierungsstudien, die seine Verwendung in der Beschäftigungsauswahl unterstützen. Es ist ein spirituelles und Selbstentwicklungsrahmenwerk. Es in der Einstellung zu verwenden ist nicht nur ineffektiv, sondern auch unlösbar, wenn angefochten.

Wenn du auf Basis von Persönlichkeitsdaten Einstellungsentscheidungen triffst, muss das Modell die Big Five oder ein gut validiertes Derivat davon sein. Alles andere ist Unternehmensunterhaltung.

Gewissenhaftigkeit ist der stärkste Prädiktor

Über alle Jobtypen, alle Branchen und alle Hierarchieebenen hinweg ist Gewissenhaftigkeit der stärkste Persönlichkeitsprädiktor für Arbeitsleistung. Dieser Befund wurde so oft repliziert, dass er in der Forschungsliteratur nicht mehr debattiert wird.

Gewissenhaftigkeit sagt voraus:

Die sechs Gewissenhaftigkeitsfacetten (Selbstwirksamkeit, Ordnungsliebe, Pflichtbewusstsein, Leistungsstreben, Selbstdisziplin und Besonnenheit) sagen jeweils verschiedene Aspekte des Arbeitsverhaltens voraus. Ein Verkäufer braucht hohes Leistungsstreben, aber keine hohe Ordnungsliebe. Ein Buchhalter braucht hohe Ordnungsliebe und Besonnenheit, aber kein hohes Leistungsstreben. Gewissenhaftigkeit auf Domänenebene sagt dir, dass die Person allgemein zuverlässig ist. Gewissenhaftigkeit auf Facettenebene sagt dir, welche spezifischen Arbeitsverhalten zu erwarten sind.

Der Facetten-Vorteil

Die meisten Einstellungsassessments messen die Big Five auf Domänenebene: fünf Werte, fünf Zahlen. Das ist besser als nichts, aber es verfehlt die meisten umsetzbaren Informationen.

Betrachte zwei Kandidaten, die beide beim 70. Perzentil für Extraversion liegen. Auf Domänenebene sehen sie identisch aus. Auf Facettenebene könnte einer hoch bei Wärme (E1) und positiven Emotionen (E6), aber niedrig bei Durchsetzungsvermögen (E3) und Erlebnishunger (E5) liegen. Der andere könnte hoch bei Durchsetzungsvermögen und Aktivitätsniveau (E4), aber niedrig bei Wärme und Geselligkeit (E2) liegen. Der erste Kandidat ist ein natürlicher Kundenbetreuer. Der zweite ist ein natürlicher Projektleiter. Gleicher Extraversionswert, völlig unterschiedliche Verhaltensprofile, völlig unterschiedlicher Rollenfit.

Dasselbe gilt für jede Domäne. Zwei Menschen mit identischen Neurotizismuswerten können sich darin unterscheiden, ob ihre Instabilität als Angst (N1), Ärger (N2), Depression (N3), Selbstbewusstsein (N4), Impulsivität (N5) oder Stressvulnerabilität (N6) manifestiert. Ein Verkaufsleiter mit hohem N2 (Ärger) schafft ein feindseliges Teamklima. Ein Verkaufsleiter mit hohem N4 (Selbstbewusstsein) überarbeitet Präsentationen und mikromanagt. Beide erscheinen als "hoher Neurotizismus". Die Interventionen sind völlig verschieden.

Ein 30-Facetten-Assessment gibt dir die Auflösung, um Kandidaten auf bestimmte Rollen abzugleichen, spezifische Reibungspunkte mit bestimmten Teams vorherzusagen und spezifische Entwicklungsbereiche zu identifizieren, bevor die Person anfängt. Ein 5-Domänen-Assessment gibt dir eine verschwommene Annäherung an dieselben Informationen.

Was Persönlichkeitstests nicht messen

Persönlichkeitsassessments messen stabile Verhaltenstendenzen. Sie messen keine Intelligenz, technische Fähigkeiten, Fachwissen oder Motivation für eine bestimmte Rolle. Sie sagen dir nicht, ob jemand Code schreiben, eine GuV verwalten oder Maschinen bedienen kann. Eine sehr gewissenhafte Person ohne Buchführungskenntnisse wird kein guter Buchhalter sein.

Persönlichkeitsassessments funktionieren am besten als eine Komponente eines strukturierten Einstellungsprozesses, der auch kognitive Fähigkeitstests, strukturierte Interviews, Arbeitsproben und Referenzen umfasst. Die Forschung ist klar: Mehrfachmethoden-Assessment sagt Arbeitsleistung besser voraus als jede einzelne Methode allein. Persönlichkeitsdaten fügen inkrementelle Validität über kognitive Fähigkeiten und Interviews hinaus hinzu. Sie ersetzen sie nicht.

Unternehmen, die ausschließlich auf Persönlichkeitstests als Screening-Kriterium setzen, missbrauchen das Instrument. Unternehmen, die Persönlichkeitsdaten völlig ignorieren, lassen Vorhersagekraft auf dem Tisch liegen.

Persönlichkeitsassessments, die bei Einstellungen verwendet werden, unterliegen dem Arbeitsrecht, einschließlich des Allgemeinen Gleichbehandlungsgesetzes (Deutschland), des Equality Act (UK) und gleichwertiger Gesetzgebung in anderen Jurisdiktionen. Der rechtliche Standard ist unkompliziert: jedes Assessment, das für Einstellungsentscheidungen verwendet wird, muss stellenbezogen und mit geschäftlicher Notwendigkeit vereinbar sein.

Was einen Persönlichkeitstest rechtlich vertretbar macht:

Was Unternehmen verklagt wird:

Ungleiche Auswirkung und Fairness

Ungleiche Auswirkung tritt auf, wenn ein Auswahlverfahren Mitglieder einer geschützten Gruppe unverhältnismäßig ausschließt. Die Big Five haben hier einen erheblichen Vorteil: Sie zeigen über rassische und ethnische Gruppen hinweg wesentlich weniger ungleiche Auswirkung als kognitive Fähigkeitstests.

Kognitive Fähigkeitstests erzeugen große Gruppenunterschiede. Big-Five-Persönlichkeitstests zeigen kleine bis vernachlässigbare Gruppenunterschiede auf den meisten Dimensionen. Das bedeutet, dass Persönlichkeitsassessments inkrementelle Validität zu einem Einstellungsprozess hinzufügen können und dabei die ungleiche Auswirkung des Auswahlsystems eher reduzieren als erhöhen.

Geschlechtsunterschiede existieren bei einigen Big-Five-Dimensionen (Frauen erzielen im Durchschnitt etwas höhere Werte bei Verträglichkeit und Neurotizismus), aber die Unterschiede sind klein genug, dass sie selten eine ungleiche Auswirkung bei den bei der Einstellung verwendeten Auswahlschwellen erzeugen.

Alterseffekte sind minimal. Im Gegensatz zu kognitiven Fähigkeiten, die im frühen Erwachsenenalter ihren Höhepunkt erreichen und abnehmen, sind Persönlichkeitseigenschaften über die berufliche Lebensspanne relativ stabil. Gewissenhaftigkeit nimmt mit dem Alter tatsächlich leicht zu, was bedeutet, dass Persönlichkeitsassessments ältere Arbeitnehmer nicht benachteiligen.

Wie Bewerber den Test manipulieren (und ob das wichtig ist)

Der häufigste Einwand gegen Persönlichkeitstests bei der Einstellung ist Fälschung: Kandidaten werden sich in einem möglichst günstigen Licht präsentieren, anstatt ehrlich zu antworten. Dieses Anliegen ist berechtigt, aber übertrieben.

Kandidaten verschieben ihre Antworten tatsächlich in Richtung dessen, was sie glauben, dass der Arbeitgeber will. Forschung zeigt, dass trainierte oder motivierte Befragte ihre Gewissenhaftigkeits- und Verträglichkeitswerte um ungefähr eine halbe Standardabweichung erhöhen können. Das ist nicht nichts. Aber mehrere Faktoren begrenzen seine praktische Auswirkung.

Erstens ist die Verschiebung einheitlich. Fast alle erhöhen dieselben Eigenschaften. Das bedeutet, dass die Rangordnung unter den Kandidaten weitgehend erhalten bleibt. Die Person, die tatsächlich die gewissenhafteste im Bewerberpool ist, neigt dazu, immer noch am höchsten zu punkten, selbst wenn alle erhöhen. Fälschen fügt Rauschen hinzu, zerstört aber nicht das Signal.

Zweitens neigen Menschen, die erfolgreich hohe Gewissenhaftigkeit vortäuschen, tatsächlich einigermaßen gewissenhaft zu sein. Die Fähigkeit, die Situation zu lesen, die gewünschte Antwort zu identifizieren und diese Präsentation über 120 Fragen konsistent aufrechtzuerhalten, erfordert genau die Art von Selbstregulation und zielgerichtetem Verhalten, die Gewissenhaftigkeit misst.

Es ist erwähnenswert, dass Fälschung nicht auf Kandidaten beschränkt ist. Forschung zu emotionaler Intelligenz-Assessments ergab, dass Informantenratings (Kollegen- oder Managerberichte) Halo-Effekt-Inflation zeigen können, die die Selbst-Inflation von Kandidaten übersteigt. Selbstberichte können in einigen Kontexten ehrlicher sein als die Drittanbieter-Alternativen, die sie ersetzen sollen.

Drittens reduzieren Forced-Choice-Formate (bei denen Kandidaten Aussagen gegeneinander einordnen, anstatt sie unabhängig zu bewerten) Fälschung erheblich, weil es keine einheitlich "richtige" Antwort gibt. Wenn jede Option wünschenswert klingt, ist der Kandidat gezwungen, echte Präferenzen zu offenbaren.

Die praktische Schlussfolgerung: Fälschung ist ein reales Phänomen, das die Präzision der Persönlichkeitsmessung leicht reduziert. Es macht die Messung nicht ungültig. Es rechtfertigt nicht, auf Persönlichkeitsassessments zu verzichten.

Rollenspezifische Profile: Eine Größe passt nicht für alle

Die Eigenschaften, die Erfolg vorhersagen, variieren je nach Rolle. Eine pauschale "wir wollen hohe Gewissenhaftigkeit und hohe Verträglichkeit"-Politik ist besser als nichts, verfehlt aber die Nuancen, die Persönlichkeitsdaten umsetzbar machen.

Vertriebsrollen profitieren von hoher Extraversion (insbesondere Durchsetzungsvermögen und Aktivitätsniveau), moderater bis hoher Gewissenhaftigkeit (Leistungsstreben ist wichtiger als Ordnungsliebe) und niedriger bis moderater Verträglichkeit. Das überrascht Menschen. Hoch-Verträglichkeits-Verkäufer haben Schwierigkeiten, Abschlüsse zu erzielen, weil Abschließen erfordert, über den Widerstand des Kunden hinwegzugehen, was sich wie Konflikt anfühlt. Die besten Verkäufer sind warmherzig genug, um Rapport aufzubauen (moderates E1) und wettbewerbsorientiert genug, um nach dem Geschäft zu fragen (niedriges A4).

Softwareentwicklung profitiert von hoher Gewissenhaftigkeit (insbesondere Ordnungsliebe und Besonnenheit), hoher Offenheit (insbesondere intellektueller Neugier) und Persönlichkeit ist weniger vorhersagend für Erfolg als kognitive Fähigkeiten.

Kundendienst profitiert von hoher Verträglichkeit (insbesondere Compliance und Mitgefühl), hoher emotionaler Stabilität (niedriges N2-Ärger ist entscheidend) und moderater Extraversion (Wärme ist wichtig; Durchsetzungsvermögen nicht). Auf niedrigen Neurotizismus im Kundendienst zu screenen ist eine der renditestärksten Anwendungen von Persönlichkeitstests, weil Mitarbeiter mit hohem Neurotizismus Anrufe eskalieren, emotional auf schwierige Kunden reagieren und schneller ausbrennen.

Management und Führung profitiert von einem komplexen Profil: hohes Durchsetzungsvermögen (E3), moderate bis hohe Gewissenhaftigkeit, moderate Verträglichkeit (nicht zu hoch, nicht zu niedrig), niedriger Neurotizismus und hohe Offenheit in Umgebungen, die Change-Management erfordern. Der konsistenteste Befund in der Führungsforschung ist, dass niedrige Verträglichkeit kombiniert mit hoher Gewissenhaftigkeit vorhersagt, wer befördert wird und von Untergebenen als effektive Führungskraft bewertet wird.

Kreative Rollen profitieren von hoher Offenheit (insbesondere Fantasie, Ästhetik und Neuigkeitssuche), moderater Gewissenhaftigkeit (genug, um Projekte abzuschließen, aber nicht so viel, dass Risikoaversion Innovation abtötet) und Toleranz für Mehrdeutigkeit (die niedrige Besonnenheit, C6, zugeordnet ist). Auf hohe Gewissenhaftigkeit in kreativen Rollen einzustellen kann nach hinten losgehen. Du bekommst Menschen, die pünktlich liefern, aber vorhersagbare Arbeit liefern.

Teamfit vs. Rollenfit: Zwei verschiedene Fragen

Rollenfit fragt, ob die Persönlichkeit des Kandidaten Erfolg in der Position vorhersagt. Teamfit fragt, ob die Persönlichkeit des Kandidaten produktive Arbeitsbeziehungen mit bestehenden Teammitgliedern vorhersagt. Das sind verschiedene Fragen mit verschiedenen Antworten.

Ein Kandidat kann ein ausgezeichneter Rollenfit und ein schrecklicher Teamfit sein. Stell dir vor, du stellst einen hochdurchsetzungsstarken, wenig verträglichen Vertriebsdirektor in ein Team von sehr verträglichen, konfliktscheuen Kundenbetreuern ein. Der Neue wird die Vertriebsdirektoren-Rolle gut ausüben. Er wird auch mit jeder Person, die er führt, Reibung erzeugen, weil seine Persönlichkeit mit dem Teambaseline auf genau den Eigenschaften kollidiert, die die tägliche Interaktion regeln.

Teamfit-Analyse erfordert den Vergleich des eingehenden Kandidatenprofils mit den bestehenden Teamprofilen. Die relevanten Fragen sind: Wo liegen die Eigenschaftsabstände bei den Facetten, die interpersonelle Reibung vorhersagen? Passt das Gewissenhaftigkeitsniveau des Kandidaten zum Arbeitsstil des Teams? Passt sein Verträglichkeitsniveau zur Konflikttoleranzschwelle des Teams? Passt sein Aktivitätsniveau zum Tempo des Teams?

Die produktivsten Teams sind nicht die, in denen alle ähnlich sind. Sie sind die, in denen Ähnlichkeit bei den Eigenschaften besteht, die Zusammenarbeit regeln (Verträglichkeit, Gewissenhaftigkeit) und Diversität bei den Eigenschaften besteht, die Problemlösung regeln (Offenheit, Durchsetzungsvermögen).

Wie man Persönlichkeitstests korrekt implementiert

Wenn du Persönlichkeitsassessment zu deinem Einstellungsprozess hinzufügst, ist die Implementierung genauso wichtig wie das Instrument. Hier ist, was die Forschung und rechtliche Standards erfordern.

Schritt 1: Stellenanalyse durchführen. Bevor du ein Assessment auswählst, definiere die Verhaltensanforderungen der Rolle. Wie sieht Erfolg aus? Was verursacht Misserfolg? Welche Persönlichkeitseigenschaften entsprechen diesen Verhaltensweisen? Diese Dokumentation ist deine rechtliche Grundlage, wenn das Assessment jemals angefochten wird.

Schritt 2: Ein validiertes Instrument wählen. Das Assessment muss auf dem Big-Five-Modell basieren, einen validierten Item-Satz verwenden (wie das IPIP-NEO oder ein kommerziell entwickeltes Äquivalent) und veröffentlichte Belege für Kriteriumsvalidität für die Beschäftigungsauswahl haben.

Schritt 3: Konsistent administrieren. Jeder Kandidat für dieselbe Rolle macht dasselbe Assessment unter denselben Bedingungen. Standardisierung ist sowohl eine rechtliche als auch eine psychometrische Anforderung.

Schritt 4: Profile, nicht Cutoffs verwenden. Binäre Bestehen/Nichtbestehen-Entscheidungen basierend auf Persönlichkeitswerten sind wissenschaftlich fragwürdig und rechtlich riskant. Erstelle stattdessen ein Rollenfit-Profil, das zeigt, wie die Facetwerte des Kandidaten den Stellenanforderungen entsprechen.

Schritt 5: Mit anderen Daten kombinieren. Persönlichkeitswerte sollten Einstellungsentscheidungen neben kognitiven Fähigkeitsdaten, strukturierten Interview-Werten, Arbeitsproben und Referenzen informieren. Keine einzelne Datenquelle sollte die einzige Grundlage für eine Einstellungsentscheidung sein.

Schritt 6: Ungleiche Auswirkung überwachen. Verfolge Auswahlraten nach demografischer Gruppe. Wenn Persönlichkeitswerte unverhältnismäßig Mitglieder einer geschützten Gruppe ausschließen, untersuche, ob die Cutoffs oder Gewichtung angepasst werden müssen.

Nächste Schritte

Der 30-Facetten-OCEAN-Persönlichkeitstest bewertet Kandidaten auf jeder Unterfacette der Big Five in etwa 15 Minuten. Die Grundergebnisse sind kostenlos. Für die Einstellung vergleicht der Einstellungsfit-Bericht das Profil eines Kandidaten mit den Rollenanforderungen und bestehenden Teammitgliedern und identifiziert spezifische Ausrichtungs- und Reibungspunkte über alle 30 Facetten.

Mach den OCEAN Persönlichkeitstest

Wenn du Persönlichkeitsassessments für deine Organisation evaluierst, beginne damit, deine bestehenden Topleistungsträger den Test machen zu lassen. Ihre Profile werden der Benchmark. Wenn du die Facetenunterschiede zwischen deinen Top-Leistungsträgern und durchschnittlichen Leistungsträgern siehst, verstehst du genau, welche Eigenschaften in jeder Rolle Erfolg vorhersagen. Diese Daten, nicht Intuition, sind die Grundlage eines vertretbaren und effektiven Einstellungsprozesses.