Sie sind auf Seite 1von 27

Réaliser un score de A à Z

20/02/2002 © Inbox Stéphane Amarsy 1


Sommaire
Inbox
La problématique
La découverte de la problématique
La découverte des données
La méthodologie
Les variables explicatives simples
Les variables explicatives composées
La modélisation
Les résultats
Le choix du modèle
L’utilisation

20/02/2002 © Inbox Stéphane Amarsy 2


Inbox
De l ’acquisition à l ’efficacité économique de la relation client

L ’acquisition de clients
Conseils (off & on line)
Régie (on line)
Plate-forme emailing

Le Système d'Information marketing


Audit
Mise en place

Le data mining & web mining


Études
Conseils

20/02/2002 © Inbox Stéphane Amarsy 3


La problématique
Un organisme financier souhaite commercialiser
une nouvelle SICAV auprès de ses clients
Une action de test a été menée sur un groupe
d’agence représentatif de façon à construire une
campagne de sollicitation économiquement
optimale
Nous disposons de 20 000 personnes sollicitées dont
5 000 ont acheté le produit proposé
Le travail consiste à identifier les personnes
ayant le plus de chance d’acheter ce produit et
le montant qu’ils vont souscrire
Création de trafic en agence pour les grands
montants et souscription à distance pour les autres
20/02/2002 © Inbox Stéphane Amarsy 4
La découverte de la problématique
Pouvoir répondre aux questions suivantes
Données disponibles ?
Biais dans le comportement ?
Cadre législatif ?
Histoire du produit/service ?
Contexte concurrentiel ?
Mise en œuvre ?
Mode de commercialisation ?

20/02/2002 © Inbox Stéphane Amarsy 5


La découverte des données
Variable à expliquer (Y)
Signification
Statistiques de base (ex % de souscripteurs)
Variable explicative par variable explicative
Signification
Statistiques de base
Distribution
Moyenne, écart type, …
Valeurs manquantes
Création à partir de la base de données d’un
fichier d’étude
Création d’un enregistrement par individu statistique
(le client dans notre cas)
Création d’un fichier de validation (~ 30 %)
Statistiques de base
20/02/2002 © Inbox Stéphane Amarsy 6
La méthodologie
Fort de la connaissance de la problématique et
des données
Choix de la méthodologie
Segmentation / Modélisation / …
Étude basée sur
La détention : biais dû à l’influence de la détention dans le
comportement et à l’exposition à l’offre
L’achat : biais dû à l’exposition à l’offre
L’achat suite à une sollicitation : le plus pur à condition
que les individus sollicités soient représentatifs
Dans notre cas, on explique l’achat compte tenu
du passé
Construction d’un score pour l’appétence
Construction d’un score pour le montant
20/02/2002 © Inbox Stéphane Amarsy 7
La méthodologie
Appétence++
Appétence
N (6) mois K (3) mois
p o n
Appétence
N (6) mois K (3) mois
Variables
Variables
explicatives
explicatives
Souscription
Souscription

--
Montant
-- K (3) ++
mois
N (6) mois Montant

Montant
Variables explicatives
N (6) mois K (3) mois

Variables
explicatives
Montant
Montant

20/02/2002 © Inbox Stéphane Amarsy 8


Les variables explicatives simples
Les variables qualitatives (ex PCS, sexe, …)
Les valeurs manquantes
L’agrégation de modalités
Vérification du pouvoir explicatif par un tableau croisé

20/02/2002 © Inbox Stéphane Amarsy 9


Les variables explicatives simples
Variable à expliquer
Souscripteurs Non souscripteurs Total
Celibataire Effectif 250 750 1000
% ligne 25,00 75,00 100,00
% colonne 5,00 5,00 5,00
Situation Concubin Effectif 550 1500 2050
familiale % ligne 26,83 73,17 100,00
% colonne 11,00 10,00 10,25
Marié Effectif 3500 7250 10750
% ligne 32,56 67,44 100,00
% colonne 70,00 48,33 53,75
Divorcé Effectif 450 3500 3950
% ligne 11,39 88,61 100,00
% colonne 9,00 23,33 19,75
Veuf Effectif 250 2000 2250
% ligne 11,11 88,89 100,00
% colonne 5,00 13,33 11,25
Total Effectif 5000 15000 20000
% ligne 25,00 75,00 100,00
% colonne 100,00 100,00 100,00

20/02/2002 © Inbox Stéphane Amarsy 10


Les variables explicatives simples
Épargne
Les variables quantitatives
(ex age, revenus, …)
Valeurs manquantes et
individus « aberrants » Age
Forme de la liaison
Corrélation (si liaison linéaire)
Découpage en n classes et
croisement avec la variable à
expliquer
Transformation
Fonction croissante et continu
(log)
Qualitative

20/02/2002 © Inbox Stéphane Amarsy 11


Les variables explicatives simples
Les variables quantitatives
(ex age, revenus, …)
Valeurs manquantes et
individus « aberrants »
Revenus
Forme de la liaison
Corrélation (si liaison linéaire)
Découpage en n classes et
croisement avec la variable à
expliquer
Transformation Age
Fonction croissante et continu
(log)
Qualitative

20/02/2002 © Inbox Stéphane Amarsy 12


Les variables explicatives simples
Les variables quantitatives
(ex age, revenus, …)
Valeurs manquantes et Revenu
individus « aberrants »
Forme de la liaison
Corrélation (si liaison linéaire)
Découpage en n classes et
croisement avec la variable à
expliquer Age
Transformation
Fonction croissante et continu
(log)
Qualitative

20/02/2002 © Inbox Stéphane Amarsy 13


Les variables explicatives simples
Les variables quantitatives
(ex age, revenus, …)
Valeurs manquantes et
individus « aberrants »
Forme de la liaison
40
Corrélation (si liaison linéaire)

% de souscripteurs
35

Découpage en n classes et 30

croisement avec la variable à 25

expliquer 20

15

Transformation 10

5
Fonction croissante et continu 0
(log) <25 ans <45 ans <55 ans < 65 ans >=65 ans

Qualitative

20/02/2002 © Inbox Stéphane Amarsy 14


Les variables explicatives composées
Le principe : faire de 2 (ou plus) variables, une variable apportant du
pouvoir explicatif
Statistiquement
Comportement
Logique
Comment faire ?
Les combiner numériquement entre elles : +, -, /, *, %, …
Épargne = somme des produits d’épargne
Taux d’endettement = charges / revenus
Les combiner qualitativement entre elles
Transformation en variables qualitatives
Croisement des variables
Regroupement de case à partir de la répartition de la variable à expliquer en
prenant en compte la logique comportementale et la robustesse statistique

20/02/2002 © Inbox Stéphane Amarsy 15


Les variables explicatives composées

Epargne
<1 K€ 1 à 4 K€ 4 à 8 K€ 8 à 25 K€ 150 K€ et +
< 25 ans 4 8 20 35 28
25 à 40 ans 8 20 25 40 37
Age 40 à 55 ans 6 16 22 33 30
55 à 65 ans 2 12 18 22 19
65 ans et + 1 5 6 18 15
20%

% de souscripteurs

20/02/2002 © Inbox Stéphane Amarsy 16


Les variables explicatives composées

40
% de
souscripteurs
35

30 35-40
25 30-35
25-30
20
20-25
15 15-20
10-15
10
5-10
5 150 K€ et +
0-5
0 4 à 8 K€
65 ans
et + 55 à 65
ans 40 à 55 <1 K€
ans 25 à 40
ans < 25
ans

20/02/2002 © Inbox Stéphane Amarsy 17


Les variables explicatives composées
65 ans et +

55 à 65 ans

30-40
40 à 55 ans
20-30
10-20
25 à 40 ans 0-10

< 25 ans
<1 K€ 1à4 4 à 8 8 à 25 150 K€
K€ K€ K€ et +

20/02/2002 © Inbox Stéphane Amarsy 18


Les variables explicatives composées

Epargne
<1 K€ 1 à 4 K€ 4 à 8 K€ 8 à 25 K€ 150 K€ et +
< 25 ans 4 8 20 35 30
25 à 40 ans 8 20 25 40 37
Age 40 à 55 ans 6 16 22 33 30
55 à 65 ans 2 14 18 22 19
65 ans et + 1 5 6 18 15
20%

5% 36%
16 % 22 %

20/02/2002 © Inbox Stéphane Amarsy 19


La modélisation
Le choix des variables explicatives
Les plus explicatives « non corrélées »
Discrétiser les variables qualitatives ?
Penser aux effets des variables quantitatives
(simple si linéaire, carré si parabolique, …)
Épargne Revenus

Épargne=b*Age+c
Revenus=a*Age2+b*Age+c

Age Age
20/02/2002 © Inbox Stéphane Amarsy 20
La modélisation
Le choix de la technique de modélisation
Choisir la ou les plus appropriée(s)
Données
Mise en œuvre
Compréhension

Les techniques
Arbres de segmentation
Modèles mathématiques (linéaire, logistique, …)
Réseaux de neurones
Algorithmes génétiques

20/02/2002 © Inbox Stéphane Amarsy 21


La modélisation
La modélisation logistique
Modélisation de la probabilité d’être 1 eX
P[y=1]=F(variables explicatives) F(X)=
Choix de la méthode 1 + e X

Forward
Backward
Stepwise
Itération jusqu’à l’obtention du modèle
Variables significatives
Variables cohérentes
Estimateurs logiques
Exemple
P[Y=1]=F(0,2*Age-0.0003*Revenus+1.203 (si sexe=F)+0 (si sexe=M) …)

20/02/2002 © Inbox Stéphane Amarsy 22


Les résultats
Découpage en 10 classes d’effectif égal
et vérification du taux de souscription
Échantillon de construction
Échantillon de validation

20/02/2002 © Inbox Stéphane Amarsy 23


Les résultats
70
% Y=1
60
Construction
50 Validation
Moyenne
40

30

20

10

0
1 2 3 4 5 6 7 8 9 10

20/02/2002 © Inbox
Classe de score
Stéphane Amarsy 24
Les résultats
La courbe de concentration
100
% Y=1 90
80
70
60
50
Construction
40
Hasard
30
Validation
20
10
0
10 9 8 7 6 5 4 3 2 1
Classe de score
20/02/2002 © Inbox Stéphane Amarsy 25
Le choix du modèle
Robustesse
Logique
Simplicité
Capacité à être exploité
Marketing/commercial
Informatique
Pouvoir explicatif

20/02/2002 © Inbox Stéphane Amarsy 26


L’utilisation
100
% Y=1 90
80
70
60 30 % de la population,
50 78 % des répondants,
Construction
40
Hasard
41 % de souscription
30
Validation
20
10
0
10 9 8 7 6 5 4 3 2 1
Classe de score
Chiffre d’Affaires
Rentabilité

Budget Coûts

20/02/2002 © Inbox Stéphane Amarsy 27

Das könnte Ihnen auch gefallen