Medous, Estelle (2023) Méthode généralisée de partage des poids et intégration de données pour l’amélioration de la précision des estimateurs de trafic postal en France. École doctorale Mathématiques, Informatique et Télécommunications (Toulouse).

[thumbnail of MedousEstelle2023.pdf]
Preview
Text
Download (10MB) | Preview

Abstract

La Poste française a mis en place une étude par sondage pour effectuer un suivi de la distributiondes objets postaux en France Métropolitaine. Le but des travaux réalisés lors de cette thèse est d’améliorerla précision des estimateurs du trafic total postal. La Poste souhaite observer des tournées de facteurs, maisne peut pas les échantillonner directement. Elle a donc mis en place un tirage indirect et utilise une MéthodeGénéralisée de Partage des Poids (MGPP) double, inspirée de la MGPP simple proposée par Deville andLavallée (2006), pour calculer les estimations du trafic postal. Dans un premier temps, nous étudions dansle cadre de La Poste l’existence d’une MGPP simple optimale, au sens que la variance des estimateursest minimale, et la comparons aux estimateurs postaux actuels. La MGPP double, telle qu’utilisée à LaPoste, est plus facile à mettre en place que la MGPP simple, mais est moins précise que la MGPP simpleoptimale. Nous nous penchons donc sur la question d’une MGPP double optimale dans le cas de La Posteet proposons des alternatives basées sur l’utilisation de données auxiliaires. Dans un deuxième temps, nousnous intéressons à l’Intégration Statistique de Données (ISD), qui consiste à utiliser un échantillon nonprobabiliste,généralement une base de données massives, et un échantillon probabiliste pour construiredes estimateurs de totaux. La littérature sur l’ISD traite majoritairement de cas où la variable d’intérêtest disponible dans la base de données massives. Les données massives de La Poste, intitulées TraitementAutomatisé de l’Enveloppe (TAE), sont récoltées sur les objets triés par machine et ne contiennent pasd’information sur certaines variables d’intérêt. Des méthodologies adaptées au cas particulier de La Postedoivent donc être développées. Nous proposons une amélioration des estimateurs présentés dans Kim andTam (2021) en utilisant une famille de prédicteurs, dits prédicteurs QR, proposée par Wright (1983), pourprédire le total des variables d’intérêt sur TAE. Nous utilisons un estimateur de Hájek pour estimer le totaldes variables d’intérêt sur le complémentaire de TAE. Nous étudions les propriétés théoriques des estimateursQR et préconisons l’utilisation de l’estimateur cosmétique qui est un cas particulier d’estimateur QR. Lesrésultats présentés dans cette thèse sont illustrés par des études Monte-Carlo basées sur des données simuléeset sur des données historiques postales, afin d’évaluer le gain de précision potentiel apporté par l’utilisationdes différents estimateurs que nous proposons.

,

The French Postal Service (La Poste) has set up a sample survey to monitor mail distribution inMetropolitan France. The aim of the work carried out in this thesis is to improve the accuracy of estimatorsof total postal traffic. La Poste wants to observe postman rounds, but cannot sample them directly. It hastherefore set up an indirect sampling and uses a double Generalized Weight Share Method (GWSM), inspiredby the simple GWSM proposed by Deville and Lavallée (2006), to compute the estimates of the postal trafic.First, we study in the situation of La Poste the existence of a simple optimal GWSM, in the sense that thevariance of the estimators is minimal, and compare it with current postal estimators. The double GWSM,as used at La Poste, is easier to implement than the simple GWSM, but is less accurate than the optimalsimple GWSM. We therefore address the question of an optimal double GWSM in La Poste case and proposealternatives based on the use of auxiliary data. Secondly, we focus on Statistical Data Integration (SDI),which consists in using a non-probability sample, mainly a massive database, and a probability sample tocompute estimators of totals. The literature on SDI deals mainly with cases where the variable of interestis available in the massive database used. La Poste massive database, entitled Traitement Automatisé del’Enveloppe (TAE), is collected on mails sorted by machine and does not contain information for severalvariables of interest. Methodologies adapted to the specific case of La Poste must therefore be developed. Wepropose an amelioration of the estimators presented in Kim and Tam (2021) by using a family of predictors,known as QR predictors, proposed by Wright (1983), to predict the total of the variables of interest inTAE. We propose a Hájek estimator to estimate the total of the variables of interest in the complementaryset of TAE. We study the theoretical properties of QR estimators and recommend the use of the cosmeticestimator, which is a special case of QR estimator. The results presented in this thesis are illustrated byMonte-Carlo studies based on simulated data and historical postal data, in order to assess the potential gainin accuracy brought by the use of the different proposed estimators.

Item Type: Thesis (UNSPECIFIED)
Other titles: Generalized weight share method and statistical data integration to improve the precision of estimated postal traffic in France
Language: English
Date: 14 December 2023
Keywords (French): Tri postal -- Méthodes statistiques, Sondages d'opinion -- Méthodes statistiques
Subjects: G- MATHEMATIQUES
Divisions: TSE-R (Toulouse)
Ecole doctorale: École doctorale Mathématiques, Informatique et Télécommunications (Toulouse)
Site: UT1
Date Deposited: 06 May 2024 12:18
Last Modified: 06 May 2024 12:18
URI: https://publications.ut-capitole.fr/id/eprint/49367
View Item

Downloads

Downloads per month over past year