Koch, Philipp (2024) Apprentissage automatique pour l'histoire économique. École doctorale Mathématiques, Informatique et Télécommunications (Toulouse).

[thumbnail of KochPhilipp2024.pdf]
Preview
Text
Download (17MB) | Preview

Abstract

Les méthodes d'apprentissage automatique ont contribué à élargir la boîte à outils de l'économie au cours des dernières décennies. Des contributions récentes ont commencé à explorer l'intersection des méthodes d'apprentissage automatique et de l'histoire économique. Cette thèse vise à contribuer à ce domaine émergent à travers trois chapitres. Le premier chapitre passe en revue la littérature et constate que les applications de l'apprentissage automatique se répartissent globalement en trois catégories : (1) l'apprentissage automatique en tant qu'outil de prétraitement pour numériser les sources d'archives telles que les textes et les cartes historiques, facilitant ainsi les analyses quantitatives à grande échelle ; (2) les modèles d'apprentissage automatique non supervisés, y compris le regroupement et la réduction de la dimensionnalité, pour dériver de nouvelles variables qui révèlent des modèles et des relations historiques latents ; et (3) les modèles d'apprentissage automatique supervisés pour générer de nouvelles données ou améliorer les ensembles de données existants.Le deuxième chapitre présente l'utilisation de l'apprentissage automatique non supervisé, c'est-à-dire des mesures de parenté, pour nous aider à comprendre pourquoi Paris est devenue la Mecque des arts et Vienne le phare de la musique classique. Plus précisément, nous utilisons des données sur plus de 22 000 individus historiques nés entre l'an 1000 et l'an 2000 pour estimer la contribution d'immigrants, d'émigrants et de locaux célèbres à la spécialisation des connaissances des régions européennes. Nous constatons que les migrants jouent un rôle crucial dans le façonnement des villes européennes. La probabilité qu'une région développe ou conserve une spécialisation dans une activité (sur la base de la naissance de physiciens, de peintres, etc. célèbres) augmente avec la présence d'immigrants possédant des connaissances dans cette activité et d'immigrants possédant des connaissances dans des activités connexes. Dans le troisième chapitre, nous introduisons une méthode d'apprentissage automatique pour augmenter la disponibilité des estimations historiques du PIB par habitant. En utilisant des données sur les lieux de naissance, de décès et les professions de centaines de milliers de personnages historiques, nous construisons un modèle de régression à filet élastique pour effectuer une sélection des caractéristiques et générer des estimations hors échantillon qui expliquent 90 % de la variance des niveaux de revenus historiques connus. Nous utilisons ce modèle pour générer des estimations du PIB par habitant pour des dizaines de pays et des centaines de régions d'Europe et d'Amérique du Nord pour les 700 dernières années. Nous validons nos estimations en les comparant à quatre indicateurs de la production économique et en montrant qu'elles reproduisent le renversement de fortune bien connu entre le sud-ouest et le nord-ouest de l'Europe entre 1300 et 1800. Ces résultats valident l'utilisation de données biographiques fines comme méthode pour produire des estimations historiques du PIB par habitant.Cette thèse explore le potentiel des méthodes d'apprentissage automatique pour améliorer notre compréhension de l'histoire économique en fournissant une revue de l'état de l'art et en présentant l'utilisation de modèles d'apprentissage automatique supervisés et non supervisés pour étudier des questions qui ont été laissées relativement inexplorées.

,

Machine learning methods helped expand the economics toolbox over the past decades. Recent contributions started to explore the intersection of machine learning methods and economic history. This thesis aims to contribute to this emerging field through three chapters. The first chapter reviews the literature and finds that applications of machine learning broadly fall into three categories: (1) ML as a pre-processing tool to digitize archival sources such as historical texts and maps, facilitating large-scale quantitative analyses; (2) unsupervised ML models, including clustering and dimensionality reduction, to derive new variables that reveal latent historical patterns and relationships; and (3) supervised ML models to generate new data or enhance existing datasets.The second chapter showcases the use of unsupervised machine learning—that is, measures of relatedness—to help us understand why Paris became the Mecca for the arts and Vienna a beacon of classical music. Specifically, we use data on more than 22,000 historical individuals born between the years 1000 and 2000 to estimate the contribution of famous immigrants, emigrants, and locals to the knowledge specializations of European regions. We find that migrants play a crucial role in shaping European cities. The probability that a region develops or keeps specialization in an activity (based on the birth of famous physicists, painters, etc.) grows with both, the presence of immigrants with knowledge in that activity and immigrants with knowledge in related activities. In the third chapter, we introduce a machine learning method to augment the availability of historical GDP per capita estimates. Using data on the places of birth, death, and occupations of hundreds of thousands of historical figures, we build an elastic net regression model to perform feature selection and generate out-of-sample estimates that explain 90% of the variance in known historical income levels. We use this model to generate GDP per capita estimates for dozens of countries and hundreds of regions in Europe and North America for the past 700 years. We externally validate our estimates by comparing them with four proxies of economic output and showing they reproduce the well-known reversal of fortune between southwestern and northwestern Europe between 1300 and 1800. These findings validate the use of fine-grained biographical data as a method to produce historical GDP per capita estimates.Together, this thesis explores the potential of machine learning methods to enhance our understanding of economic history by providing a review of the state-of-the art and showcasing the use of unsupervised and supervised machine learning models to investigate questions that were left relatively unexplored.

Item Type: Thesis (UNSPECIFIED)
Other titles: Machine learning for Economic History
Language: English
Date: 11 October 2024
Keywords (French): Apprentissage automatique -- Aspect économique, Apprentissage automatique -- Histoire -- Sources, Données massives -- Histoire -- Sources
Subjects: G- MATHEMATIQUES
Divisions: TSE-R (Toulouse)
Ecole doctorale: École doctorale Mathématiques, Informatique et Télécommunications (Toulouse)
Site: UT1
Date Deposited: 21 Feb 2025 12:58
Last Modified: 21 Feb 2025 12:58
URI: https://publications.ut-capitole.fr/id/eprint/50554
View Item

Downloads

Downloads per month over past year