Script R per “Le aziende si fanno concorrenza per attirare competenze”
Il paper è presentato qui: https://labourcomplexity.montaletti.com/sintesi-di-predicting-labor-market-competition-leveraging-interfirm-network
Il codice è disponibile a questo link: https://github.com/gmontaletti/labour-complexity/blob/main/R/Labour_market_competition.R
Scopi dello Script
Lo script R implementa computazionalmente il framework metodologico presentato nel lavoro di Liu, Pant e Sheng (2023) “Predicting Labor Market Competition: Leveraging Interfirm Network and Employee Skills”. Gli obiettivi principali dello script sono:
1. Riproduzione Metodologica
Replicare fedelmente l'approccio innovativo degli autori per la predizione della competizione nel mercato del lavoro attraverso l'integrazione di:
- Dati sulle competenze dei dipendenti (skill-based metrics)
- Reti di flusso del capitale umano tra aziende (Human Capital Flow networks)
- Caratteristiche economiche e strutturali delle imprese
2. Validazione Empirica
Dimostrare l'efficacia predittiva superiore delle metriche basate su network rispetto agli approcci tradizionali di classificazione industriale, confermando i risultati originali che mostrano miglioramenti dell'AUC del 18-34%.
3. Operazionalizzazione del Framework 2-D
Implementare il modello bidimensionale di analisi competitiva che combina sovrapposizione nel mercato del prodotto (product market overlap) e sovrapposizione nel mercato del lavoro (labor market overlap) per identificare diversi tipi di competitor.
Principali Funzionalità e Collegamento al Lavoro Originale
Generazione di Dati Sintetici
Funzione: generate_synthetic_data()
Collegamento teorico: Replica la struttura del dataset LinkedIn utilizzato dagli autori, contenente 89.000+ profili di dipendenti di 3.467 aziende pubbliche (2000-2014).
Componenti implementati:
- Aziende con codici SIC e caratteristiche economiche
- Dipendenti con profili di competenze
- Movimenti inter-aziendali che simulano i flussi di capitale umano
- Distribuzione probabilistica dei movimenti basata su prossimità settoriale
Costruzione delle Metriche di Sovrapposizione del Capitale Umano
Skill-Based Labor Overlap
Funzioni: create_firm_skill_matrix()
, create_skill_term_similarity_matrix()
Collegamento teorico: Implementa le metriche di sovrapposizione delle competenze esplicite attraverso:
- Ponderazione SF-IFF (Skill Frequency – Inverse Firm Frequency)
- Calcolo della similarità del coseno tra vettori di competenze aziendali
- Rappresentazione delle knowledge bases aziendali come distribuzioni su spazi di competenze
Skill Topic Modeling
Funzioni: create_skill_topics()
, create_skill_topic_similarity_matrix()
Collegamento teorico: Operazionalizza l'approccio di topic modeling degli autori per catturare competenze latenti e conoscenze tacite attraverso:
- Clustering di competenze basato su pattern di co-occorrenza
- Aggregazione delle distribuzioni di topic a livello aziendale
- Misurazione della similarità tra knowledge portfolios aziendali
Analisi delle Reti di Flusso del Capitale Umano (HCF Networks)
Costruzione della Rete
Funzioni: create_hcf_network()
, calculate_upstream_similarity()
, calculate_downstream_similarity()
Collegamento teorico: Replica l'innovativa metodologia di network analysis che distingue tra:
- Upstream similarity: Competizione per le stesse fonti di talento
- Downstream similarity: Competizione per gli stessi target di acquisizione
- Community detection: Identificazione di cluster competitivi attraverso algoritmi di Louvain
Proprietà Strutturali della Rete
Funzioni: detect_communities()
, create_community_similarity_matrix()
Collegamento teorico: Conferma empiricamente le proprietà “small-world” identificate dagli autori:
- Weak industrial homophily nelle reti HCF
- Mobilità cross-industriale estesa che trascende le classificazioni SIC tradizionali
- Necessità di metriche basate su network per catturare pattern globali di competizione
Modellazione Predittiva Multi-Dimensionale
Architettura dei Feature Sets
Funzione: evaluate_feature_sets()
Collegamento teorico: Implementa la strategia di validazione incrementale degli autori attraverso quattro categorie di variabili:
Economic Features: Caratteristiche finanziarie e dimensionali delle aziende
Product Market Features: Similarità basata su codici SIC
Labor Market Features: Metriche di sovrapposizione delle competenze
Network Features: Similarità strutturali nelle reti HCF
Machine Learning Pipeline
Funzioni: train_and_evaluate_rf()
, prepare_prediction_data()
Collegamento teorico: Replica l'approccio di machine learning degli autori:
- Random Forest con 500 alberi per gestire non-linearità e interazioni
- Validazione temporale (training: 2000-2012, test: 2013-2015)
- Metriche binarie di competizione (δ=1: tutti i competitor, δ=2: competitor forti)
- Valutazione attraverso AUC e identificazione di nuovi competitor
Framework di Analisi Competitiva 2-D
Funzione: plot_2d_competition()
Collegamento teorico: Operazionalizza il modello bidimensionale degli autori che classifica i competitor in quattro categorie:
Direct Competitors: Alta sovrapposizione sia nel prodotto che nel lavoro
Indirect Competitors: Alta sovrapposizione nel prodotto, bassa nel lavoro
Potential Competitors: Bassa sovrapposizione nel prodotto, alta nel lavoro
Weak Competitors: Bassa sovrapposizione in entrambe le dimensioni
Validazione dei Risultati Metodologici
Lo script conferma i principali findings empirici del paper originale:
- Superiorità predittiva delle metriche di network: Le variabili basate su HCF network mostrano utilità predittiva superiore, migliorando l'AUC del 18-34%
- Complementarità delle dimensioni competitive: L'integrazione di product market e labor market metrics fornisce una visione più completa della competizione
- Robustezza cross-industriale: Il framework mantiene efficacia predittiva attraverso diversi settori industriali
Implicazioni Teoriche e Metodologiche
Lo script dimostra computazionalmente come:
I confini tradizionali dell'industria siano inadeguati per catturare la competizione per il capitale umano
Le reti di mobilità del personale rivelino dimensioni competitive nascoste non catturate dalle classificazioni SIC
L'integrazione di conoscenze esplicite e tacite attraverso skill-based metrics e network analysis fornisca una rappresentazione più accurata delle capabilities aziendali
Il machine learning applicato a dati di network possa identificare pattern competitivi non evidenti attraverso approcci tradizionali
Struttura Computazionale
Lo script è organizzato in cinque moduli principali:
Data Generation: Simulazione di ecosistemi aziendali realistici
Metrics Construction: Calcolo delle metriche di sovrapposizione multi-dimensionali
Network Analysis: Costruzione e analisi delle reti HCF
Predictive Modeling: Implementazione del pipeline di machine learning
Results Visualization: Rappresentazione grafica dei risultati e validazione empirica
Questa architettura modulare consente la replicazione sistematica della metodologia originale.