Script R per “Le aziende si fanno concorrenza per attirare competenze”

Il paper è presentato qui: https://labourcomplexity.montaletti.com/sintesi-di-predicting-labor-market-competition-leveraging-interfirm-network

Il codice è disponibile a questo link: https://github.com/gmontaletti/labour-complexity/blob/main/R/Labour_market_competition.R

#code

Scopi dello Script

Lo script R implementa computazionalmente il framework metodologico presentato nel lavoro di Liu, Pant e Sheng (2023) “Predicting Labor Market Competition: Leveraging Interfirm Network and Employee Skills”. Gli obiettivi principali dello script sono:

1. Riproduzione Metodologica

Replicare fedelmente l'approccio innovativo degli autori per la predizione della competizione nel mercato del lavoro attraverso l'integrazione di:

Dati sulle competenze dei dipendenti (skill-based metrics)
Reti di flusso del capitale umano tra aziende (Human Capital Flow networks)
Caratteristiche economiche e strutturali delle imprese

2. Validazione Empirica

Dimostrare l'efficacia predittiva superiore delle metriche basate su network rispetto agli approcci tradizionali di classificazione industriale, confermando i risultati originali che mostrano miglioramenti dell'AUC del 18-34%.

3. Operazionalizzazione del Framework 2-D

Implementare il modello bidimensionale di analisi competitiva che combina sovrapposizione nel mercato del prodotto (product market overlap) e sovrapposizione nel mercato del lavoro (labor market overlap) per identificare diversi tipi di competitor.

Principali Funzionalità e Collegamento al Lavoro Originale

Generazione di Dati Sintetici

Funzione: generate_synthetic_data()

Collegamento teorico: Replica la struttura del dataset LinkedIn utilizzato dagli autori, contenente 89.000+ profili di dipendenti di 3.467 aziende pubbliche (2000-2014).

Componenti implementati:

Aziende con codici SIC e caratteristiche economiche
Dipendenti con profili di competenze
Movimenti inter-aziendali che simulano i flussi di capitale umano
Distribuzione probabilistica dei movimenti basata su prossimità settoriale

Costruzione delle Metriche di Sovrapposizione del Capitale Umano

Skill-Based Labor Overlap

Funzioni: create_firm_skill_matrix(), create_skill_term_similarity_matrix()

Collegamento teorico: Implementa le metriche di sovrapposizione delle competenze esplicite attraverso:

Ponderazione SF-IFF (Skill Frequency – Inverse Firm Frequency)
Calcolo della similarità del coseno tra vettori di competenze aziendali
Rappresentazione delle knowledge bases aziendali come distribuzioni su spazi di competenze

Skill Topic Modeling

Funzioni: create_skill_topics(), create_skill_topic_similarity_matrix()

Collegamento teorico: Operazionalizza l'approccio di topic modeling degli autori per catturare competenze latenti e conoscenze tacite attraverso:

Clustering di competenze basato su pattern di co-occorrenza
Aggregazione delle distribuzioni di topic a livello aziendale
Misurazione della similarità tra knowledge portfolios aziendali

Analisi delle Reti di Flusso del Capitale Umano (HCF Networks)

Costruzione della Rete

Funzioni: create_hcf_network(), calculate_upstream_similarity(), calculate_downstream_similarity()

Collegamento teorico: Replica l'innovativa metodologia di network analysis che distingue tra:

Upstream similarity: Competizione per le stesse fonti di talento
Downstream similarity: Competizione per gli stessi target di acquisizione
Community detection: Identificazione di cluster competitivi attraverso algoritmi di Louvain

Proprietà Strutturali della Rete

Funzioni: detect_communities(), create_community_similarity_matrix()

Collegamento teorico: Conferma empiricamente le proprietà “small-world” identificate dagli autori:

Weak industrial homophily nelle reti HCF
Mobilità cross-industriale estesa che trascende le classificazioni SIC tradizionali
Necessità di metriche basate su network per catturare pattern globali di competizione

Modellazione Predittiva Multi-Dimensionale

Architettura dei Feature Sets

Funzione: evaluate_feature_sets()

Collegamento teorico: Implementa la strategia di validazione incrementale degli autori attraverso quattro categorie di variabili:

Economic Features: Caratteristiche finanziarie e dimensionali delle aziende
Product Market Features: Similarità basata su codici SIC
Labor Market Features: Metriche di sovrapposizione delle competenze
Network Features: Similarità strutturali nelle reti HCF

Machine Learning Pipeline

Funzioni: train_and_evaluate_rf(), prepare_prediction_data()

Collegamento teorico: Replica l'approccio di machine learning degli autori:

Random Forest con 500 alberi per gestire non-linearità e interazioni
Validazione temporale (training: 2000-2012, test: 2013-2015)
Metriche binarie di competizione (δ=1: tutti i competitor, δ=2: competitor forti)
Valutazione attraverso AUC e identificazione di nuovi competitor

Framework di Analisi Competitiva 2-D

Funzione: plot_2d_competition()

Collegamento teorico: Operazionalizza il modello bidimensionale degli autori che classifica i competitor in quattro categorie:

Direct Competitors: Alta sovrapposizione sia nel prodotto che nel lavoro
Indirect Competitors: Alta sovrapposizione nel prodotto, bassa nel lavoro
Potential Competitors: Bassa sovrapposizione nel prodotto, alta nel lavoro
Weak Competitors: Bassa sovrapposizione in entrambe le dimensioni

Validazione dei Risultati Metodologici

Lo script conferma i principali findings empirici del paper originale:

Superiorità predittiva delle metriche di network: Le variabili basate su HCF network mostrano utilità predittiva superiore, migliorando l'AUC del 18-34%
Complementarità delle dimensioni competitive: L'integrazione di product market e labor market metrics fornisce una visione più completa della competizione
Robustezza cross-industriale: Il framework mantiene efficacia predittiva attraverso diversi settori industriali

Implicazioni Teoriche e Metodologiche

Lo script dimostra computazionalmente come:

I confini tradizionali dell'industria siano inadeguati per catturare la competizione per il capitale umano
Le reti di mobilità del personale rivelino dimensioni competitive nascoste non catturate dalle classificazioni SIC
L'integrazione di conoscenze esplicite e tacite attraverso skill-based metrics e network analysis fornisca una rappresentazione più accurata delle capabilities aziendali
Il machine learning applicato a dati di network possa identificare pattern competitivi non evidenti attraverso approcci tradizionali

Struttura Computazionale

Lo script è organizzato in cinque moduli principali:

Data Generation: Simulazione di ecosistemi aziendali realistici
Metrics Construction: Calcolo delle metriche di sovrapposizione multi-dimensionali
Network Analysis: Costruzione e analisi delle reti HCF
Predictive Modeling: Implementazione del pipeline di machine learning
Results Visualization: Rappresentazione grafica dei risultati e validazione empirica

Questa architettura modulare consente la replicazione sistematica della metodologia originale.

Giampaolo Montaletti

Orcid LinkedIn montaletti.com