Çalışmada, küresel gelir eşitsizliği üzerinde etkili olan faktörler yüksek boyutlu veriler ile modern makine öğrenmesi, açıklanabilir yapay zeka ve nedensel analiz tekniklerini entegre eden yenilikçi bir metodoloji ile ortaya konmaktadır. Dünya Bankası veri tabanından elde edilen son 15 yıllık döneme ait, 165 ülke ve 1515 bağımsız değişken içeren kapsamlı veri seti kullanılmıştır. Öncelikle veri temizleme, değişken seçimi ve boyut indirgeme adımları uygulanmış; ardından XGBoost, LightGBM ve CatBoost algoritmaları hiperparametre optimizasyonu ile ayrı ayrı eğitilerek, topluluk öğrenmesi yöntemlerinden yığınlama yöntemiyle birleştirilmiştir. Açıklanabilir yapay zekâ tekniklerinden SHAP analizi, topluluk öğrenmesi modelinin tahmin performansına en fazla katkı sağlayan değişkenleri belirlemek için kullanılmıştır. Bu değişkenlerin Gini katsayısı üzerindeki etkileri ise nedensel orman yöntemiyle test edilmiştir. Bulgular, en yüksek gelir grubunun artmasının payının Gini katsayısı artırdığını, en düşük gelir grubunun payının ise azalttığını göstermektedir. Ayrıca gelirde dördüncü %20’lik kesimin payının da anlamlı pozitif etkisi tespit edilmiştir. Çalışmanın ana amaçlarından biri, geliştirilen metodolojinin hem literatürde bilinen ilişkileri doğrulaması hem de yeni ilişkileri keşfetmesi açısından değerli olduğunu göstermektir. Elde edilen sonuçlar, gelir eşitsizliği literatüründe bilinen ilişkilerin doğrulanmasının yanı sıra, orta gelir gruplarının da dikkate alınması gerektiğini göstermektedir. Bu durum, yöntemin yalnızca doğrulayıcı değil, aynı zamanda keşfedici bir yapıya sahip olduğunu ortaya koymaktadır. Elde edilen bulgular, geliştirilen metodolojinin gelir eşitsizliği dışında başka alanlarda da uygulanabilir ve genellenebilir olduğunu ispatlamaktadır. Dolayısıyla çalışma, hem teorik katkı hem de politika tasarımı açısından güçlü bir işlevsellik sunmaktadır.
In this study, the factors affecting global income inequality are revealed with an innovative methodology that integrates high-dimensional data with modern machine learning, explainable artificial intelligence and causal analysis techniques. A comprehensive dataset of 165 countries and 1515 independent variables for the last 15 years obtained from the World Bank database is used. Firstly, data cleaning, variable selection and dimension reduction steps are applied; then XGBoost, LightGBM and CatBoost algorithms are trained separately with hyperparameter optimisation and combined with the stacking method from ensemble learning methods. SHAP analysis, one of the explainable artificial intelligence techniques, was used to identify the variables that contribute the most to the prediction performance of the ensemble learning model. The effects of these variables on the Gini coefficient were tested with the causal forest method. The findings show that the increase in the share of the highest income group increases the Gini coefficient, while the share of the lowest income group decreases it. In addition, a significant positive effect of the share of the fourth 20 per cent in income was also found. One of the main objectives of the study is to show that the methodology developed is valuable in terms of both confirming the relationships known in the literature and discovering new relationships. The results obtained show that middle income groups should also be taken into account in addition to confirming the known relationships in the income inequality literature. This situation reveals that the method has not only a confirmatory but also an exploratory structure. The findings prove that the developed methodology is applicable and generalisable in areas other than income inequality. Therefore, the study offers a strong functionality in terms of both theoretical contribution and policy design.
Structured Abstract:
Global income inequality is one of the defining socio-economic challenges of the twenty-first century. Although traditionally studied through macroeconomic indicators such as growth or education, the increasing availability of high-dimensional international datasets necessitates more advanced analytical approaches. This study poses a central question: Which socioeconomic, demographic, technological, and environmental factors significantly influence income inequality, as measured by the Gini coefficient, and how can these influences be validated beyond prediction to establish true causal relationships? The purpose is twofold. First, the study aims to design a hybrid methodology that integrates ensemble learning, explainable artificial intelligence (XAI), and causal inference. Second, it seeks to demonstrate that this methodology not only confirms relationships long documented in the inequality literature but also uncovers new, previously underexplored dynamics. In doing so, the research highlights the value of modern computational approaches in enhancing both the explanatory and predictive power of inequality studies.
The determinants of inequality have been studied extensively using econometric models such as multiple regression, panel analysis, and cointegration. These approaches link inequality to variables like education, fiscal policy, globalization, technological change, and financial development. Yet, their reliance on linearity and strong statistical assumptions restricts their ability to capture complex interdependencies. Endogeneity bias and omitted variable problems often distort results. By contrast, machine learning—particularly ensemble models—can accommodate nonlinearities and high-dimensional data, while XAI tools such as SHAP values provide interpretable estimates of feature contributions. However, variable importance from ML methods is not equivalent to causal influence. Without causal inference, policy implications remain speculative. This study contributes to bridging the gap by showing how causal forests can test whether variables identified by ML models truly exert causal effects. Thus, the framework is both confirmatory—validating what is already known—and exploratory, identifying new determinants that traditional methods may overlook.
The dataset originates from the World Bank’s World Development Indicators, covering 165 countries from 2010 to 2024. It contains 1,067 observations and 1,515 independent variables, spanning economic, social, demographic, technological, and environmental categories. The Gini coefficient is used as the dependent variable. Data preprocessing included cleaning, handling missing values with KNN imputation, scaling, and one-hot encoding. Variables with excessive missingness, low variance, or multicollinearity above 0.95 were removed. Recursive Feature Elimination with Cross-Validation was applied to reduce dimensionality. Modeling followed a stacking ensemble strategy: XGBoost, LightGBM, and CatBoost acted as base learners, while Random Forest served as the meta-learner due to its robustness and ability to handle nonlinear interactions. Hyperparameters were tuned via grid search. Model accuracy was assessed using RMSE, MAE, and R². The ensemble achieved an R² of 0.994 on test data, showing exceptionally high predictive performance. For interpretation, SHAP values quantified the marginal effect of each feature on predictions. Finally, causal forests estimated the Average Treatment Effect (ATE) for the most influential features, distinguishing true causal drivers of inequality from mere correlates.
The results show that the income share of the top 10% is the most important factor, raising the Gini coefficient by 6.42 units for every unit increase. The bottom 10% has the opposite effect: its increased share reduces inequality by 1.49 units. A novel and significant result is the effect of the fourth quintile (40–60% of the population), which raises the Gini by 1.74 units per increase. This challenges the prevailing assumption that only the extremes of the distribution matter. It suggests that middle-income groups, too, play an active role in shaping inequality outcomes. These results show that the methodology has two benefits: it confirms well-known results and finds new patterns. SHAP analysis emphasized several features as highly influential, but causal forest testing revealed that not all carried causal significance. This demonstrates that XAI alone, while useful for interpretation, cannot substitute for causal inference in policymaking. The combination of both provides a richer and more reliable understanding of inequality determinants. Compared to traditional econometric models, the hybrid framework reduces bias, handles complexity, and captures nonlinear effects, offering both greater accuracy and interpretability.
This study shows that integrating ensemble learning, XAI, and causal inference provides a powerful framework for analyzing global income inequality. The framework’s main contribution is its capacity to confirm existing knowledge while also revealing hidden determinants, proving its utility in both confirmatory and exploratory research. The identification of middle-income groups as significant drivers emphasizes the need to broaden policy debates that often focus only on the top and bottom segments. The methodology’s adaptability extends beyond inequality research. It is applicable to domains such as health disparities, educational inequality, environmental challenges, and financial inclusion, where large datasets and complex interactions prevail. Its generalizability underscores both scientific and policy relevance. Policy recommendations include: prioritizing measures to raise the income share of the poorest decile; closely monitoring the excessive gains of the top decile; and incorporating the middle strata into equity-oriented policy frameworks. For researchers, the study highlights the importance of pairing predictive ML tools with causal inference techniques to avoid spurious findings. In conclusion, the study contributes methodologically by integrating ensemble ML, XAI, and causal forests into a unified pipeline and empirically by producing novel insights into the determinants of inequality. This dual contribution enhances the reliability, interpretability, and global transferability of results, ensuring that findings are both scientifically rigorous and practically relevant for addressing inequality.
Keywords: Income Inequality, Gini Coefficient, Ensemble Learning, Explainable Artificial Intelligence, SHAP, Causal Forest..
Yapılandırılmış Özet:
Küresel gelir eşitsizliği, yirmi birinci yüzyılın belirleyici sosyo-ekonomik zorluklarından biridir. Geleneksel olarak büyüme veya eğitim gibi makroekonomik göstergeler aracılığıyla incelenmesine rağmen, yüksek boyutlu uluslararası veri setlerinin artan kullanılabilirliği, daha gelişmiş analitik yaklaşımları gerektirmektedir. Bu çalışma, temel bir soru ortaya koymaktadır: Gini katsayısı ile ölçülen gelir eşitsizliğini önemli ölçüde etkileyen sosyo-ekonomik, demografik, teknolojik ve çevresel faktörler nelerdir ve bu etkiler, gerçek nedensel ilişkileri kurmak için tahminlerin ötesinde nasıl doğrulanabilir? Çalışmanın iki amacı vardır. İlk olarak, çalışma, toplu öğrenme, açıklanabilir yapay zeka (XAI) ve nedensel çıkarımları entegre eden hibrit bir metodoloji tasarlamayı amaçlamaktadır. İkinci olarak, bu metodolojinin eşitsizlik literatüründe uzun süredir belgelenen ilişkileri doğrulamakla kalmayıp, daha önce yeterince araştırılmamış yeni dinamikleri de ortaya çıkardığını göstermeyi amaçlamaktadır. Böylece araştırma, eşitsizlik çalışmalarının hem açıklayıcı hem de öngörücü gücünü artırmada modern hesaplamalı yaklaşımların değerini vurgulamaktadır.
Eşitsizliğin belirleyicileri, çoklu regresyon, panel analizi gibi ekonometrik modeller kullanılarak kapsamlı bir şekilde literatürde incelenmiştir. Bu yaklaşımlar, eşitsizliği eğitim, maliye politikası, küreselleşme, teknolojik değişim ve finansal gelişme gibi değişkenlerle ilişkilendirmektedir. Ancak, doğrusal yapıya ve güçlü istatistiksel varsayımlara dayanmaları, karmaşık karşılıklı bağımlılıkları yakalama yeteneklerini sınırlamaktadır. Endojenlik önyargısı ve ihmal edilen değişken sorunları genellikle sonuçları çarpıtmaktadır. Buna karşılık, makine öğrenimi —özellikle de toplu modeller— doğrusal olmayan ve yüksek boyutlu verileri barındırabilirken, SHAP değerleri gibi XAI araçları, özellik katkılarının yorumlanabilir tahminlerini sunmaktadır. Bununla birlikte, makine öğrenimi yöntemlerinden elde edilen değişken önemi, nedensel etkiyle eşdeğer değildir. Nedensel çıkarım olmadan, politika çıkarımları spekülatif kalır. Bu çalışma, nedensel ormanların makine öğrenimi modelleri tarafından belirlenen değişkenlerin gerçekten nedensel etkiler yaratıp yaratmadığını nasıl test edebileceğini göstererek bu boşluğu doldurmaya katkıda bulunur. Böylece, çerçeve hem doğrulayıcıdır, hem de keşifseldir. Geleneksel yöntemlerin gözden kaçırabileceği yeni belirleyicileri tespit eder.
Veri seti, 2010'dan 2024'e kadar 165 ülkeyi kapsayan Dünya Bankası'nın Dünya Kalkınma Göstergelerinden alınmıştır. Ekonomik, sosyal, demografik, teknolojik ve çevresel kategorileri kapsayan 1.067 gözlem ve 1.515 bağımsız değişken içermektedir. Bağımlı değişken olarak Gini katsayısı kullanılmıştır. Veri ön işleme, temizleme, KNN imputasyonu ile eksik değerlerin işlenmesi, ölçeklendirme ve one-hot kodlamayı içermektedir. Aşırı eksiklik, düşük varyans veya 0,95'in üzerinde çoklu doğrusallık içeren değişkenler kaldırılmıştır. Boyutsallığı azaltmak için Çapraz Doğrulama ile Yinelemeli Özellik Eliminasyonu uygulanmıştır. Modelleme, yığınlama topluluğu stratejisini izlemiştir: XGBoost, LightGBM ve CatBoost temel öğreniciler olarak görev yaparken, Random Forest sağlamlığı ve doğrusal olmayan etkileşimleri işleme yeteneği nedeniyle meta-öğrenici olarak hizmet etmiştir. Hiperparametreler ızgara araması yoluyla ayarlanmıştır. Model doğruluğu RMSE, MAE ve R² kullanılarak değerlendirilmiştir. Topluluk öğrenmesi test verilerinde 0,994'lük bir R² elde ederek olağanüstü yüksek bir tahmin performansı sergilemiştir. Yorumlama amacıyla, SHAP değerleri her bir özelliğin tahminler üzerindeki marjinal etkisini nicel olarak değerlendirme imkanı sunmuştur. Son olarak, nedensel ormanlar en etkili özellikler için Ortalama Tedavi Etkisini (ATE) tahmin ederek, eşitsizliğin gerçek nedensel etkenlerini salt korelasyonlardan ayırmıştır.
Bulgular, en üst %10’luk dilimin gelir payının en güçlü belirleyici faktör olduğunu ve bu payın her bir birimlik artışının Gini katsayısını 6,42 birim artırdığını göstermektedir. En alt %10’luk dilim ise tam tersi bir etkiye sahiptir: bu dilimin payındaki artış, eşitsizliği 1,49 birim azaltmaktadır. Yeni ve önemli bir sonuç, dördüncü beşli grubun (nüfusun %40–60'ı) etkisidir. Bu grup, her artışta Gini katsayısını 1,74 birim artırmaktadır. Bu durum, dağılımın yalnızca uç noktalarının önemli olduğu yönündeki yaygın varsayımı sorgulamaktadır. Bu, orta gelir gruplarının da eşitsizlik sonuçlarının şekillenmesinde aktif bir rol oynadığını göstermektedir. Bu sonuçlar, metodolojinin ikili değerini ortaya koymaktadır. Hem yerleşik bulguları doğrulamakta hem de yeni dinamikleri tespit etmektedir. SHAP analizi, birkaç özelliği oldukça etkili olarak vurgulamıştır. Ancak nedensel orman testi, bunların hepsinin nedensel öneme sahip olmadığını ortaya koymuştur. Bu, XAI'nin tek başına yorumlama açısından yararlı olmasına rağmen, politika yapımında nedensel çıkarımın yerini alamayacağını göstermektedir. Her ikisinin birleşimi, eşitsizlik belirleyicileri hakkında daha zengin ve daha güvenilir bir anlayış sağlar. Geleneksel ekonometrik modellere kıyasla, hibrit çerçeve önyargıyı azaltır, karmaşıklığı yönetir ve doğrusal olmayan etkileri yakalar, böylece hem daha fazla doğruluk hem de yorumlanabilirlik sunar.
Bu çalışma, toplu öğrenme, XAI ve nedensel çıkarımın entegre edilmesinin küresel gelir eşitsizliğini analiz etmek için güçlü bir çerçeve sağladığını göstermektedir. Çerçevenin temel katkısı, mevcut bilgileri doğrulama ve aynı zamanda gizli belirleyicileri ortaya çıkarma kapasitesidir. Bu da hem doğrulayıcı hem de keşifsel araştırmalarda yararını kanıtlamaktadır. Orta gelir gruplarının önemli itici güçler olarak tanımlanması, genellikle sadece en üst ve en alt kesimlere odaklanan politika tartışmalarının genişletilmesi gerektiğini vurgulamaktadır. Metodolojinin uyarlanabilirliği, eşitsizlik araştırmalarının ötesine uzanmaktadır. Büyük veri kümelerinin ve karmaşık etkileşimlerin hakim olduğu sağlık eşitsizlikleri, eğitim eşitsizliği, çevresel zorluklar ve finansal kapsayıcılık gibi alanlara uygulanabilir. Genelleştirilebilirliği, hem bilimsel hem de politika açısından önemini vurgulamaktadır. Politika önerileri arasında şunlar yer almaktadır: en yoksul ondalık dilimin gelir payını artırmaya yönelik önlemlere öncelik vermek, en üst ondalık dilimin aşırı kazançlarını yakından izlemek ve orta tabakayı eşitlik odaklı politika çerçevelerine dahil etmek. Araştırmacılar için bu çalışma, hatalı bulguları önlemek amacıyla tahmine dayalı makine öğrenimi araçlarını nedensel çıkarım teknikleriyle birleştirmenin önemini vurgulamaktadır. Sonuç olarak, bu çalışma, ensemble makine öğrenimi, XAI ve nedensel ormanları tek bir süreçte birleştirerek metodolojik olarak ve eşitsizliğin belirleyicileri hakkında yeni içgörüler üreterek ampirik olarak katkı sağlamaktadır. Bu ikili katkı, sonuçların güvenilirliğini, yorumlanabilirliğini ve küresel aktarılabilirliğini artırarak, bulguların hem bilimsel olarak titiz hem de eşitsizliği ele almak için pratik olarak ilgili olmasını sağlamaktadır.
Anahtar Kelimeler: Gelir Eşitsizliği, Gini Katsayısı, Topluluk Öğrenmesi, Açıklanabilir Yapay Zekâ, SHAP, Nedensel Orman,
ملخص منظم
يُعد التفاوت في الدخل على الصعيد العالمي أحد التحديات الاجتماعية والاقتصادية البارزة في القرن الحادي والعشرين. ورغم أن دراسة هذا الموضوع كانت تتم تقليديًا من خلال مؤشرات اقتصادية كلية مثل النمو أو التعليم، فإن تزايد توافر قواعد البيانات الدولية عالية الأبعاد يستلزم اتباع نُهج تحليلية أكثر تقدمًا. تطرح هذه الدراسة سؤالًا محوريًا: ما هي العوامل الاجتماعية والاقتصادية والديموغرافية والتكنولوجية والبيئية التي تؤثر بشكل كبير على التفاوت في الدخل، وفقًا لقياس معامل جيني، وكيف يمكن التحقق من صحة هذه التأثيرات بما يتجاوز مجرد التنبؤ، من أجل إثبات وجود علاقات سببية حقيقية؟ والغرض من ذلك ذو شقين. أولاً، تهدف الدراسة إلى تصميم منهجية هجينة تدمج التعلم الجماعي والذكاء الاصطناعي القابل للتفسير (XAI) والاستدلال السببي. ثانياً، تسعى الدراسة إلى إثبات أن هذه المنهجية لا تؤكد فقط العلاقات التي تم توثيقها منذ فترة طويلة في الأدبيات المتعلقة بالتفاوت، بل تكشف أيضاً عن ديناميات جديدة لم يتم استكشافها بشكل كافٍ من قبل. وبذلك، تسلط الدراسة الضوء على قيمة المناهج الحسابية الحديثة في تعزيز القدرة التفسيرية والتنبؤية لدراسات التفاوت.
تمت دراسة محددات عدم المساواة على نطاق واسع باستخدام نماذج اقتصادية قياسية مثل الانحدار المتعدد، وتحليل الألواح، والتكامل المشترك. تربط هذه المناهج عدم المساواة بمتغيرات مثل التعليم، والسياسة المالية، والعولمة، والتغير التكنولوجي، والتنمية المالية. ومع ذلك، فإن اعتمادها على الخطية والافتراضات الإحصائية القوية يحد من قدرتها على التقاط الترابطات المعقدة. غالبًا ما يؤدي التحيز الداخلي ومشاكل المتغيرات المحذوفة إلى تشويه النتائج. على النقيض من ذلك، يمكن للتعلم الآلي — ولا سيما النماذج المجمعة — استيعاب عدم الخطية والبيانات عالية الأبعاد، في حين توفر أدوات XAI مثل قيم SHAP تقديرات قابلة للتفسير لمساهمات السمات. ومع ذلك، فإن أهمية المتغيرات المستمدة من أساليب التعلم الآلي لا تعادل التأثير السببي. وبدون الاستدلال السببي، تظل الآثار المترتبة على السياسات مجرد تكهنات. تساهم هذه الدراسة في سد هذه الفجوة من خلال إظهار كيف يمكن للغابات السببية اختبار ما إذا كانت المتغيرات التي حددتها نماذج التعلم الآلي تمارس بالفعل تأثيرات سببية. وبالتالي، فإن الإطار هو تأكيدي — حيث يثبت صحة ما هو معروف بالفعل — واستكشافي في الوقت نفسه، حيث يحدد العوامل المحددة الجديدة التي قد تغفلها الأساليب التقليدية.
تستمد مجموعة البيانات من مؤشرات التنمية العالمية للبنك الدولي، وتغطي 165 دولة من عام 2010 إلى عام 2024. وتحتوي على 1,067 ملاحظة و1,515 متغيرًا مستقلًا، تغطي الفئات الاقتصادية والاجتماعية والديموغرافية والتكنولوجية والبيئية. يُستخدم معامل جيني كمتغير تابع. تضمنت المعالجة المسبقة للبيانات التنظيف، ومعالجة القيم المفقودة باستخدام استكمال KNN، والتحجيم، والترميز أحادي التفعيل. تمت إزالة المتغيرات التي تحتوي على فقدان مفرط، أو تباين منخفض، أو تعدد خطية أعلى من 0.95. تم تطبيق إزالة السمات التكرارية مع التحقق المتبادل لتقليل الأبعاد. اتبعت عملية النمذجة استراتيجية تجميع التراص: حيث عملت XGBoost وLightGBM وCatBoost كمتعلمين أساسيين، بينما عملت Random Forest كمتعلم ميتا نظرًا لمتانتها وقدرتها على التعامل مع التفاعلات غير الخطية. تم ضبط المعلمات الفائقة عبر البحث الشبكي. تم تقييم دقة النموذج باستخدام RMSE وMAE وR². حقق التجميع قيمة R² تبلغ 0.994 على بيانات الاختبار، مما يدل على أداء تنبؤي مرتفع بشكل استثنائي. للتفسير، قامت قيم SHAP بتحديد الأثر الهامشي لكل سمة على التنبؤات. وأخيرًا، قدرت الغابات السببية متوسط تأثير المعالجة (ATE) للسمات الأكثر تأثيرًا، مميزةً العوامل السببية الحقيقية لعدم المساواة عن مجرد العوامل المرتبطة.
تُظهر النتائج أن حصة الدخل لأعلى 10٪ هي العامل الأهم، حيث ترفع معامل جيني بمقدار 6.42 وحدات لكل وحدة زيادة. أما الـ 10% الأدنى، فلهم تأثير معاكس: حيث تؤدي زيادة حصتهم إلى خفض عدم المساواة بمقدار 1.49 وحدة. ومن النتائج الجديدة والهامة تأثير الخمس الرابع (40–60% من السكان)، الذي يرفع معامل جيني بمقدار 1.74 وحدة لكل زيادة. وهذا يتحدى الافتراض السائد بأن طرفي التوزيع فقط هما المهمان. ويشير إلى أن الفئات ذات الدخل المتوسط تلعب أيضًا دورًا نشطًا في تشكيل نتائج عدم المساواة. تُظهر هذه النتائج أن المنهجية لها فائدتان: فهي تؤكد النتائج المعروفة وتكتشف أنماطًا جديدة. أكد تحليل SHAP على عدة سمات باعتبارها ذات تأثير كبير، لكن اختبار الغابة السببية كشف أن ليس كلها تحمل أهمية سببية. وهذا يوضح أن XAI وحده، رغم فائدته في التفسير، لا يمكن أن يحل محل الاستدلال السببي في صنع السياسات. ويوفر الجمع بين الاثنين فهمًا أكثر ثراءً وموثوقية لمحددات عدم المساواة. بالمقارنة مع النماذج الاقتصادية القياسية التقليدية، يقلل الإطار الهجين من التحيز، ويتعامل مع التعقيد، ويلتقط التأثيرات غير الخطية، مما يوفر دقة أكبر وقابلية أكبر للتفسير.
تُظهر هذه الدراسة أن دمج التعلم الجماعي وXAI والاستدلال السببي يوفر إطارًا قويًا لتحليل عدم المساواة في الدخل العالمي. وتتمثل المساهمة الرئيسية للإطار في قدرته على تأكيد المعرفة الحالية مع الكشف في الوقت نفسه عن المحددات الخفية، مما يثبت فائدته في كل من البحث التأكيدي والاستكشافي. إن تحديد الفئات ذات الدخل المتوسط كعوامل دافعة مهمة يؤكد على الحاجة إلى توسيع نطاق النقاشات السياسية التي غالبًا ما تركز فقط على الشرائح العليا والسفلى. تتجاوز قابلية المنهجية للتكيف نطاق أبحاث عدم المساواة. فهي قابلة للتطبيق في مجالات مثل التفاوتات الصحية، وعدم المساواة التعليمية، والتحديات البيئية، والشمول المالي، حيث تسود مجموعات البيانات الضخمة والتفاعلات المعقدة. وتؤكد قابليتها للتعميم على أهميتها العلمية والسياسية على حد سواء. تشمل التوصيات السياساتية: إعطاء الأولوية للتدابير الرامية إلى رفع حصة الدخل للشرق الأكثر فقراً؛ ومراقبة المكاسب المفرطة للشرق الأعلى عن كثب؛ وإدماج الطبقات المتوسطة في أطر السياسات الموجهة نحو الإنصاف. بالنسبة للباحثين، تسلط الدراسة الضوء على أهمية إقران أدوات التعلم الآلي التنبؤية بتقنيات الاستدلال السببي لتجنب النتائج الزائفة. في الختام، تساهم الدراسة من الناحية المنهجية من خلال دمج التعلم الآلي الجماعي، والذكاء الاصطناعي القابل للتفسير (XAI)، والغابات السببية في مسار موحد، ومن الناحية التجريبية من خلال تقديم رؤى جديدة حول محددات عدم المساواة. تعزز هذه المساهمة المزدوجة موثوقية النتائج وقابليتها للتفسير وقابليتها للتطبيق عالميًا، مما يضمن أن تكون النتائج دقيقة علميًا وذات صلة عملية لمعالجة عدم المساواة.
الكلمات المفتاحية: عدم المساواة في الدخل، معامل جيني، التعلم الجماعي، الذكاء الاصطناعي القابل للتفسير، SHAP، الغابة السببية
Résumé Structuré:
Les inégalités de revenus à l'échelle mondiale constituent l'un des principaux défis socio-économiques du XXIᵉ siècle. Bien qu'elles aient traditionnellement été étudiées à l'aide d'indicateurs macroéconomiques tels que la croissance ou l'éducation, la disponibilité croissante d'ensembles de données internationales à haute dimension rend nécessaire le recours à des approches analytiques plus avancées. Cette étude pose une question centrale : quels facteurs socio-économiques, démographiques, technologiques et environnementaux influencent de manière significative les inégalités de revenus, telles que mesurées par le coefficient de Gini, et comment ces influences peuvent-elles être validées au-delà de la simple prédiction afin d'établir de véritables relations causales ? L'objectif est double. Premièrement, l'étude vise à concevoir une méthodologie hybride intégrant l'apprentissage par ensembles, l'intelligence artificielle explicable (XAI) et l'inférence causale. Deuxièmement, elle cherche à démontrer que cette méthodologie non seulement confirme les relations longtemps documentées dans la littérature sur les inégalités, mais révèle également de nouvelles dynamiques jusqu'alors peu explorées. Ce faisant, la recherche met en évidence la valeur des approches computationnelles modernes pour améliorer à la fois le pouvoir explicatif et prédictif des études sur les inégalités.
Les déterminants de l’inégalité ont été largement étudiés à l’aide de modèles économétriques tels que la régression multiple, l’analyse de panel et la cointégration. Ces approches relient l’inégalité à des variables telles que l’éducation, la politique budgétaire, la mondialisation, les changements technologiques et le développement financier. Cependant, leur recours à la linéarité et à des hypothèses statistiques fortes limite leur capacité à saisir des interdépendances complexes. Les biais d’endogénéité et les problèmes de variables omises faussent souvent les résultats. En revanche, l’apprentissage automatique — en particulier les modèles d’ensemble — peut prendre en compte les non-linéarités et les données de haute dimension, tandis que les outils XAI tels que les valeurs SHAP fournissent des estimations interprétables des contributions des caractéristiques. Cependant, l’importance des variables telle qu’elle ressort des méthodes d’apprentissage automatique n’est pas équivalente à une influence causale. Sans inférence causale, les implications politiques restent spéculatives. Cette étude contribue à combler ce fossé en montrant comment les forêts causales peuvent tester si les variables identifiées par les modèles d’apprentissage automatique exercent véritablement des effets causaux. Ainsi, le cadre est à la fois confirmatoire — validant ce qui est déjà connu — et exploratoire, identifiant de nouveaux déterminants que les méthodes traditionnelles pourraient négliger.
L'ensemble de données provient des Indicateurs du développement dans le monde de la Banque mondiale, couvrant 165 pays de 2010 à 2024. Il contient 1 067 observations et 1 515 variables indépendantes, couvrant les catégories économiques, sociales, démographiques, technologiques et environnementales. Le coefficient de Gini est utilisé comme variable dépendante. Le prétraitement des données comprenait le nettoyage, le traitement des valeurs manquantes par imputation KNN, la mise à l'échelle et l'encodage one-hot. Les variables présentant un nombre excessif de valeurs manquantes, une faible variance ou une multicolinéarité supérieure à 0,95 ont été supprimées. L'élimination récursive des caractéristiques avec validation croisée a été appliquée pour réduire la dimensionnalité. La modélisation a suivi une stratégie d'ensemble par empilement : XGBoost, LightGBM et CatBoost ont servi d'apprenants de base, tandis que Random Forest a joué le rôle de méta-apprenant en raison de sa robustesse et de sa capacité à gérer les interactions non linéaires. Les hyperparamètres ont été ajustés par recherche par grille. La précision du modèle a été évaluée à l'aide des mesures RMSE, MAE et R². L'ensemble a atteint un R² de 0,994 sur les données de test, démontrant une performance prédictive exceptionnellement élevée. Pour l'interprétation, les valeurs SHAP ont quantifié l'effet marginal de chaque caractéristique sur les prédictions. Enfin, les forêts causales ont estimé l'effet moyen du traitement (ATE) pour les caractéristiques les plus influentes, distinguant les véritables facteurs causaux de l'inégalité des simples corrélats.
Les résultats montrent que la part de revenu des 10 % les plus riches est le facteur le plus important, augmentant le coefficient de Gini de 6,42 unités pour chaque unité d'augmentation. Les 10 % les plus pauvres ont l'effet inverse : l'augmentation de leur part réduit l'inégalité de 1,49 unité. Un résultat nouveau et significatif est l'effet du quatrième quintile (40 à 60 % de la population), qui augmente le coefficient de Gini de 1,74 unité par augmentation. Cela remet en question l'hypothèse dominante selon laquelle seuls les extrêmes de la distribution importent. Cela suggère que les groupes à revenus moyens jouent eux aussi un rôle actif dans la formation des résultats en matière d'inégalité. Ces résultats montrent que la méthodologie présente deux avantages : elle confirme des résultats bien connus et met en évidence de nouveaux schémas. L’analyse SHAP a mis en évidence plusieurs caractéristiques comme étant très influentes, mais les tests de la forêt causale ont révélé que toutes n’avaient pas une signification causale. Cela démontre que la XAI seule, bien qu’utile pour l’interprétation, ne peut se substituer à l’inférence causale dans l’élaboration des politiques. La combinaison des deux offre une compréhension plus riche et plus fiable des déterminants de l’inégalité. Par rapport aux modèles économétriques traditionnels, le cadre hybride réduit les biais, gère la complexité et rend compte des effets non linéaires, offrant à la fois une plus grande précision et une meilleure interprétabilité.
Cette étude montre que l'intégration de l'apprentissage par ensembles, de la XAI et de l'inférence causale fournit un cadre puissant pour analyser les inégalités de revenus à l'échelle mondiale. La principale contribution de ce cadre réside dans sa capacité à confirmer les connaissances existantes tout en révélant des déterminants cachés, prouvant ainsi son utilité tant dans la recherche confirmatoire qu'exploratoire. L'identification des groupes à revenus intermédiaires comme facteurs déterminants majeurs souligne la nécessité d'élargir les débats politiques qui se concentrent souvent uniquement sur les segments supérieurs et inférieurs. L'adaptabilité de la méthodologie dépasse le cadre de la recherche sur les inégalités. Elle est applicable à des domaines tels que les disparités en matière de santé, les inégalités éducatives, les défis environnementaux et l'inclusion financière, où prédominent de grands ensembles de données et des interactions complexes. Sa généralisation souligne sa pertinence sur le plan tant scientifique que politique. Les recommandations politiques comprennent : donner la priorité aux mesures visant à augmenter la part de revenu du décile le plus pauvre ; surveiller de près les gains excessifs du décile supérieur ; et intégrer les couches intermédiaires dans des cadres politiques axés sur l'équité. Pour les chercheurs, l'étude souligne l'importance de coupler les outils prédictifs d'apprentissage automatique avec des techniques d'inférence causale afin d'éviter des résultats fallacieux. En conclusion, l'étude apporte une contribution méthodologique en intégrant l'apprentissage automatique par ensembles, l'IA explicable (XAI) et les forêts causales dans un pipeline unifié, et une contribution empirique en fournissant des perspectives novatrices sur les déterminants de l'inégalité. Cette double contribution renforce la fiabilité, l'interprétabilité et la transférabilité globale des résultats, garantissant que les conclusions sont à la fois scientifiquement rigoureuses et pertinentes sur le plan pratique pour lutter contre les inégalités.
Mots-clés: inégalité des revenus, coefficient de Gini, apprentissage par ensembles, intelligence artificielle explicable, SHAP, forêts causales.
Resumen Estructurado:
La desigualdad de ingresos a nivel mundial es uno de los principales retos socioeconómicos del siglo XXI. Aunque tradicionalmente se ha estudiado mediante indicadores macroeconómicos como el crecimiento o la educación, la creciente disponibilidad de conjuntos de datos internacionales de alta dimensión exige enfoques analíticos más avanzados. Este estudio plantea una pregunta fundamental: ¿Qué factores sociales, económicos, demográficos, tecnológicos y ambientales afectan la desigualdad de ingresos, que se mide con el coeficiente de Gini, y cómo se pueden comprobar estas influencias para demostrar relaciones causales, además de solo predecir? El objetivo es doble. Primero, el estudio busca crear un método híbrido que combine el aprendizaje conjunto, la inteligencia artificial explicable (XAI) y la inferencia causal. En segundo lugar, intenta mostrar que esta metodología no solo verifica las relaciones que ya se conocen en los estudios sobre la desigualdad, sino que también revela nuevas dinámicas que aún no se han explorado mucho. Al hacerlo, la investigación destaca el valor de los enfoques computacionales modernos para mejorar tanto el poder explicativo como el predictivo de los estudios sobre la desigualdad.
Los determinantes de la desigualdad se han estudiado ampliamente utilizando modelos econométricos como la regresión múltiple, el análisis de paneles y la cointegración. Estos enfoques vinculan la desigualdad con variables como la educación, la política fiscal, la globalización, el cambio tecnológico y el desarrollo financiero. Sin embargo, su dependencia de la linealidad y de supuestos estadísticos sólidos limita su capacidad para captar interdependencias complejas. El sesgo de endogeneidad y los problemas de variables omitidas a menudo distorsionan los resultados. En cambio, el aprendizaje automático —especialmente los modelos de conjunto— puede manejar datos no lineales y de alta dimensión. Además, las herramientas de XAI, como los valores SHAP, ofrecen estimaciones claras sobre cómo contribuyen las características. Sin embargo, la importancia de las variables según los métodos de aprendizaje automático no es equivalente a la influencia causal. Sin inferencia causal, las implicaciones políticas siguen siendo especulativas. Este estudio contribuye a salvar esa brecha al mostrar cómo los bosques causales pueden comprobar si las variables identificadas por los modelos de aprendizaje automático ejercen realmente efectos causales. Por lo tanto, el marco es tanto confirmatorio —validando lo que ya se sabe— como exploratorio, identificando nuevos determinantes que los métodos tradicionales pueden pasar por alto.
El conjunto de datos procede de los Indicadores del Desarrollo Mundial del Banco Mundial, y abarca 165 países desde 2010 hasta 2024. Contiene 1067 observaciones y 1515 variables independientes, que abarcan categorías económicas, sociales, demográficas, tecnológicas y medioambientales. Se utiliza el coeficiente de Gini como variable dependiente. El preprocesamiento de los datos incluyó la limpieza, el tratamiento de los valores perdidos mediante imputación KNN, el escalado y la codificación one-hot. Se eliminaron las variables con un exceso de valores perdidos, baja varianza o multicolinealidad superior a 0,95. Se aplicó la eliminación recursiva de características con validación cruzada para reducir la dimensionalidad. El modelado siguió una estrategia de conjunto apilado: XGBoost, LightGBM y CatBoost actuaron como aprendices base, mientras que Random Forest sirvió como metaaprendiz debido a su robustez y capacidad para manejar interacciones no lineales. Los hiperparámetros se ajustaron mediante búsqueda por cuadrícula. La precisión del modelo se evaluó utilizando RMSE, MAE y R². El conjunto alcanzó un R² de 0,994 en los datos de prueba, lo que demuestra un rendimiento predictivo alto. Para la interpretación, los valores SHAP cuantificaron el efecto marginal de cada característica en las predicciones. Finalmente, los bosques causales calcularon el efecto promedio del tratamiento (ATE) para las características más importantes, separando los verdaderos factores que causan la desigualdad de las simples relaciones.
Los resultados muestran que la participación en los ingresos del 10 % superior es el factor más relevante, ya que eleva el coeficiente de Gini en 6,42 unidades por cada unidad de aumento. El 10 % más pobre tiene el efecto contrario: el aumento de su participación reduce la desigualdad en 1,49 unidades. Un resultado novedoso y significativo es el efecto del cuarto quintil (40-60 % de la población), que eleva el coeficiente de Gini en 1,74 unidades por cada aumento. Esto cuestiona la suposición predominante de que solo importan los extremos de la distribución. Sugiere que los grupos de ingresos medios también desempeñan un papel activo en la configuración de los resultados de la desigualdad. Estos resultados muestran que la metodología tiene dos ventajas: confirma resultados bien conocidos y descubre nuevos patrones. El análisis SHAP destacó varias características como altamente influyentes, pero las pruebas de bosque causal revelaron que no todas tenían significación causal. Esto demuestra que la XAI por sí sola, aunque útil para la interpretación, no puede sustituir a la inferencia causal en la formulación de políticas. La combinación de ambas proporciona una comprensión más rica y fiable de los determinantes de la desigualdad. En comparación con los modelos econométricos tradicionales, el marco híbrido disminuye el sesgo, maneja la complejidad y captura los efectos no lineales, brindando más precisión y facilidad de interpretación.
Este estudio muestra que la integración del aprendizaje por conjuntos, la XAI y la inferencia causal proporciona un potente marco para analizar la desigualdad de ingresos a nivel mundial. La principal aportación del marco es que puede confirmar lo que ya se sabe y al mismo tiempo descubrir factores que no son evidentes. Esto muestra que es útil tanto para la investigación que busca confirmar hipótesis como para la que explora nuevas ideas. La identificación de los grupos de ingresos medios como factores impulsores significativos subraya la necesidad de ampliar los debates políticos, que a menudo se centran únicamente en los segmentos superior e inferior. La adaptabilidad de la metodología va más allá de la investigación sobre la desigualdad. Es aplicable a ámbitos como las disparidades en materia de salud, la desigualdad educativa, los retos medioambientales y la inclusión financiera, donde prevalecen los extensos conjuntos de datos y las interacciones complejas. Su generalizabilidad subraya su relevancia tanto científica como política. Las recomendaciones de política incluyen: dar prioridad a las medidas para aumentar la participación en los ingresos del decil más pobre; supervisar de cerca las ganancias excesivas del decil superior; e incorporar a los estratos medios en marcos de política orientados a la equidad. Para los investigadores, el estudio destaca la importancia de combinar herramientas predictivas de aprendizaje automático con técnicas de inferencia causal para evitar hallazgos espurios. En resumen, el estudio ayuda a la metodología al combinar el aprendizaje automático ensamblado, la IA explicable (XAI) y los bosques causales en un solo proceso. También aporta nuevos conocimientos sobre las causas de la desigualdad. Esta doble contribución mejora la fiabilidad, la interpretabilidad y la transferibilidad global de los resultados, garantizando que los hallazgos sean tanto científicamente rigurosos como prácticamente relevantes para abordar la desigualdad.
Palabras clave: Desigualdad de ingresos, coeficiente de Gini, aprendizaje ensamblado, inteligencia artificial explicable, SHAP, bosque causal.
结构化摘要:
全球收入不平等是二十一世纪最具代表性的社会经济挑战之一。尽管传统上主要通过经济增长或教育水平等宏观经济指标进行研究,但随着高维度国际数据集的日益丰富,亟需采用更先进的分析方法。本研究提出一个核心问题:哪些社会经济、人口、技术和环境因素对以基尼系数衡量的收入不平等具有显著影响?如何在预测之外验证这些影响,从而确立真正的因果关系?本研究旨在实现双重目标。首先,设计一种融合集成学习、可解释人工智能(XAI)和因果推断的混合方法论。其次,旨在证明该方法论不仅能验证不平等文献中长期记录的关系,还能揭示此前未被充分探索的新动态。通过此举,本研究突显了现代计算方法在增强不平等研究解释力和预测力方面的价值。
长期以来,研究者们广泛运用多元回归、面板分析和协整等计量经济学模型来探究不平等的决定因素。这些方法将不平等与教育、财政政策、全球化、技术变革及金融发展等变量联系起来。然而,这些方法对线性关系和强统计假设的依赖,限制了其捕捉复杂相互依赖关系的能力。内生性偏差和遗漏变量问题往往会扭曲研究结果。相比之下,机器学习——尤其是集成模型——能够处理非线性关系和高维数据,而SHAP值等可解释人工智能(XAI)工具则能提供特征贡献的可解释估计。然而,机器学习方法得出的变量重要性并不等同于因果影响。若缺乏因果推断,政策启示仍将停留在推测层面。本研究通过展示因果森林如何检验机器学习模型识别出的变量是否确实产生因果效应,有助于弥合这一差距。因此,该框架既具有验证性——即验证已知结论——又具有探索性,能够识别传统方法可能忽略的新决定因素。
数据集源自世界银行的《世界发展指标》,涵盖2010年至2024年间165个国家。该数据集包含1,067个观测值和1,515个自变量,涉及经济、社会、人口、技术和环境等类别。基尼系数被用作因变量。数据预处理包括数据清洗、使用KNN插补处理缺失值、标准化以及one-hot编码。缺失率过高、方差过低或多重共线性系数超过0.95的变量均被剔除。采用带交叉验证的递归特征消除法(RFE)进行降维。建模采用堆叠集成策略:XGBoost、LightGBM和CatBoost作为基础学习器,而随机森林因其鲁棒性及处理非线性交互的能力被选为元学习器。超参数通过网格搜索进行调优。模型准确性通过均方根误差(RMSE)、平均绝对误差(MAE)和决定系数(R²)进行评估。该集成模型在测试数据上实现了0.994的R²值,展现出极高的预测性能。在解释性分析中,SHAP值量化了每个特征对预测结果的边际效应。最后,通过因果森林对最具影响力的特征估算了平均处理效应(ATE),从而区分了不平等的真正因果驱动因素与单纯的相关变量。
结果表明,前10%人群的收入份额是最重要的因素,该份额每增加一个单位,基尼系数就会上升6.42个单位。底层10%人群则产生相反效应:其收入份额的增加会使不平等程度降低1.49个单位。一项新颖且重要的发现是第四五分位组(占人口的40%–60%)的影响,该组每增加一个单位,基尼系数便上升1.74个单位。这挑战了“仅分布两端才重要”的普遍假设,表明中等收入群体在塑造不平等结果方面也发挥着积极作用。这些结果表明,该方法论具有双重优势:既验证了已知结论,又发现了新的模式。SHAP分析强调了若干特征具有高度影响力,但因果森林检验揭示并非所有特征都具有因果显著性。这表明,XAI虽然有助于解释,但不能在政策制定中替代因果推断。两者的结合能对不平等的决定因素提供更丰富、更可靠的理解。与传统计量经济学模型相比,该混合框架能减少偏差、处理复杂性并捕捉非线性效应,从而兼具更高的准确性和可解释性。
本研究表明,整合集成学习、XAI和因果推断,为分析全球收入不平等提供了强大的框架。该框架的主要贡献在于既能验证现有知识,又能揭示隐藏的决定因素,证明了其在验证性研究和探索性研究中的实用性。将中等收入群体识别为重要驱动因素,强调了需要拓宽政策辩论的视野——这些辩论往往仅聚焦于顶层和底层群体。该方法论的适应性不仅限于不平等研究,还可应用于健康差异、教育不平等、环境挑战及金融包容性等领域,这些领域普遍存在海量数据和复杂的交互作用。其普适性凸显了其科学和政策层面的双重意义。政策建议包括:优先采取措施提高最贫困十分位群体的收入份额;密切监控最富裕十分位群体的过高收益;并将中等收入阶层纳入以公平为导向的政策框架。对于研究人员而言,本研究强调了将预测性机器学习工具与因果推断技术相结合的重要性,以避免得出虚假结论。综上所述,本研究在方法论上通过将集成机器学习、可解释人工智能(XAI)和因果森林整合为统一流程,并在实证层面通过揭示不平等的决定性因素提供了新颖见解,从而做出了贡献。这一双重贡献增强了结果的可靠性、可解释性和全球可迁移性,确保研究发现既具备科学严谨性,又对解决不平等问题具有实际意义。
关键词: 收入不平等,基尼系数,集成学习,可解释人工智能,SHAP,因果森林
Структурированное резюме:
Глобальное неравенство доходов является одной из определяющих социально- экономических проблем XXI века. Хотя традиционно эта проблема изучается с помощью макроэкономических показателей, таких как экономический рост или уровень образования, растущая доступность многомерных международных наборов данных требует применения более совершенных аналитических подходов. В данном исследовании ставится следующий центральный вопрос: какие социально- Экономические, демографические, технологические и экологические факторы оказывают существенное влияние на неравенство доходов, измеряемое коэффициентом Джини, и как можно подтвердить эти влияния не только на уровне прогнозирования, но и установить истинные причинно-следственные связи? Цель исследования двояка. Во-первых, оно направлено на разработку гибридной методологии, интегрирующей ансамблевое обучение, объяснимый искусственный интеллект (XAI) и причинно-следственную инференцию. Во-вторых, оно стремится продемонстрировать, что данная методология не только подтверждает взаимосвязи, давно задокументированные в литературе по неравенству, но и выявляет новые, ранее недостаточно исследованные динамики. Таким образом, исследование подчеркивает ценность современных вычислительных подходов в повышении как объяснительной, так и прогнозной силы исследований неравенства.
Детерминанты неравенства широко изучались с использованием эконометрических моделей, таких как множественная регрессия, панельный анализ и коинтеграция. Эти подходы связывают неравенство с такими переменными, как образование, фискальная политика, глобализация, технологические изменения и финансовое развитие. Однако их зависимость от линейности и сильных статистических допущений ограничивает их способность отражать сложные взаимозависимости. Эндогенный сдвиг и проблемы пропущенных переменных часто искажают результаты. Напротив, машинное обучение — в частности, ансамблевые модели — может учитывать нелинейности и высокоразмерные данные, в то время как инструменты XAI, такие как значения SHAP, предоставляют интерпретируемые оценки вклада признаков. Однако важность переменных, определяемая методами машинного обучения, не эквивалентна причинно-следственному влиянию. Без причинно-следственных выводов политические последствия остаются спекулятивными. Данное исследование способствует преодолению этого разрыва, показывая, как причинно-следственные леса могут проверять, действительно ли переменные, идентифицированные моделями машинного обучения, оказывают причинно-следственное воздействие. Таким образом, данная методология является как подтверждающей — проверяя то, что уже известно, — так и исследовательской, выявляя новые детерминанты, которые традиционные методы могут упускать из виду.
Набор данных взят из «Показателей мирового развития» Всемирного банка и охватывает 165 стран за период с 2010 по 2024 год. Он содержит 1 067 наблюдений и 1 515 независимых переменных. охватывающих экономические, социальные, демографические, технологические и экологические категории. В качестве зависимой переменной используется коэффициент Джини. Предварительная обработка данных включала очистку, обработку отсутствующих значений с помощью импутации KNN, масштабирование и однозначное кодирование. Переменные с чрезмерным количеством пропусков, низкой дисперсией или мультиколлинеарностью выше 0,95 были удалены. Для уменьшения размерности была применена рекурсивная элиминация признаков с перекрестной валидацией. Моделирование осуществлялось по стратегии ансамбля стекирования: XGBoost, LightGBM и CatBoost выступали в качестве базовых обучающих алгоритмов, а Random Forest — в качестве метаобучающего алгоритма благодаря своей устойчивости и способности обрабатывать нелинейные взаимодействия. Гиперпараметры настраивались с помощью поиска по сетке. Точность модели оценивалась с помощью RMSE, MAE и R². Ансамбль достиг R² равного 0,994 на тестовых данных, продемонстрировав исключительно высокую предсказательную способность. Для интерпретации значения SHAP количественно оценивали маргинальный эффект каждой характеристики на прогнозы. Наконец, причинно-следственные леса оценивали средний эффект лечения (ATE) для наиболее влиятельных характеристик, отличая истинные причинные факторы неравенства от простых коррелятов.
Результаты показывают, что доля дохода верхних 10% является наиболее важным фактором, повышая коэффициент Джини на 6,42 единицы при каждом увеличении на одну единицу. У нижних 10% наблюдается противоположный эффект: увеличение их доли снижает неравенство на 1,49 единицы. Новым и значимым результатом является влияние четвертого квинтиля (40–60% населения), которое повышает коэффициент Д жини на 1,74 единицы при каждом увеличении. Это ставит под сомнение распространенное предположение о том, что значение имеют только крайние значения распределения. Это свидетельствует о том, что группы со средним доходом также играют активную роль в формировании результатов неравенства. Эти результаты показывают, что методология имеет два преимущества: она подтверждает хорошо известные результаты и выявляет новые закономерности. Анализ SHAP выделил несколько факторов как имеющие большое влияние, но тестирование с помощью «каузального леса» показало, что не все из них обладают каузальной значимостью. Это демонстрирует, что XAI сама по себе, хотя и полезна для интерпретации, не может заменить каузальный вывод при разработке политики. Сочетание обоих подходов обеспечивает более полное и надежное понимание детерминант неравенства. По сравнению с традиционными эконометрическими моделями гибридная структура снижает систематическую ошибку, справляется со сложностью и учитывает нелинейные эффекты, обеспечивая как большую точность, так и интерпретируемость.
Данное исследование показывает, что интеграция ансамблевого обучения, XAI и причинно-следственного вывода обеспечивает мощную структуру для анализа глобального неравенства доходов. Основной вклад этой структуры заключается в ее способности подтверждать существующие знания и одновременно выявлять скрытые детерминанты, что доказывает ее полезность как в подтверждающих, так и в исследовательских работах. Выявление групп со средним доходом в качестве значимых движущих сил подчеркивает необходимость расширения политических дебатов, которые часто сосредоточены только на верхних и нижних сегментах. Применимость методологии выходит за рамки исследований неравенства. Она применима к таким областям, как неравенство в здравоохранении, неравенство в образовании, экологические проблемы и финансовая доступность, где преобладают большие наборы данных и сложные взаимодействия. Ее обобщаемость подчеркивает как научную, так и политическую значимость. Рекомендации в области политики включают: приоритезацию мер по увеличению доли дохода беднейшего дециля; тщательный мониторинг чрезмерных доходов верхнего дециля; и включение средних слоев в ориентированные на справедливость политические рамки. Для исследователей данное исследование подчеркивает важность сочетания инструментов прогнозирующего машинного обучения с методами причинно-следственного вывода для предотвращения ложных выводов. В заключение, исследование вносит вклад в методологию, интегрируя ансамблевое машинное обучение, объяснимый искусственный интеллект (XAI) и каузальные леса в единый конвейер, а также в эмпирическую сферу, предлагая новые взгляды на детерминанты неравенства. Этот двойной вклад повышает надежность, интерпретируемость и глобальную переносимость результатов, гарантируя, что выводы являются как научно строгими, так и практически значимыми для решения проблемы неравенства.
Ключевые слова: неравенство доходов, коэффициент Джини, ансамблевое обучение, объяснимый искусственный интеллект, SHAP, каузальные леса
संरचित सारांश:
वैश्विक आय असमानता इक्कीसवीं सदी की सबसे महत्वपूर्ण सामाजिक-आर्थिक चुनौतियों में से एक है। यद्यपि पारंपरिक रूप से इसका अध्ययन विकास या शिक्षा जैसे समष्टिगत आर्थिक संकेतकों के माध्यम से किया जाता रहा है, फिर भी उच्च-आयामी अंतर्राष्ट्रीय डेटासेट की बढ़ती उपलब्धता अधिक उन्नत विश्लेषणात्मक दृष्टिकोणों की आवश्यकता को जन्म देती है। यह अध्ययन एक केंद्रीय प्रश्न प्रस्तुत करता है: जिनि गुणांक द्वारा मापी गई आय असमानता को कौन से सामाजिक-आर्थिक, जनसांख्यिकीय, तकनीकी और पर्यावरणीय कारक महत्वपूर्ण रूप से प्रभावित करते हैं, और वास्तविक कारण संबंध स्थापित करने के लिए इन प्रभावों को भविष्यवाणी से परे कैसे मान्य किया जा सकता है?
इसका उद्देश्य दोहरा है। पहला, इस अध्ययन का लक्ष्य एक ऐसी संकर कार्यप्रणाली (hybrid methodology) तैयार करना है जो एन्सेम्बल लर्निंग, व्याख्यायोग्य कृत्रिम बुद्धिमत्ता (XAI), और कारणिक अनुमान (causal inference) को एकीकृत करती है। दूसरा, यह यह प्रदर्शित करना चाहता है कि यह कार्यप्रणाली न केवल असमानता संबंधी साहित्य में लंबे समय से प्रलेखित (documented) संबंधों की पुष्टि करती है, बल्कि नई, पहले कम-अन्वेषित गतिशीलताओं (dynamics) को भी उजागर करती है। ऐसा करते हुए, यह शोध असमानता अध्ययनों की व्याख्यात्मक और पूर्वानुमानात्मक दोनों शक्तियों को बढ़ाने में आधुनिक संगणकीय (computational) दृष्टिकोणों के मूल्य पर प्रकाश डालता है।
असमानता के निर्धारकों का अध्ययन मल्टीपल रिग्रेशन, पैनल विश्लेषण और कोइंटीग्रेशन जैसे इकोनोमेट्रिक मॉडल का उपयोग करके व्यापक रूप से किया गया है। ये दृष्टिकोण असमानता को शिक्षा, राजकोषीय नीति, वैश्वीकरण, तकनीकी परिवर्तन और वित्तीय विकास जैसे चरों से जोड़ते हैं। फिर भी, रैखिकता और मजबूत सांख्यिकीय मान्यताओं पर उनकी निर्भरता जटिल परस्पर निर्भरताओं को पकड़ने की उनकी क्षमता को सीमित करती है। एंडोजेनिटी पूर्वाग्रह और चूके हुए चर की समस्याएं अक्सर परिणामों को विकृत कर देती हैं। इसके विपरीत, मशीन लर्निंग—विशेष रूप से एन्सेम्बल मॉडल—गैर-रेखीयताओं और उच्च-आयामी डेटा को समायोजित कर सकते हैं, जबकि SHAP मान जैसे XAI उपकरण सुविधाओं के योगदान के व्याख्यात्मक अनुमान प्रदान करते हैं। हालाँकि, ML विधियों से प्राप्त चरों का महत्व कारणात्मक प्रभाव के बराबर नहीं होता है। कारणात्मक अनुमान के बिना, नीतिगत निहितार्थ अटकलें ही बने रहते हैं। यह अध्ययन इस अंतर को पाटने में योगदान देता है, यह दिखाकर कि कैसे कारणात्मक फ़ॉरेस्ट यह परीक्षण कर सकते हैं कि क्या ML मॉडल द्वारा पहचाने गए चर वास्तव में कारणात्मक प्रभाव डालते हैं।
इस प्रकार, यह ढांचा पुष्टिकारी—पहले से ज्ञात बातों का सत्यापन करने वाला—और अन्वेषणात्मक दोनों है, जो उन नए निर्धारकों की पहचान करता है जिन्हें पारंपरिक विधियाँ अनदेखा कर सकती हैं।
यह डेटासेट विश्व बैंक के 'वर्ल्ड डेवलपमेंट इंडिकेटर्स' से लिया गया है, जो 2010 से 2024 तक के 165 देशों को कवर करता है। इसमें 1,067 प्रेक्षण और 1,515 स्वतंत्र चर शामिल हैं, जो आर्थिक, सामाजिक, जनसांख्यिकीय, तकनीकी और पर्यावरणीय श्रेणियों में फैले हुए हैं।
जिनी गुणांक को आश्रित चर के रूप में उपयोग किया गया है। डेटा पूर्व-प्रसंस्करण में सफाई, KNN पूर्ति के साथ अनुपस्थित मानों को संभालना, स्केलिंग और वन-हॉट एन्कोडिंग शामिल थे। अत्यधिक अनुपस्थिति, कम विचरण, या 0.95 से अधिक बहु-सहसंबंध वाले चरों को हटा दिया गया। आयामीयता को कम करने के लिए क्रॉस-वैलिडेशन के साथ पुनरावर्ती फ़ीचर इलीमिनेशन लागू किया गया। मॉडलिंग के लिए एक स्टैकिंग एन्सेम्बल रणनीति का पालन किया गया: XGBoost, LightGBM, और CatBoost ने बेस लर्नर के रूप में काम किया, जबकि Random Forest ने अपनी मजबूती और गैर-रेखीय अंतःक्रियाओं को संभालने की क्षमता के कारण मेटा-लर्नर के रूप में काम किया। हाइपरपैरामीटर्स को ग्रिड सर्च के माध्यम से ट्यून किया गया। मॉडल की सटीकता का आकलन RMSE, MAE, और R² का उपयोग करके किया गया। एन्सेम्बल ने परीक्षण डेटा पर 0.994 का R² हासिल किया, जो असाधारण रूप से उच्च भविष्य कहनेवाला प्रदर्शन दिखाता है।
व्याख्या के लिए, SHAP मानों ने भविष्यवाणियों पर प्रत्येक सुविधा के सीमांत प्रभाव को मापा। अंत में, कारणिक वनों ने सबसे प्रभावशाली सुविधाओं के लिए औसत उपचार प्रभाव (ATE) का अनुमान लगाया, जिससे असमानता के वास्तविक कारणों को केवल सहसंबंधों से अलग किया गया।
परिणाम दिखाते हैं कि शीर्ष 10% का आय हिस्सा सबसे महत्वपूर्ण कारक है, जो प्रत्येक इकाई की वृद्धि पर जिनी गुणांक को 6.42 units से बढ़ाता है।
सबसे निचले 10% का विपरीत प्रभाव पड़ता है: इसके बढ़े हुए हिस्से से असमानता 1.49 इकाइयों तक कम हो जाती है। एक नवीन और महत्वपूर्ण परिणाम चौथे क्विंटile (जनसंख्या का 40-60%) का प्रभाव है, जो हर वृद्धि पर जिनी को 1.74 इकाइयों तक बढ़ाता है। यह इस प्रचलित धारणा को चुनौती देता है कि वितरण के केवल चरम ही मायने रखते हैं। यह बताता है कि मध्यम-आय वाले समूह भी असमानता के परिणामों को आकार देने में सक्रिय भूमिका निभाते हैं। ये परिणाम दर्शाते हैं कि इस पद्धति के दो लाभ हैं: यह सुस्थापित परिणामों की पुष्टि करती है और नए पैटर्न खोजती है। SHAP विश्लेषण ने कई विशेषताओं को अत्यधिक प्रभावशाली बताया, लेकिन कारणिक वन परीक्षण से पता चला कि सभी का कारणिक महत्व नहीं था। यह दर्शाता है कि XAI अकेले, हालांकि व्याख्या के लिए उपयोगी है, नीति निर्माण में कारणिक अनुमान का विकल्प नहीं बन सकता। दोनों का संयोजन असमानता निर्धारकों की एक समृद्ध और अधिक विश्वसनीय समझ प्रदान करता है।
पारंपरिक अर्थमिति मॉडल की तुलना में, यह संकर ढांचा पूर्वाग्रह को कम करता है, जटिलता को संभालता है, और गैर-रेखीय प्रभावों को दर्शाता है, जिससे अधिक सटीकता और व्याख्याक्षमता दोनों मिलती है।
यह अध्ययन दर्शाता है कि एन्सेम्बल लर्निंग, एक्सएआई, और कारणिक अनुमान को एकीकृत करने से वैश्विक आय असमानता का विश्लेषण करने के लिए एक शक्तिशाली ढांचा प्रदान करता है। इस ढांचे का मुख्य योगदान मौजूदा ज्ञान की पुष्टि करने के साथ-साथ छिपे हुए निर्धारकों को उजागर करने की इसकी क्षमता है, जो पुष्टिकारी और अन्वेषणात्मक दोनों तरह के शोध में इसकी उपयोगिता को साबित करता है।
मध्यम-आय समूहों को महत्वपूर्ण चालक के रूप में पहचानना उन नीतिगत बहसों को व्यापक बनाने की आवश्यकता पर जोर देता है जो अक्सर केवल शीर्ष और निचले वर्गों पर केंद्रित होती हैं। इस कार्यप्रणाली की अनुकूलनशीलता असमानता अनुसंधान से परे तक फैली हुई है। यह स्वास्थ्य असमानता, शैक्षिक असमानता, पर्यावरणीय चुनौतियों और वित्तीय समावेशन जैसे क्षेत्रों पर लागू होती है, जहाँ बड़े डेटासेट और जटिल अंतःक्रियाएँ मौजूद हैं। इसकी सामान्यीकरण क्षमता वैज्ञानिक और नीति दोनों प्रासंगिकता को रेखांकित करती है। नीतिगत सिफारिशों में शामिल हैं: सबसे गरीब दस प्रतिशत वर्ग की आय हिस्सेदारी बढ़ाने के उपायों को प्राथमिकता देना; शीर्ष दस प्रतिशत वर्ग के अत्यधिक लाभों की बारीकी से निगरानी करना; और मध्यम वर्गों को समानता-उन्मुख नीतिगत ढाँचों में शामिल करना। शोधकर्ताओं के लिए, यह अध्ययन झूठे निष्कर्षों से बचने के लिए भविष्यवाणी करने वाले एमएल (ML) उपकरणों को कारण-आधारित अनुमान तकनीकों के साथ जोड़ने के महत्व पर प्रकाश डालता है।
निष्कर्षतः, यह अध्ययन एन्सेम्बल एमएल, एक्सएआई, और कॉज़ल फ़ॉरेस्ट को एक एकीकृत पाइपलाइन में शामिल करके पद्धतिगत रूप से और असमानता के निर्धारकों पर नवीन अंतर्दृष्टि उत्पन्न करके अनुभवजन्य रूप से योगदान देता है। यह दोहरा योगदान परिणामों की विश्वसनीयता, व्याख्याक्षमता और वैश्विक हस्तांतरणीयता को बढ़ाता है, यह सुनिश्चित करते हुए कि निष्कर्ष असमानता को दूर करने के लिए वैज्ञानिक रूप से कठोर और व्यावहारिक रूप से प्रासंगिक दोनों हैं।
कीवर्ड: आय असमानता, जिनी गुणांक, एन्सेम्बल लर्निंग, व्याख्यायोग्य कृत्रिम बुद्धिमत्ता, शॉप, कॉज़ल फ़ॉरेस्ट
By subscribing to E-Newsletter, you can get the latest news to your e-mail.