Academic work by Wajdi BEN SAAD

Income and salary detection from Open Banking transaction and payment data : a comparative methodological perspective
International Fintech Research Confrence, 2025
This paper addresses the critical challenge of salary detection within open
banking (OB) transact... more This paper addresses the critical challenge of salary detection within open
banking (OB) transaction data, a key enabler for enhanced customer insights
and personalized financial services. While existing approaches often struggle
with noisy data and the lack of counterparty information in OB transac-
tions, we explore two complementary methodologies: an expert-based ap-
proach using predefined rules and decision trees emphasizing interpretability
and precision, and a machine learning approach based on Linear Support
Vector Classification offering scalability and adaptability. Our evaluation
conducted on a dataset of OB transactions from 2, 000 French bank accounts
demonstrates 96% precision and 95% recall for the expert-based approach
and up to 97% precision and F1-score for the ML approach with feature
engineering. The results indicate that method selection should be based on
specific organizational goals and data characteristics rather than inherent
superiority. This study provides actionable insights and introduces a novel
comparative framework for financial institutions seeking robust solutions to
salary detection challenges in open banking.
banking (OB) transaction data, a key enabler for enhanced customer insights
and personalized financial services. While existing approaches often struggle
with noisy data and the lack of counterparty information in OB transac-
tions, we explore two complementary methodologies: an expert-based ap-
proach using predefined rules and decision trees emphasizing interpretability
and precision, and a machine learning approach based on Linear Support
Vector Classification offering scalability and adaptability. Our evaluation
conducted on a dataset of OB transactions from 2, 000 French bank accounts
demonstrates 96% precision and 95% recall for the expert-based approach
and up to 97% precision and F1-score for the ML approach with feature
engineering. The results indicate that method selection should be based on
specific organizational goals and data characteristics rather than inherent
superiority. This study provides actionable insights and introduces a novel
comparative framework for financial institutions seeking robust solutions to
salary detection challenges in open banking.

Specialized text classification: an approach to classifying Open Banking transactions
International Computer Sciences and Information Technologies (CSIT), 2023
With the introduction of the PSD2 regulation in the EU which established the Open Banking framewo... more With the introduction of the PSD2 regulation in the EU which established the Open Banking framework, a new window of opportunities has opened for banks and FinTech to explore and enrich Bank transaction descriptions with the aim of building a better understanding of customer behavior, while using this understanding to prevent fraud, reduce risks and offer more competitive and tailored services.And although the usage of natural language processing models and techniques has seen an incredible progress in various applications and domains over the past few years, custom applications based on domain-specific text corpus remain unaddressed especially in the banking sector.In this paper, we introduce a language-based Open Banking transaction classification system with a focus on the French market and French language text. The system encompasses data collection, labeling, preprocessing, modeling, and evaluation stages. Unlike previous studies that focus on general classification approaches, this system is specifically tailored to address the challenges posed by training a language model with a specialized text corpus (Banking data in the French context). By incorporating language-specific techniques and domain knowledge, the proposed system demonstrates enhanced performance and efficiency compared to generic approaches.
One of the most important tasks for the insurance company is the valuation of technical provision... more One of the most important tasks for the insurance company is the valuation of technical provisions and more specically the claims reserves. In order to quantify its legal
engagements towards the beneciaries of insurance policies, the insurance company is
legally obliged to keep reserves for the incurred claims and also for the accidents that
hasn't been reported to the company.
The aim of this project is to implement, to analyse and to establish a comparative
study of technical reserving methods in non-life insurance.
Along the way, we compare results from classical deterministic methods such as
the Chain-Ladder, the London-Chain, the d-factors and the average cost methods. We
introduce afterwards the Bornhuetter-Ferguson method that takes in consideration an
exogenous variable as an "expert opinion" of the ultimate loss-ratio. We can not proceed
on working with future payments without taking into consideration the ination factor
treated in Taylor model. The Chain-Ladder model was studied rst and was used as a
benchmark. Deterministic models are intuitively appealing and simple to calculate but,
data must be stable across the origin periods for the methods to produce sensible results
and such stability is unusual.
In the second part of the report, we introduce a new concept to our study with the
application of stochastic methods in order to quantify the uncertainty related to the
estimation of reserve amounts. We apply the Mack stochastic model to measure prediction errors related to technical reserves estimation. This model enables us to build
condence intervals and to validate assumptions of the basic Chain-Ladder method. We
also add a newly applied method in reserving based on the technique of re-sampling, it
is the Bootstrap method. This model allows us to have the full distribution of reserves
from a sample of independent and identically distributed observations .
Finally, we summarize the results gathered from all the methods and we establish an
analysis of these results in order to determine the model that best suits our company's
risk portfolio .
Key words: Claims reserving, deterministic methods, Chain-Ladder, claims ination, Bornhuetter-Ferguson, average cost, stochastic methods, Mack model, Bootstrap
------------------------------------------------
Une des tâches les plus importantes pour une société d'assurances est l'évaluation de
ses provisions techniques et plus précisément les réserves pour sinistres. An de quanti-
er ses engagements légales envers les assurés, la société d'assurances est obligée par la
loi de provisionner pour les sinistres survenus et déclarés et aussi pour les sinistres qui
sont survenus et qui n'ont pas été déclarés.
L'objectif de ce projet est d'implémenter, d'analyser et d'établir une étude comparative des méthodes de calcul des provisions techniques en assurances non-vie.
Tout au long du projet nous comparons les résultats des méthodes déterministes
classiques comme les méthodes Chain-Ladder, London-Chain, d-factors et la méthode
du coût moyen. Nous introduisons par la suite le modèle de Bornhuetter-Ferguson qui
prend en considération une variable exogène en tant que "avis d'expert". Nous ne pouvons pas travailler sur les réserves pour des futures paiements sans considérer le facteur
ination qui est traité avec le modèle de Taylor. Le modèle de Chain-Ladder a été étudié
au début et a été utilisé comme référence. Les méthodes déterministes sont intuitives et
simples à utiliser, mais les données doivent être stables tout au long de la période étudiée
an de produire des résultats précises. Une telle stabilité n'est pas toujours valable.
Dans la deuxième partie de ce rapport, nous introduisons un nouveau concept à notre
étude avec l'application des méthodes stochastiques an de quantier l'incertitude liée à
l'estimation des montants de réserves . Nous appliquons le modèle stochastique de Mack
pour mesurer l'erreur de prédiction des provisions. Ce modèle nous permet de construire
des intervalles de conance autour des résultats trouvés et de valider les hypothèses de la
méthode Chain-Ladder. Nous ajoutons aussi une nouvelle technique d'échantillonnage
en provisionnement qui est la méthode Bootstrap. Cette méthode nous permet d'estimer la distribution des réserves à partir d'un échantillon d'observations indépendant et
identiquement distribué.
Finalement, nous résumons les résultats de toutes les méthodes utilisées dans ce projet, et nous établissons une analyses de ces résultats an de déterminer la méthode la
plus appropriée au portefeuille risque de la société.
Mots clés : Provisionnement, méthodes déterministes, Chain-Ladder, ination des
réserves, Bornhuetter-Ferguson, Coût moyen, méthodes stochastiques, modèle de Mack,
Bootstrap
engagements towards the beneciaries of insurance policies, the insurance company is
legally obliged to keep reserves for the incurred claims and also for the accidents that
hasn't been reported to the company.
The aim of this project is to implement, to analyse and to establish a comparative
study of technical reserving methods in non-life insurance.
Along the way, we compare results from classical deterministic methods such as
the Chain-Ladder, the London-Chain, the d-factors and the average cost methods. We
introduce afterwards the Bornhuetter-Ferguson method that takes in consideration an
exogenous variable as an "expert opinion" of the ultimate loss-ratio. We can not proceed
on working with future payments without taking into consideration the ination factor
treated in Taylor model. The Chain-Ladder model was studied rst and was used as a
benchmark. Deterministic models are intuitively appealing and simple to calculate but,
data must be stable across the origin periods for the methods to produce sensible results
and such stability is unusual.
In the second part of the report, we introduce a new concept to our study with the
application of stochastic methods in order to quantify the uncertainty related to the
estimation of reserve amounts. We apply the Mack stochastic model to measure prediction errors related to technical reserves estimation. This model enables us to build
condence intervals and to validate assumptions of the basic Chain-Ladder method. We
also add a newly applied method in reserving based on the technique of re-sampling, it
is the Bootstrap method. This model allows us to have the full distribution of reserves
from a sample of independent and identically distributed observations .
Finally, we summarize the results gathered from all the methods and we establish an
analysis of these results in order to determine the model that best suits our company's
risk portfolio .
Key words: Claims reserving, deterministic methods, Chain-Ladder, claims ination, Bornhuetter-Ferguson, average cost, stochastic methods, Mack model, Bootstrap
------------------------------------------------
Une des tâches les plus importantes pour une société d'assurances est l'évaluation de
ses provisions techniques et plus précisément les réserves pour sinistres. An de quanti-
er ses engagements légales envers les assurés, la société d'assurances est obligée par la
loi de provisionner pour les sinistres survenus et déclarés et aussi pour les sinistres qui
sont survenus et qui n'ont pas été déclarés.
L'objectif de ce projet est d'implémenter, d'analyser et d'établir une étude comparative des méthodes de calcul des provisions techniques en assurances non-vie.
Tout au long du projet nous comparons les résultats des méthodes déterministes
classiques comme les méthodes Chain-Ladder, London-Chain, d-factors et la méthode
du coût moyen. Nous introduisons par la suite le modèle de Bornhuetter-Ferguson qui
prend en considération une variable exogène en tant que "avis d'expert". Nous ne pouvons pas travailler sur les réserves pour des futures paiements sans considérer le facteur
ination qui est traité avec le modèle de Taylor. Le modèle de Chain-Ladder a été étudié
au début et a été utilisé comme référence. Les méthodes déterministes sont intuitives et
simples à utiliser, mais les données doivent être stables tout au long de la période étudiée
an de produire des résultats précises. Une telle stabilité n'est pas toujours valable.
Dans la deuxième partie de ce rapport, nous introduisons un nouveau concept à notre
étude avec l'application des méthodes stochastiques an de quantier l'incertitude liée à
l'estimation des montants de réserves . Nous appliquons le modèle stochastique de Mack
pour mesurer l'erreur de prédiction des provisions. Ce modèle nous permet de construire
des intervalles de conance autour des résultats trouvés et de valider les hypothèses de la
méthode Chain-Ladder. Nous ajoutons aussi une nouvelle technique d'échantillonnage
en provisionnement qui est la méthode Bootstrap. Cette méthode nous permet d'estimer la distribution des réserves à partir d'un échantillon d'observations indépendant et
identiquement distribué.
Finalement, nous résumons les résultats de toutes les méthodes utilisées dans ce projet, et nous établissons une analyses de ces résultats an de déterminer la méthode la
plus appropriée au portefeuille risque de la société.
Mots clés : Provisionnement, méthodes déterministes, Chain-Ladder, ination des
réserves, Bornhuetter-Ferguson, Coût moyen, méthodes stochastiques, modèle de Mack,
Bootstrap
Le riz est une matière première importante dans l’agriculture et le commerce dont le prix ne c... more Le riz est une matière première importante dans l’agriculture et le commerce dont le prix ne cesse d’augmenter de jour en jour. Le but de ce travail consiste à modéliser le prix du riz en fonction d’autres variables explicatives. Mais tout d’abord, nous procéderons à une petite présentation de cette plante, ses caractéristiques, sa production, sa consommation ainsi que
les échanges commerciaux.
les échanges commerciaux.
Ce travail a pour objectif l'application des méthodes de
classification sur des jeux de données... more Ce travail a pour objectif l'application des méthodes de
classification sur des jeux de données qui peuvent
comporter des individus « aberrants » ou des
observations qui peuvent avoir un effet sur la
répartition générale des individus dans des classes
homogènes. La méthode étudie est la technique de
classification appelée « trimming method » dont les
algorithmes sont disponibles sous le logiciel R dons le
package « tclust ».
classification sur des jeux de données qui peuvent
comporter des individus « aberrants » ou des
observations qui peuvent avoir un effet sur la
répartition générale des individus dans des classes
homogènes. La méthode étudie est la technique de
classification appelée « trimming method » dont les
algorithmes sont disponibles sous le logiciel R dons le
package « tclust ».
Ce travail a pour objectif la détermination de l'effet de l'utilisation des pesticides qui n'ont... more Ce travail a pour objectif la détermination de l'effet de l'utilisation des pesticides qui n'ont pas des composantes chimiques, sur la production végétales des espèces destinés à l’extraction des huiles essentiels qui sont utilisés dans l'industrie pharmaceutique et en particulier l'effet sur la survie des plantes
Teaching Documents by Wajdi BEN SAAD
A. Créer un fichier csv contenant les données suivantes, à partir des données du site www.ins.tn ... more A. Créer un fichier csv contenant les données suivantes, à partir des données du site www.ins.tn : -Nom des gouvernorats de la Tunisie -Région (nord, sud, centre, ouest, est...) -Population totale -Superficie -Taux de chômage Ce fichier doit être enregistré sous le répertoire 'C:/' avec le nom « data_Tunisie.csv » B. Importer ces données dans une table SAS appelée data_Tunisie , qui sera enregistrée dans une librairie SAS sous le répertoire 'C:/'. Cette librairie sera appelée « data_tn » et elle contiendra toutes les tables de ce projet C. Créer une nouvelle table par région (5 tables) contenant les données de la table data_Tunisie , en filtrant les données de la table initiale par région. D. Afficher les données par régions sans passer par la création d'une table pour chaque région en utilisant Proc Print, en gardant uniquement les noms des gouvernorats et le taux de chômage. E. Créer une table : Top_population qui va contenir les données relatives aux gouvernorats dont la population totale dépasse 500.000 habitants et dont la superficie est supérieure à celle de Ben Arous.
Ecole Supérieure de la statistique et de l'analyse de l'information de Tunis Examen pratique du l... more Ecole Supérieure de la statistique et de l'analyse de l'information de Tunis Examen pratique du logiciel Statistique SAS Enseignant : Wajdi Ben Saad Niveau : 1 ère Année || Année : 2015-2016 Durée de l'épreuve : 45 minutes Le Rendu doit être : cette feuille remplie et le code SAS complet, enregistré dans un dossier sur le bureau du PC et nommé : EXAM_SAS_Nom_Prenom_Groupe, le fichier du code SAS doit être nommé : Code_Nom_Prenom_Groupe Le code rendu doit être commenté en expliquant chaque commande utilisée. Votre nom, prénom et groupe doivent être mentionnés dans la première ligne du code SAS en commentaire.
Partie A : 1. En utilisant des macro variables, préparer les variables suivantes : Lib_name = c:/... more Partie A : 1. En utilisant des macro variables, préparer les variables suivantes : Lib_name = c:/ Tab_1 = Exam_Data Tab_2 = Exam_Data_Formatted 2. Créer une librairie SAS ayant comme nom 'Exam' qui prend l'emplacement stocké dans la variable Lib_name. 3. Insérer les données ci-dessous dans une table qui prend le nom de la variable Tab_1 et qui sera enregistrée dans la librairie 'Exam'. 4. La variable Country doit être convertie en majuscule, la variable Population utilisera l'informat 'Comma.' Country Population Language GDP tunisia 11,118,000 Ar $46995 nigeria 184,264,000 Eg $568508 morroco 33,680,000 Ar $107005 algeria 39 ,903,000 Ar $214063 southAfrica 54,957,000 Eg $352817 5. Dans une nouvelle table qui prendra le nom stocké dans la variable Tab_2, changer la variable Language avec les formats suivants : Ar = Arabic, Fr = French et Eg = English.
Proc SQL est une implémentation du « Structured Query Language » avec SAS Proc SQL de SAS permet :
• LIBNAME statement assigns a libref • Libref (short for "Library Reference") is an alias or nick... more • LIBNAME statement assigns a libref • Libref (short for "Library Reference") is an alias or nickname for a directory or folder for SAS datasets
Articles & Blogposts by Wajdi BEN SAAD

Business Intelligence en Tunisie: Ces Jeunes Ingénieurs qui innovent
ntelligence Economique et Business Intelligence: définition
Collecter , organiser et structurer... more ntelligence Economique et Business Intelligence: définition
Collecter , organiser et structurer l'information stratégique d'une entreprise sont des procédures indispensables aux développement et à la croissance de toute activité économique.
L’intelligence économique est l'opération de collecter de traiter d'analyse et de diffuser de l'information utile aux acteurs économiques et aux décideurs dans l'objectif de fournir une vision globale et stratégique de la société.
L'intelligence économique est souvent liées à l'innovation technologique et aux outils d'aide à la décision. D'où l’existence de l’informatique décisionnelle ou le Business Intelligence.
Le Business Intelligence est toute technologie ou outils et processus permettant aux entreprises de collecter, consolider, modéliser et restituer les données, matérielles ou immatérielles, en vue d'offrir une aide à la décision et de permettre à un décideur d’avoir une vue d’ensemble de l’activité traitée.
Collecter , organiser et structurer l'information stratégique d'une entreprise sont des procédures indispensables aux développement et à la croissance de toute activité économique.
L’intelligence économique est l'opération de collecter de traiter d'analyse et de diffuser de l'information utile aux acteurs économiques et aux décideurs dans l'objectif de fournir une vision globale et stratégique de la société.
L'intelligence économique est souvent liées à l'innovation technologique et aux outils d'aide à la décision. D'où l’existence de l’informatique décisionnelle ou le Business Intelligence.
Le Business Intelligence est toute technologie ou outils et processus permettant aux entreprises de collecter, consolider, modéliser et restituer les données, matérielles ou immatérielles, en vue d'offrir une aide à la décision et de permettre à un décideur d’avoir une vue d’ensemble de l’activité traitée.
The 3 Giants: The dilemma of Tunisian public banks
Analyzing Bardo museum terrorist attack on Twitter