Première étape : Analyse du site et scraping des marques

La première étape consiste à analyser la structure du site web Mif Expo afin de déterminer l'outil de scraping le plus adapté. Dans ce cas, Web Scraper me semble suffisant pour extraire les informations clés (nom de la marque, description, liens vers les réseaux sociaux, site web de la marque). Ces données seront ensuite compilées dans un fichier Excel pour faciliter leur traitement ultérieur. Il n'est malheureusement pas possible de filtrer les entreprises dès le départ (sur le site oui mais pas pour le scraping), cette étape sera donc réalisée ultérieurement dans le process. J'ai constaté que la majorité des entreprises présentes au salon MIF Expo sont des TPE/PME.

Deuxième étape : Nettoyage et vérification des données

Une fois le fichier Excel exporté, un premier nettoyage et une vérification des informations extraites sont nécessaires. À ce stade, nous disposons du nom des marques, de leur site web (pour la plupart) et, selon les entreprises, des liens vers leurs profils Facebook, Instagram et LinkedIn.

Les liens des réseaux sociaux des entreprises seront triés après le premier export des données, car le site de MIF Expo les présente de manière aléatoire.

Pour effectuer ce tri sur plus de 700 lignes, nous utiliserons un outil d'intelligence artificielle tel que Gemini de Google ou ChatGPT d'OpenAI afin de gagner du temps. Nous demanderons à l'IA de trier les liens des réseaux sociaux dans les colonnes appropriées pour chaque entreprise.

Exemple présentation des liens 1

SCR-20240806-kqer-2.png

Exemple présentation des liens 2

SCR-20240806-kpzt.png

Troisième étape : Identification des dirigeants

Maintenant que nous disposons des réseaux sociaux, du site web et du nom des marques, nous pouvons identifier nos cibles pour la prise de contact. Comme mentionné précédemment, j'ai analysé la liste des exposants du MIF Expo. De nombreuses entreprises sont des TPE/PME, c'est pourquoi nous ciblerons en priorité leurs dirigeants pour deux raisons :

Plusieurs méthodes permettent de retrouver le nom et le prénom des dirigeants mais j’ai choisi :

  1. **Societe.info :** Cet outil, qui nécessite un compte, propose une base de données fiable sur les entreprises françaises. Son API permet d'obtenir, via une requête incluant le nom de la marque et le site web : “marque", "statut", "capital", "numéro_immatriculation", "adresse", "catégorie_insee", "code_ape", "nom_ape", "dirigeant_principal", "email", "site_web", "linkedin", et "score_matching”. Le code APE nous permettra de cibler les entreprises les plus pertinentes et ainsi exclure les entreprises de services présentes aux salons. Enfin, le score de matching nous permettra de garantir la qualité de notre base de contacts. La documentation technique indique qu'un score inférieur à 0,3 pourrait signifier que les données sont aléatoires et donc peu fiables.

Cependant, il sera probablement nécessaire de réaliser une étape préalable pour effectuer des requêtes API uniquement pour les entreprises dont nous sommes certains qu'elles correspondent à notre cible. Je détaille une approche dans ma réalisation. L'objectif est d'optimiser l'utilisation de nos crédits et de ne pas payer pour des informations inutiles. Pour rappel, avec l'abonnement Societe.info le moins cher à 39 euros par mois (abonnement annuel), nous disposons de 3600 crédits par an, et chaque requête API réussie consomme 1 crédit.

Voici un exemple de script à utiliser avec une clé API societe.info et un fichier CSV ayant une colonne avec le nom de marque et une autre avec le lien du site internet de la marque (script à faire tourner sur Google Colab) :

Capture d’écran 2024-08-05 à 19.20.52.png

  1. LinkedIn : Une fois le nom et le prénom du dirigeant obtenus, l'outil PhantomBuster peut être utilisé pour rechercher automatiquement leur profil LinkedIn et récupérer leur adresse e-mail professionnelle (car societe.info trouve des adresses mails génériques) et leur numéro de téléphone, si disponibles. A la fin du processus, j’actualise mon fichier de base avec les profils Linkedin et les infos recceuillis. Il faudra mettre dans la même cellule le nom et prénom des dirigeants grâce à une formule excel. (LinkedIn Profil Search)

    Capture d’écran 2024-08-05 à 19.26.49.png

Ensuite, j'isole les dirigeants pour lesquels je n'ai pas de profil LinkedIn et je poursuis ma recherche.