Première étape : Analyse du site et scraping des marques
La première étape consiste à analyser la structure du site web Mif Expo afin de déterminer l'outil de scraping le plus adapté. Dans ce cas, Web Scraper me semble suffisant pour extraire les informations clés (nom de la marque, description, liens vers les réseaux sociaux, site web de la marque). Ces données seront ensuite compilées dans un fichier Excel pour faciliter leur traitement ultérieur. Il n'est malheureusement pas possible de filtrer les entreprises dès le départ (sur le site oui mais pas pour le scraping), cette étape sera donc réalisée ultérieurement dans le process. J'ai constaté que la majorité des entreprises présentes au salon MIF Expo sont des TPE/PME.
Deuxième étape : Nettoyage et vérification des données
Une fois le fichier Excel exporté, un premier nettoyage et une vérification des informations extraites sont nécessaires. À ce stade, nous disposons du nom des marques, de leur site web (pour la plupart) et, selon les entreprises, des liens vers leurs profils Facebook, Instagram et LinkedIn.
Les liens des réseaux sociaux des entreprises seront triés après le premier export des données, car le site de MIF Expo les présente de manière aléatoire.
Pour effectuer ce tri sur plus de 700 lignes, nous utiliserons un outil d'intelligence artificielle tel que Gemini de Google ou ChatGPT d'OpenAI afin de gagner du temps. Nous demanderons à l'IA de trier les liens des réseaux sociaux dans les colonnes appropriées pour chaque entreprise.
Exemple présentation des liens 1
Exemple présentation des liens 2
Troisième étape : Identification des dirigeants
Maintenant que nous disposons des réseaux sociaux, du site web et du nom des marques, nous pouvons identifier nos cibles pour la prise de contact. Comme mentionné précédemment, j'ai analysé la liste des exposants du MIF Expo. De nombreuses entreprises sont des TPE/PME, c'est pourquoi nous ciblerons en priorité leurs dirigeants pour deux raisons :
Plusieurs méthodes permettent de retrouver le nom et le prénom des dirigeants mais j’ai choisi :
Cependant, il sera probablement nécessaire de réaliser une étape préalable pour effectuer des requêtes API uniquement pour les entreprises dont nous sommes certains qu'elles correspondent à notre cible. Je détaille une approche dans ma réalisation. L'objectif est d'optimiser l'utilisation de nos crédits et de ne pas payer pour des informations inutiles. Pour rappel, avec l'abonnement Societe.info le moins cher à 39 euros par mois (abonnement annuel), nous disposons de 3600 crédits par an, et chaque requête API réussie consomme 1 crédit.
Voici un exemple de script à utiliser avec une clé API societe.info et un fichier CSV ayant une colonne avec le nom de marque et une autre avec le lien du site internet de la marque (script à faire tourner sur Google Colab) :
LinkedIn : Une fois le nom et le prénom du dirigeant obtenus, l'outil PhantomBuster peut être utilisé pour rechercher automatiquement leur profil LinkedIn et récupérer leur adresse e-mail professionnelle (car societe.info trouve des adresses mails génériques) et leur numéro de téléphone, si disponibles. A la fin du processus, j’actualise mon fichier de base avec les profils Linkedin et les infos recceuillis. Il faudra mettre dans la même cellule le nom et prénom des dirigeants grâce à une formule excel. (LinkedIn Profil Search)
Ensuite, j'isole les dirigeants pour lesquels je n'ai pas de profil LinkedIn et je poursuis ma recherche.