De manière générale, le traitement des données, que ce soit dans la collecte, le nettoyage ou le stockage des données, repose sur des prises de décision en fonction du contexte.

Il est possible de prendre plusieurs décisions différentes qui mènent à des jeux de données différents. Compte tenu de ces possibilités, il est donc capital de documenter les actions et la direction que nous prenons.

La collecte native peut être définie comme étant une donnée que vous générez directement de votre côté. Que ce soit sur vos périmètres (Application, site web) ou depuis d’autres sources comme votre CRM, vos données en provenance des ERP dans le cadre de produits physique et/ou de stocks.

Les données internes à l’entreprise, comme les données de Ressources humaines par exemples, sont aussi des données à exploiter que vous générez automatiquement de votre côté.

Il existe également d’autres moyens de collecter des données comme des commentaires produits, des données d’engagement sur les réseaux sociaux ou encore des commentaires en lien avec notre marque.

Ces données ne sont pas générées directement par votre entreprise mais peuvent être collectées depuis le web via des méthodes de scrapping par exemple.

<aside> 💡 Le web scraping, parfois appelé harvesting ou en français moissonnage, est une technique de « récupération et organisation automatisées des données Web » ; c'est la principale forme de data mining et d'extraction des données de sites web, via un script ou d'un programme.

</aside>

Le Web Scraping et l’utilisation des programmes et outils dédiés n’est pas une pratique illégale. Toutefois, il est capital de prendre en compte quelques points pour une utilisation éthique de ces méthodes.

Nous vous recommandons notamment l’utilisation de la documentation ci-dessous pour une pratique légale :

Web scraping : est-ce légal ?