La notion de données machine

Chez Splunk, nous parlons beaucoup de données machine. Cette expression désigne l'ensemble des données que le personnel informatique est susceptible d'utiliser pour comprendre les événements survenus dans ses infrastructures, la configuration de ses systèmes et les interventions des utilisateurs. Il ne s'agit pas simplement de journaux d'événements (log), mais aussi de données de configuration, données des API et files de messages, changements, émission de commandes de diagnostic etc. C'est plus que seulement des logs que les systèmes de gestion de log et d'informations de sécurité et les systèmes de gestion d'événements (SIEM) sont limités à traiter. Les utilisateurs de Splunk savent qu'il existe des milliers de formats de journaux, souvent issus d'applications personnalisées, essentiels pour diagnostiquer les problèmes de service, détecter les menaces de sécurité pernicieuses ou de démontrer la conformité. Nous avons brièvement décrit certaines sources de données machine parmi les plus importantes et ce qu'elles peuvent vous apprendre sur votre infrastructure informatique et sur le comportement de vos utilisateurs ou d'agresseurs potentiels. Considérez toutefois cette liste comme un simple point de départ. Chaque environnement possède sa propre empreinte de données machine et les journaux n'en représentent qu'une partie.

Journaux d'application

La plupart des applications internes et des progiciels écrivent des fichiers journaux locaux, souvent via des services de journalisation intégrés dans un middleware - serveurs d'application J2EE comme Weblogic, Websphere et JBoss, .Net, PHP etc. Ces fichiers sont déterminants pour le débogage au jour le jour des applications de production par les développeurs et le support d'application. Souvent, ils constituent également la meilleure méthode pour établir un rapport sur l'activité de l'entreprise et des utilisateurs et détecter des scénarios frauduleux, car ils contiennent tous les détails des transactions. Lorsque les développeurs incluent des informations horodatées aux événements de journalisation, elles peuvent servir à surveiller la performance de l'application et à produire des rapports sur ce thème.

Journaux d'accès au web

Les journaux d'accès au web signalent chaque requête traitée par un serveur web - l'adresse IP du client d'origine, l'URL interrogé, l'URL de référence et les données relatives à la réussite ou l'échec de la requête. Ils sont généralement traités pour produire des rapports analytiques du web à des fins de marketing - comptage quotidien des visiteurs, pages les plus visitées, et ainsi de suite.

Ils forment également un précieux point de départ pour examiner un problème signalé par un utilisateur, car la journalisation de l'échec d'une requête permet d'établir l'instant exact de l'erreur. Les journaux web sont relativement standardisés et bien structurés. Leur volume impressionnant dans le cas de sites web très actifs enregistrant régulièrement des milliers de connexions constitue la seule difficulté.

Journaux du proxy web

Presque toutes les entreprises, prestataires de services, institutions et organismes gouvernementaux permettant à leurs employés, clients ou visiteurs d'accéder au web, utilisent une forme de proxy web pour contrôler et surveiller cet accès. Les proxy web enregistrent chaque requête effectuée par les utilisateurs via le proxy. Peuvent être inclus les identifiants d'entreprise et les connexions aux URL. Ces journaux jouent un rôle essentiel dans la surveillance et l'examen des violations des conditions générales du service ou des politiques d'utilisation du web de l'entreprise. Ils constituent également des éléments pour la surveillance et l'examen efficaces des fuites de données.

Enregistrement détaillé des appels

Les enregistrements détaillés des appels (CDR), des données de facturation, des données d'événement figurent parmi les appellations de données machine contenant les événements enregistrés par les commutateurs téléphoniques. Les CDR contiennent des détails importants sur l'appel ou le service qui a transité par le commutateur, notamment le numéro de l'appelant, le numéro de l'appelé, l'heure, la durée et le type de l'appel, etc. Les services de communication migrant vers des services basés sur le protocole Internet, ces données sont également appelées IPDR, et contiennent des détails comme l'adresse IP, le numéro de port, etc. Les spécifications, formats et structures de ces fichiers varient énormément et suivre le rythme de ces nombreuses permutations, présente depuis toujours des difficultés. Alors que les données qu'ils contiennent sont essentielles en termes de facturation, assurance revenu, assurance client, accords de partenariat, intelligence marketing etc. Splunk indexe rapidement les données et les associe à d'autres données de l'entreprise, afin d'offrir de nouvelles perspectives aux utilisateurs à partir de ces précieuses informations.

Données de parcours web

L'utilisation d'une page sur un site web est capturée dans les données de parcours, pour fournir des indications sur les actions de l'utilisateur, précieuses pour les analyses de maniabilité, le marketing et les recherches d'ordre général. Les formats de ces données ne sont pas standard et les actions peuvent être journalisées dans divers emplacements, notamment serveur, routeurs, serveurs proxy, serveurs publicitaires, etc. Les outils de surveillance existants offrent une vue parcellaire des données issues d'une source spécifique. Les produits existants d'analyse web et d'entrepôt de données procèdent souvent par échantillonnage des données, sans offrir une vue comportementale complète et ne fournissent aucune analyse en temps réel.

Files de messages

Les technologies de files de messages comme TIBCO, IMS et AquaLogic servent à transmettre des données et des tâches entre le service et les composants d'application selon une formule de publication et d'abonnement. L'abonnement à ces files de messages représente une bonne méthode pour déboguer les problèmes dans des applications complexes. Il permet de savoir exactement ce que le composant suivant de la chaîne a reçu du composant précédent. Ceci mis à part, les files de messages sont de plus en plus utilisées comme dorsale des architectures de journalisation des applications.

Données en paquet

Les données générées par les réseaux sont traitées avec des outils comme tcpdump et tcpflow qui produisent des données de capture de paquet (pcap) et d'autres informations importantes de niveau de paquet et de session. Ces informations sont indispensables pour gérer la dégradation des performances, les temporisations, les goulets d'étranglement ou les activités suspectes indiquant que le réseau peut être affecté ou faire l'objet d'une attaque distante.

Fichiers de configuration

Il n'existe aucune alternative aux configurations système actives proprement dites pour comprendre comment l'infrastructure a été configurée. Les anciennes configurations sont nécessaires au débogage de défaillances survenues dans le passé susceptibles de se reproduire dans le futur. Lorsque les configurations changent, il importe de savoir ce qui a changé et quandsi le changement était autorisé et si un agresseur a réussi à endommager le système par des portes dérobées, des bombes à retardement ou d'autres menaces latentes.

Journaux et tables d'audit de base de données

Les bases de données contiennent certaines des données les plus sensibles de l'entreprise : dossiers des clients, données financières, dossiers médicaux etc. Les enregistrements d'audit de toutes les requêtes sur une base de données sont essentiels pour savoir qui a accédé aux données ou les a modifiées, et quand. Les journaux d'audit de base de données permettent également de savoir comment les applications utilisent les bases de données pour optimiser les requêtes. Certaines bases de données journalisent les enregistrements d'audit dans des fichiers, d'autres sous forme de tables d'audit accessibles via SQL.

Journaux d'audit de système de fichiers

Les données sensibles que les bases de données ne contiennent pas se trouvent dans un système de fichiers, souvent partagé. Dans certains métiers comme la santé, le plus important risque de fuites de données réside dans les dossiers médicaux au sein de systèmes de fichiers partagés. Différents systèmes d'exploitation, outils tiers et technologies de stockage offrent diverses options d'audit des accès en lecture aux données sensibles au niveau du système de fichiers. Ces données d'audit constituent une source de données essentielle pour surveiller et examiner l'accès aux données sensibles.

API de gestion et de journalisation

Un nombre croissant de fournisseurs exposent les données de gestion critiques et les journalisations d'événements via des API standardisées ou propriétaires au lieu d'utiliser des fichiers de journalisation. Les pare-feu Checkpoint journalisent via l'API OPSEC Log Export (OPSEC LEA). Les éditeurs de solutions de virtualisation, notamment VMware et Citrix, exposent les configurations, les journaux et les états du système via leurs propres API.

Métriques du système d'exploitation, commandes d'état et de diagnostic

Les systèmes d'exploitation exposent les données métriques essentielles comme l'utilisation de la mémoire et du processeur et les informations d'état avec des utilitaires de ligne de commande comme ps et iostat sous Unix ou Linux et perfmon sous Windows. Ces données sont généralement utilisées par des outils de surveillance de serveur mais sont rarement pérennes, bien que cruciales pour diagnostiquer les pannes, analyser les tendances afin de découvrir des problèmes latents et examiner les incidents de sécurité.

Syslog, WMI etc...

Il existe d'innombrables autres sources de données machine utiles et importantes en dehors de cette liste : journaux de référentiel de code source, journaux de sécurité physiques, etc. Les journaux de votre pare-feu et les journaux IDS demeurent nécessaires pour générer un rapport sur les connexions réseau et les attaques. Vos journaux de système d'exploitation, notamment syslog sous Unix et Linux et les journaux d'événements Windows, enregistrent qui s'est connecté à vos serveurs, les actions administratives effectuées, les moments de démarrage et d'arrêt du service et de panique du noyau. Les journaux issus de DNS, DHCP et d'autres services réseau enregistrent qui est affecté à quelle adresse IP et le mode de résolution des domaines. Syslog enregistre l'état des connexions à votre réseau et les pannes de ses composants critiques depuis vos routeurs, commutateurs et périphériques réseau. Le fait est que les données machine ne se réduisent pas aux journaux et qu'il existe un plus grand nombre d'informations que les seuls logs que les solutions de gestion conventionnelles peuvent prendre en charge.