Une analyse de contenu pertinente ne peut se faire sans performances informatiques astucieuses

Big Data

Le Big Data tend à être perçu de différentes façons, quand bien souvent il s'agit tout simplement de la dernire vague la mode sur laquelle surfer. Selon IDC, le Big Data est défini par les « quatre V » : volume, variété, vitesse, et valeur.

La question est alors la suivante :
Comment extraire de la valeur de ces masses considérables de données hétérogènes très fluctuantes ?

Chez Sinequa, nous ciblons encore davantage : nous nous occupons du Big Data concernant une entreprise ou une administration publique. Ceci peut inclure des centaines voire des milliers de sites Web, mais pas le Web dans son intégralité. Par ailleurs, il ne faut pas voir en « valeur »  une notion floue de valeur potentielle adaptée potentiellement à tout le monde. La valeur dépend toujours d'une entreprise ou d'une administration spécifique. Une analyse de contenu solide et efficace est nécessaire pour détecter une telle valeur. Tout comme une extrême scalabilité est requise pour faire face aux larges volumes de données qui s'accumulent même au sein d'organisations.

Ajoutez cela un zeste de flexibilit pour complter le tableau : à un moment donné, il se peut que vous nécessitiez une performance de haut niveau pour analyser et indexer le contenu de volumes conséquents de données ajoutées récemment. À un autre moment, cette performance peut être mise au service de milliers d'utilisateurs recherchant de la valeur parmi ce flot de données - une valeur qui, rappelons-le, dépend de leur contexte métier.

L'architecture en grille (Grid) de Sinequa offre cette extrême scalabilit et flexibilité.