Formation Undertracks Orange

June 30, 2015 in Data, Support by mandran nadine

Le 30 juin 2015, une formation sur les opérateurs Undertracks Orange a été organisée. Elle a rassemblé 10 personnes de 4 équipes du laboratoire (PRIMA, MeTAH, PIMLIG, IIHM). Voir la démonstration en vidéo.

 

by denisb

Modélisation des données

March 24, 2015 in Data, Support by denisb

Le modèle de données d’Undertracks est issu d’un travail de modélisation entrepris par les membres d’une équipe multi-disciplinaire :

  • en informatique
  • en didactique des sciences expérimentales
  • en statistique et analyse des données

travaillant ensemble dans le domaine des EIAH. Le cœur du modèle correspond à la notion de log : liste d’évènements observés (comprenant la date de chaque observation, l’agent concerné par cette observation, l’action et le contexte décrivant l’observation). Associés à ce cœur dynamique, se trouvent des descriptions statiques des dimensions évoquées dans le log (agent, action, contexte). L’implémentation en terme de base de données donne un modèle en 4 tables :

  • une table de log
  • une table agent (optionnelle, mais qui, si elle existe, est liée par un attribut à la table de log)
  • une table action (optionnelle, mais qui, si elle existe, est liée par un attribut à la table de log)
  • une table contexte (optionnelle, mais qui, si elle existe, est liée par un attribut à la table de log)

L’ensemble forme les évènements d’une étude.

DiagrammeUTEtoile

Cette modélisation peut faire penser à une modélisation sous la forme d’un schéma en étoile dans une approche décisionnelle. La table centrale, la table des faits serait la table des Logs, et les dimensions d’analyses seraient :

  • les utilisateurs
  • les actions
  • les contextes

Du fait de la structure de la table des logs, une dimension temporelle implicite peut aussi être prise en compte.

Les pratiques en modélisation dans le domaine du décisionnel laissent imaginer l’association de plusieurs études pour réaliser une galaxie (constellation).

DiagrammeUTGalaxie

Dans notre cas, il n’est pas envisagé de flocon (description hiérarchique d’une dimension à travers une arborescence de tables ). C’est un choix cohérent avec une utilisation “simple” d’UnderTracks.

Dans un perspective BI (décisionnelle), une visualisation standard 2D des données proposerait :

  • Drill Up – Drill Down (agrégation – détail selon une dimension)
  • Rotate (choix des 2 dimensions)
  • Slicing – Scoping (sélection selon une valeur donnée d’une dimension)

mais, c’est une autre histoire, pour plus tard …

by denisb

Fichiers CSV

February 25, 2015 in Data, Support by denisb

En entrée d’Undertracks, les données d’une étude peuvent être données sous la forme d’un fichier CSV. Le format CSV, ce n’est pas seulement donner “.csv” comme extension à son fichier, ou demander à son tableur préféré de le faire. C’est un format simple pour enregistrer des tableaux de données basé sur une organisation en 2 dimensions : ligne x colonne. Chaque ligne est indiquée par un saut de ligne (et les ennuis commencent : quel saut de ligne ? à la unix ? à la windows ? à la macos ? espérons que cela ne pose pas  de problème) Chaque colonne est délimitée par un caractère spécial, en principe la virgule (“comma”). D’autres délimiteurs sont possibles :  la tabulation, le “|”, le “;” et les caractères ascii non visibles N° 30 et 31 (plus difficile à obtenir, mais comme ils sont plus rares, ils sont aussi parfois plus pratique car n’interfèrent pas avec les données.   Ex.

Sexe,Prenom,Date
M,Alain,1912
F,Bea,1964
F,Bob,196

Parmi les points à prendre en compte pour avoir un bon fichier csv :

  • le codage : UTF8
  • le format de date : yyyy/mm/DD HH:MM:SS (de préférence)
  • un entête de colonne clair
  • pas de colonne vide
  • des colonnes bien remplies
by denisb

Basic vocabulary

May 28, 2014 in Support by denisb

Study

  • top concept
  • concerns the whole work which can be divided into two phases: the data production phase and the data analysis phase
  • metadata can be given to describe a study

Event

  • main concept for data
  • it coresponds to lines in 2d data table
  • it can be represented with a compound tuple: (date, agent, action, context, …)
  • the column of 2d data table is called attribut
  • the set of all events of a study is called corpus

Process

  • main concept for analysis
  • it is a acyclic directed graph composed of 2d data tables and operators
  • examples of processes are given here
  • operator are basic algorithms which needs configuration details to be fully de described
  • example of operator: rename, with configuration (in:”connect”, out:”begin”) to express the strings to be renamed
by denisb

Hysteresis.

May 14, 2014 in Support by denisb

UnderTracks got a matrix, it’s called hysteresis (Thanks to Claire).


UnderTracks a sa matrice, elle s’appelle hysteresis (Merci à Claire)

.

by denisb

Video 1

May 14, 2014 in Example, Process, Support by denisb

Un petit exemple (avec l’une des première version de l’interface) de processus :