Le logiciel R utilisé en SAS : comment rapprocher ces deux langages ?

7e Rencontres R

"R via SAS : Tirer profit de R au sein d’une chaîne de traitement SAS"

Par Louis Pecourt, data scientist - Innovation et Projets

L’utilisation de SAS dans des traitements en production est très répandu en entreprise. SAS possède ses avantages mais ne propose pas le même accès (en particulier sur un aspect financier) à la diversité d’outils et de méthodologies mis à disposition des utilisateurs R via les packages. Afin d’éviter d’avoir à reprogrammer dans SAS l’équivalent d’une fonction existante dans R, inversement retranscrire la totalité d’une chaine de traitement SAS en R, simplifier l’interaction entre ces deux langages était notre objectif. Quelques solutions existent, qui permettent autant de tester de nouvelles méthodes/algorithmes, que d’implémenter une partie d’une chaine de traitement industrialisée en R.

SAS, via sa procédure IML et à condition que R soit installé sur la machine, permet d’exécuter du code R et de passer de données SAS (tables, matrices IML, macro variable, etc.) en données R (data frame, matrice, vecteurs, etc.) et inversement. Certaines limites sont à déplorer comme des incompatibilités (entre la version de SAS, la version du module SAS/IML, la version de R puis les versions de package), le journal et particulièrement les messages d’erreurs R qui peuvent être partiels ou pour finir des limitations sur les performances et la mémoire exploitable. Malgré les inconvénients, cela devient un moyen très accessible permettant de lier les deux langages et facilite l’ordonnancement d’un traitement nécessitant le passage d’un langage à l’autre.

D’autres possibilités permettent de faciliter la liaison entre ces deux langages, comme par exemple :

- Packages R permettant la lecture de tables SAS (haven, sas7bdat)

- Via l’exécution d’un script R en langage de commande via SAS (Rscript)

Ce Lightning Talk consiste en un retour d’expérience sur la mise en production d’un traitement alternant codes SAS et R dans un environnement où l’expertise SAS est prédominante.

 

Pour consulter l'intégralité de cette présentation, cliquez sur l'icône de téléchargement ci-dessous.

Téléchargements

Calcul d’intervalle de confiance à 95%

Taille de l'échantillon ou d'une cible dans l'échantillon

n =

Proportion observée dans l'échantillon ou sur une cible dans l'échantillon

p =

%

Attention : ne s'applique qu'à une proportion. Le Taux Moyen est une moyenne de proportions et la Part d'audience un rapport de proportions.
Cet outil est donné à titre indicatif. Il ne saurait pouvoir s'appliquer sans autres précautions à des fins professionnelles.

Test de significativité des écarts entre deux proportions

Permet d'évaluer si la différence entre 2 proportions est significative au seuil de 95%

Proportion

Taille de l'échantillon

Échantillon 1

%

Échantillon 2

%

Attention : ne s'applique qu'à une proportion. Le Taux Moyen est une moyenne de proportions et la Part d'audience un rapport de proportions.
Cet outil est donné à titre indicatif. Il ne saurait pouvoir s'appliquer sans autres précautions à des fins professionnelles.

En complément
×
Dictionnaire
Les mots
des médias
Nouvelle
édition
+500
définitions
A
B
C
D
E
F
G
H
I