下面是在SAS中从数据集中选择一个简单的随机行样本的两种最常见的方法。
方法1:使用样本量选择随机样本
proc surveyselect data=original_data
out=random_sample
method=srs /*specify simple random sampling as sampling method*/
sampsize=3 /*select 3 observations randomly*/
seed=123; /*set seed to make this example reproducible*/
run;
方法2:使用总观察数的比例选择随机样本
proc surveyselect data=original_data
out=random_sample
method=srs /*specify simple random sampling as sampling method*/
samprate=0.2 /*select 20% of all observations randomly*/
seed=123; /*set seed to make this example reproducible*/
run;
下面的例子显示了如何在SAS中使用以下数据集的每种方法:
/*create dataset*/
data original_data;
input team $ points rebounds;
datalines;
Warriors 25 8
Wizards 18 12
Rockets 22 6
Celtics 24 11
Thunder 27 14
Spurs 33 19
Nets 31 20
Mavericks 34 10
Kings 22 11
Pelicans 39 23
;
run;
/*view dataset*/
proc print data=original_data;

例1:使用样本大小选择随机样本
下面的代码显示了如何使用n=3的样本量从数据集中选择一个随机的观察样本:
/*select random sample*/
proc surveyselect data=original_data
out=random_sample
method=srs
sampsize=3
seed=123;
run;
/*view random sample*/
proc print data=random_sample;

我们可以看到,从原始数据集中随机抽取了三行。
例2:使用总观察值的比例选择随机样本
下面的代码显示了如何使用samprate函数从数据集中选择一个随机的观测样本,指定我们希望随机样本代表所有原始观测值的20%:
/*select random sample*/
proc surveyselect data=original_data
out=random_sample
method=srs
samprate=0.2
seed=123;
run;
/*view random sample*/
proc print data=random_sample;

我们可以看到,从原始数据集中的总观测值的20%(20%*10个观测值=2)被随机选择到我们的样本中。
其他资源
下面的教程解释了如何在SAS中执行其他常见任务: