程序控制结构

S是一个表达式语言,其任何一个语句都可以看成是一个表达式。表达式之间以分号分隔或用换行分隔。表达式可以续行,只要前一行不是完整表达式(比如末尾是加减乘除等运算符,或有未配对的括号)则下一行为上一行的继续。

若干个表达式可以放在一起组成一个复合表达式,作为一个表达式使用。组合用大括号表示,如:

> {
>  x <- 15
>  x
> }
S语言也提供了其它高级程序语言共有的分支、循环等程序控制结构。

分支结构

分支结构包括if结构:
		if (条件) 表达式1
		if (条件) 表达式1 else 表达式2

其中的“条件”为一个标量的真或假值,表达式可以是用大括号包围的复合表达式。有else 子句时一般写成:

		if(条件) {
			表达式组……
		} else {
			表达式组………
		}
这样的写法可以使else不至于脱离前面的if。例如,如果变量lambda为缺失值就给它赋一个缺省值,可用:
if(is.na(lambda)) lambda <- 0.5;

又比如要计算向量x的重对数,这只有在元素都为正且对数都为正时才能做到,因此需要先检查:

if(all(x>0) && all(log(x))>0) {
  y <- log(log(x));
  print(cbind(x,y));
  }
else{
  cat('Unable to comply\n');
  }

注意“&&”表示“与”,它是一个短路运算符,即第一个条件为假时就不计算第二个条件,如果不这样此例中计算对数就可以有无效值。在条件中也可以用“||”(两个连续的竖线符号)表示“或”,它也是短路运算符,当第一个条件为真时就不再计算第二个条件。

在用S编程序时一定要时刻牢记S是一个向量语言,几乎所有操作都是对向量进行的。而S中的if语句却是一个少见的例外,它的判断条件是标量的真值或假值。比如,我们要定义一个分段函数f(x),当x为正时返回1,否则返回0,马上可以想到用if语句实现如下:

if(x>0) 1 else 0

当x是标量时这个定义是有效的,但是当自变量x是一个向量时,比较的结果也是一个向量,这时条件无法使用。所以,这个分段函数应该这样编程:

y <- numeric(length(x))
y[x>0] <- 1
y[x<=0] <- 0
y

有多个if语句时else与最近的一个配对。可以使用if ... else if ... else if ... else ...的多重判断结构表示多分支。多分支也可以使用switch()函数。

循环结构

循环结构中常用的是for循环,是对一个向量或列表的逐次处理,格式为“for( name in values) 表达式”,如:

for(i in seq(along=x){
  cat('x(', i, ') = ', x[i], '\n', sep='');
  s <- s+x[i];
}

这个例子我们需要使用下标的值,所以用seq(along=x)生成了x的下标向量。如果不需要下标的值,可以直接如此使用:

for(xi in x){
  cat(xi, '\n')
  s <- s + xi
}

当然,如果只是要求各元素的和,只要调用sum(x)即可。从这里我们也可以看出,显式的循环经常是可以避免的,利用函数对每个元素计算值、使用sum等统计函数及apply、lapply 、sapply、tapply等函数往往可以代替循环。因为循环在S中是很慢的(S-PLUS和R都是解释语言),所以应尽可能避免使用显式循环。

我们再举一个例子。比如,我们要计算同生日的概率。假设一共有365个生日(只考虑月、日),而且各生日的概率是相等的(这里忽略了闰年的情况以及可能存在的出生日期分布的不均匀)。设一个班有n个人,当n大于等于365时至少两个人生日相同是必然时间。当n小于365时,我们可以计算P{至少有两人同生日}= 1 - P{n个人生日彼此不同},这时,n个人的生日可取值数为 ,而n个人彼此不同的可能数为365中取n个的排列数,彼此不同的概率为 。因此,为了计算n=1,2,...,364的情况下的同生日概率,可以用如下循环实现:

> x <- numeric(364)
> for(i in 1:364){
+   x[i] <- 1
+   for(j in 0:(i-1))
+     x[i] <- x[i] * (365-i)/365
+   x[i] <- 1 - x[i]
+ }

这段程序运行了36秒。我们可以尽量用向量运算来实现,速度要快得多:

> x <- numeric(364)
> for(n in 1:364){
+   x[n] <- 1 - prod((365:(365-n+1))/365)
+ }

这段程序只用了1秒。注意不能直接去计算365!,这会超出数值表示范围。

另外要注意使用for(i in 1:n)格式的计数循环时要避免一个常见错误,即当n为零或负数时1:n是一个从大到小的循环,而我们经常需要的是当n为零或负数时就不进入循环。为达到这一点,可以在循环外层判断循环结束值是否小于开始值。

while循环是在开始处判断循环条件的当型循环,如:

while(b-a>eps){
  c <- (a+b)/2;
  if(f(c)>0) b <- c
  else a <- c
  }

是一段二分法解方程的程序。

还可以使用

		repeat 表达式
循环,在循环体内用break跳出。

在一个循环体内用next表达式可以进入下一轮循环。

分支和循环结构主要用于定义函数。