S是一个表达式语言,其任何一个语句都可以看成是一个表达式。表达式之间以分号分隔或用换行分隔。表达式可以续行,只要前一行不是完整表达式(比如末尾是加减乘除等运算符,或有未配对的括号)则下一行为上一行的继续。
若干个表达式可以放在一起组成一个复合表达式,作为一个表达式使用。组合用大括号表示,如:
> { > x <- 15 > x > }S语言也提供了其它高级程序语言共有的分支、循环等程序控制结构。
if (条件) 表达式1或
if (条件) 表达式1 else 表达式2
其中的“条件”为一个标量的真或假值,表达式可以是用大括号包围的复合表达式。有else 子句时一般写成:
if(条件) { 表达式组…… } else { 表达式组……… }这样的写法可以使else不至于脱离前面的if。例如,如果变量lambda为缺失值就给它赋一个缺省值,可用:
if(is.na(lambda)) lambda <- 0.5;
又比如要计算向量x的重对数,这只有在元素都为正且对数都为正时才能做到,因此需要先检查:
if(all(x>0) && all(log(x))>0) { y <- log(log(x)); print(cbind(x,y)); } else{ cat('Unable to comply\n'); }
注意“&&”表示“与”,它是一个短路运算符,即第一个条件为假时就不计算第二个条件,如果不这样此例中计算对数就可以有无效值。在条件中也可以用“||”(两个连续的竖线符号)表示“或”,它也是短路运算符,当第一个条件为真时就不再计算第二个条件。
在用S编程序时一定要时刻牢记S是一个向量语言,几乎所有操作都是对向量进行的。而S中的if语句却是一个少见的例外,它的判断条件是标量的真值或假值。比如,我们要定义一个分段函数f(x),当x为正时返回1,否则返回0,马上可以想到用if语句实现如下:
if(x>0) 1 else 0
当x是标量时这个定义是有效的,但是当自变量x是一个向量时,比较的结果也是一个向量,这时条件无法使用。所以,这个分段函数应该这样编程:
y <- numeric(length(x)) y[x>0] <- 1 y[x<=0] <- 0 y
有多个if语句时else与最近的一个配对。可以使用if ... else if ... else if ... else ...的多重判断结构表示多分支。多分支也可以使用switch()函数。
循环结构中常用的是for循环,是对一个向量或列表的逐次处理,格式为“for( name in values) 表达式”,如:
for(i in seq(along=x){ cat('x(', i, ') = ', x[i], '\n', sep=''); s <- s+x[i]; }
这个例子我们需要使用下标的值,所以用seq(along=x)生成了x的下标向量。如果不需要下标的值,可以直接如此使用:
for(xi in x){ cat(xi, '\n') s <- s + xi }
当然,如果只是要求各元素的和,只要调用sum(x)即可。从这里我们也可以看出,显式的循环经常是可以避免的,利用函数对每个元素计算值、使用sum等统计函数及apply、lapply 、sapply、tapply等函数往往可以代替循环。因为循环在S中是很慢的(S-PLUS和R都是解释语言),所以应尽可能避免使用显式循环。
我们再举一个例子。比如,我们要计算同生日的概率。假设一共有365个生日(只考虑月、日),而且各生日的概率是相等的(这里忽略了闰年的情况以及可能存在的出生日期分布的不均匀)。设一个班有n个人,当n大于等于365时至少两个人生日相同是必然时间。当n小于365时,我们可以计算P{至少有两人同生日}= 1 - P{n个人生日彼此不同},这时,n个人的生日可取值数为 ,而n个人彼此不同的可能数为365中取n个的排列数,彼此不同的概率为 。因此,为了计算n=1,2,...,364的情况下的同生日概率,可以用如下循环实现:
> x <- numeric(364) > for(i in 1:364){ + x[i] <- 1 + for(j in 0:(i-1)) + x[i] <- x[i] * (365-i)/365 + x[i] <- 1 - x[i] + }
这段程序运行了36秒。我们可以尽量用向量运算来实现,速度要快得多:
> x <- numeric(364) > for(n in 1:364){ + x[n] <- 1 - prod((365:(365-n+1))/365) + }
这段程序只用了1秒。注意不能直接去计算365!,这会超出数值表示范围。
另外要注意使用for(i in 1:n)格式的计数循环时要避免一个常见错误,即当n为零或负数时1:n是一个从大到小的循环,而我们经常需要的是当n为零或负数时就不进入循环。为达到这一点,可以在循环外层判断循环结束值是否小于开始值。
while循环是在开始处判断循环条件的当型循环,如:
while(b-a>eps){ c <- (a+b)/2; if(f(c)>0) b <- c else a <- c }
是一段二分法解方程的程序。
还可以使用
repeat 表达式循环,在循环体内用break跳出。
在一个循环体内用next表达式可以进入下一轮循环。
分支和循环结构主要用于定义函数。