建议读本篇前对C语言有一定的了解。
C是一种具有模块化设计的命令式编程语言,具有简约、直观的设计风格,与相对清晰、简单的语言结构。
在谈C的语言结构之前,需要先解释一些基本元素的含义。
表达式
表达式是一个或多个变量、常量、函数与运算符按照特定规则的组合,表达式根据特定的优先级与运算符进行计算并返回一个值。
注意:单个变量、常量或函数名也是一个表达式。
以下面表达式为例:
var = fn(1) + 5
其中var
、fn
、1
、5
都是表达式,其返回值为自身的值;fn(1)
也是一个表达式,返回函数调用的返回值;fn(1) + 5
也是一个表达式,返回算术运算的结果;var = fn(1) + 5
也是一个表达式,返回赋值号左边的值,此例中此值被丢弃。
特别地,调用返回值为void
类型的函数将返回一个void
类型的值,但此值无法被使用,只能丢弃。
完整表达式
如果一个表达式不是其他表达式的子表达式,则称这个表达式为“完整表达式”。
以下面几个语句为例:
var = 1 + 2;
fn(var + 1);
if (var + 1) ;
-
表达式语句中的整个表达式为完整表达式,如上面的
var = 1 + 2
和fn(var + 1)
,但第二行的var + 1
不属于完整表达式。(函数调用实际上是运算符()
对函数和参数进行运算) -
if
、while
、switch
括号中的表达式以及for
括号中的每个分量都是完整表达式,所以第三行的var + 1
是完整表达式。
副作用
除了返回值以外对程序造成的其他影响称为副作用。比如修改变量的值,执行I/O操作等。
对于如下表达式:
var = 5
表达式的返回值为5
,副作用为将5
赋值给变量var
。
而对于以下表达式:
1 + 2
表达式返回3
,没有副作用。
通常说起“副作用”,总是觉得无关紧要或尽量避免,但对于命令式编程语言来说,副作用才是程序执行的主要目的。比如我们调用printf
函数,我们通常并不关心它的返回值,而是需要它把特定的字符输出到屏幕,而输出字符正是这个函数的副作用。
语句
语句是C的基本执行单元,语句不返回结果,仅执行副作用。
语句可分为简单语句和复合语句。
在C语言中,“;
”不是分隔符(for
语句中的“;
”除外),而是大部分语句的结尾。
申明不属于语句,因为申明通常不产生副作用,即使有时候会产生副作用(如初始化),但仍不将其视为语句,申明也以“;
”结尾。
C有5种语句:
- 表达式语句
- 跳转语句
- 选择语句
- 循环语句
- 标签语句
简单语句和复合语句
简单语句指内部不包含其他语句的语句。如表达式语句和跳转语句。最简单的语句是只有一个“;
”的空语句。
复合语句的定义与简单语句相反,即其内部有其他语句。
将几个语句用{}
括起来就形成了复合语句“块”,最简单的复合语句是空块{}
。
复合语句可以进行多次复合,比如块可以嵌套,复合语句的子语句可以是其他复合语句。
C语言没有else if
关键字,这种语法结构只是将上一个if
语句的else
部分复合了另一个if
语句,将他们写在一起是为了使代码更简洁。
表达式语句
表达式语句为一个完整表达式后跟一个分号构成的语句。若表达式为空,就构成了空语句。
表达式语句是最简单也是最常见的语句。以下语句都是表达式语句:
;
1 + 2;
var = 5;
printf("hello, world\n");
跳转语句
跳转语句用于改变代码的执行顺序。跳转语句包括continue
、break
、return
、goto
语句。
选择语句
选择语句是复合语句,其作用是根据特定表达式的值对程序执行进行跳转。如if
、if
else
、switch
语句。
循环语句
循环语句是复合语句,其作用是根据特定表达式的值让一部分代码反复执行多次,如while
、do
while
、for
语句。循环语句也可以通过选择语句和跳转语句实现。
标签语句
在其他语句前加上标签即是标签语句。标签语句是复合语句,可以在任何语句(包括标签语句)前添加标签。
因为申明不是语句,所以不能在申明前添加标签。对于下面的代码,gcc给出如下错误提示:
lable:
int var = 0;
error: a label can only be part of a statement and a declaration is not a statement
switch
语句中的case
标签比较特殊。从形式上看,标签名必须是整数类型常量表达式,而且标签的作用域限定在当前的switch
语句中。实际上真正的标签名由编译器生成,代码中不可见,和其他标签没有区别。
标签是语句的一部分,而不只是个记号,所以块末尾不能是标签。
比如下面语句:
switch (var) {
case 1:
case 2:
case 3:
;
}
最后的分号是不可以省略的,空语句复合case 3
标签形成标签语句,然后又复合case 1
和case 2
,所以这个块内只有一条完整的复合语句。
C23允许在申明前和块末尾添加标签,此时编译器会自动在标签后添加一个空语句。
C语言结构
C语言代码文件包括源文件和头文件,源文件可以进行编译,之后链接成为可执行文件,头文件一般通过预处理指令包含到源文件中使用。
源文件由预处理指令、申明、类型定义、函数定义和注释组成。
预处理指令和注释可以出现在源文件的任何位置而不影响其功能,而申明和类型定义的位置决定了其作用域。
申明有时会伴随定义,定义一定会包含申明。
函数定义由返回值类型、函数名、参数列表和语句块组成。语句只能出现在函数定义内部。
C源文件必须有且只能有一个main
函数,C89规定,main
函数的返回值必须为int
类型,如果程序正常终止,应返回0。标准的main
函数应写为int main(void);
或int main(int argc, char const *argv[]);
。
序列点
C语言通过序列点控制副作用的执行。在该点处之前的代码的所有的副作用已经发生,在它之后的代码的所有副作用仍未开始。
序列点的存在一定程度上保证了程序按照预期执行,但仍存在一些未定义的行为。
C中的序列点很少,因为C追求效率,更少的序列点可以给编译器更多优化的空间。
注意:C中有很多符号同时承担多种功能,在不同语境下扮演不同的身份。
C的序列点包括:
1. && 与 || 运算符
&&
与||
运算符会先对左边的表达式求值并执行副作用。
对&&
运算符来说,只有当左边表达式的值为1时才对右边的表达式求值并执行副作用。这是对程序的一种优化,因为根据“与”逻辑,如果左边表达式的值为0,则总表达式的值定为0,无需对右边表达式进行计算。根据这一特性,可以写出更加符合人类逻辑的代码。
if (var != 0 && 3 == 100 / var) {}
如果没有此序列点,则可能会出现0做除数的错误。
||
运算符同理,只有当左边表达式的值为0时才对右边的表达式求值并执行副作用。
2. 逗号运算符
“,
”在C语言中有很多用途,在某些地方它是分隔符,在某些地方它是运算符。比如以下表达式:
var = 1, var = 2
这里的“,
”不是分隔符,而是运算符。此逗号运算符的两边是两个赋值表达式,逗号表达式先对左边的表达式求值并执行副作用,此时var
的值被修改为1
,之后对右边的表达式求值并执行副作用,var
的值被修改为2
,最后,逗号表达式返回右边表达式的值,即2
。
逗号表达式的特性可以使两个表达式像两个表达式语句那样执行,适合用在需要用表达式代替语句块的地方,如for
语句的括号内。
3. 三元运算符 ? : 中的 ?
在 ?
前的表达式求值并执行副作用后,才判断返回其后哪个表达式的值。并且,如果确定返回某个表达式的值,则不会对另一个表达式求值或执行副作用。
?
:
表达式的这个特性使其行为与if
else
表现一致。
4. 完整表达式的末尾
完整表达式的末尾也是一个序列点,这保证了表达式语句的副作用按照其书写顺序执行。
同时,根据前面对完整表达式的定义,if
、while
、switch
括号中的表达式以及for
括号中的每个分量都是完整表达式,这些表达式的副作用也都会在语句其他部分开始前执行。
5. 函数调用与返回
函数调用时参数列表中的逗号不是表达式,而是分隔符。
参数列表的求值顺序是未定义的,比如fn(a++, b--)
,a++
和b--
的求值顺序是未知的,取决于编译器。
此处的序列点表现为在进入函数前,所有表达式的副作用都已经完成;函数返回时,返回值已经拷贝到调用处。
6. 初始化末尾
因为初始化是申明的一部分,不属于语句或表达式,所以不能套用表达式的说法,但其表现是类似的。
如下申明:
int var = 5;
在分号前已经完成副作用,即把var
初始化为5
。
7. 初始化列表中的逗号分隔符
初始化列表中的逗号是分隔符而不是运算符。
初始化列表中的表达式按照从左到右的顺序求值并执行副作用。
如下代码:
int var = 0;
int array[] = { var++, var++, var++ };
array[0]
、array[1]
、array[2]
分别为0
、1
、2
,最终var
的值为3
。
8. 申明中的逗号分隔符
申明中的逗号是分隔符而不是运算符。
如下代码:
int a = 0;
int b = a++, c = a++;
b
、c
分别被初始化为0
、1
。
而且,在逗号前的变量已经申明完成,逗号后的则不然。
如下代码:
int a = 0, b = a; //Correct
int c = d, d = 0; //Error
在申明b
前,a
已经申明并初始化完成,所以可以用a
初始化b
。而在申明c
时还没有申明d
,所以初始化会报错。
因为缺少序列点,C会产生很多未定义的行为。最典型的例子是:
int var = 0;
var = var++;
根据优先级,表达式var = var++
的值是确定的,然而赋值和自增副作用的执行顺序是未定义的,所以var
的值是未知的。如果用gcc编译这段代码,var
的值为0
,比较符合预期;但在VC++中,var
的值为1
。
所以我们应避免在表达式中同时使用某一变量和它的自增表达式。