GCC内联汇编
GCC 汇编语法
Linux
上的 GNU C
编译器 GCC
,使用 AT&T/UNIX
汇编语法。在这里,我们将使用 AT&T
语法 进行汇编编码。AT&T
语法和 Intel
语法的差别很大。
源操作数和目的操作数顺序
AT&T
语法的操作数方向和 Intel
语法的刚好相反。
在
Intel
语法中,第一操作数为目的操作数,第二操作数为源操作数。在
AT&T
语法中,第一操作数为源操作数,第二操作数为目的操作数。
寄存器命名
AT&T
语法寄存器名称有 %
前缀,即如果必须使用 eax
,它应该用作 %eax
。
立即数
AT&T
语法立即数以 $
为前缀。静态 C
变量也使用 $
前缀。在 Intel
语法中,十六进制常量以 h
为后缀,然而 AT&T
不使用这种语法,这里我们给常量添加前缀 0x
。所以,对于十六进制,我们首先看到一个 $
,然后是 0x
,最后才是常量。
例如:
1 | movl %ecx, $label(%edx,%ebx,$0x4) |
操作数大小
在 AT&T
语法中,存储器操作数的大小取决于操作码名字的最后一个字符。操作码后缀 b
、w
、l
分别指明了字节(8位)、字(16位)、长型(32位)存储器引用。
Intel
语法通过给存储器操作数添加 byte ptr
、 word ptr
和 dword ptr
前缀来实现这一功能。
因此,Intel
的 mov al, byte ptr foo
在 AT&T
语法中为 movb foo, %al
。
存储器操作数
在 Intel
语法中,基址寄存器包含在 [
和 ]
中,然而在 AT&T
中,它们变为 (
和 )
。
另外,在 Intel
语法中, 间接内存引用为 section:[base + index*scale + disp]
,在 AT&T
中变为 section:disp(base, index, scale)
。
需要牢记的一点是,当一个常量用于 disp
或 scale
,不能添加 $
前缀。
现在我们看到了 Intel
语法和 AT&T
语法之间的一些主要差别。我仅仅写了它们差别的一部分而已。关于更完整的信息,请参考 GNU
汇编文档。现在为了更好地理解,我们可以看一些示例。
1 | +------------------------------+------------------------------------+ |
基本内联
基本内联汇编的格式非常直接了当,它的基本格式为:
1 | asm("汇编代码"); |
示例
1 | asm("movl %ecx %eax"); /* 将 ecx 寄存器的内容移至 eax */ |
asm
和 __asm__
这两者都是有效的,如果关键词 asm
和我们程序的一些标识符冲突了,我们可以使用 __asm__
。如果我们的汇编指令有多条时,可以每一条指令一行,并用双引号圈起,同时为每条指令添加 \n\t
后缀。
例如:
1 | __asm__ ("movl %eax, %ebx\n\t" |
扩展汇编
在基本内联汇编中,我们只有指令,然而在扩展汇编中,我们可以同时指定操作数。操作数允许我们指定输入寄存器、输出寄存器以及修饰寄存器列表。GCC
不强制用户必须指定使用的寄存器。我们可以把头疼的事留给 GCC
,这可能可以更好地适应 GCC
的优化。基本格式为:
1 | asm ( 汇编程序模板 |
汇编程序模板由汇编指令组成。第一个 :
用于将汇编程序模板和第一个输出操作数分开,第二个 :
用于将最后一个输出操作数和第一个输入操作数分开。 ,
用于分离每一个组内的操作数,总操作数的数目限制在 10
个,或者机器描述中的任何指令格式中的最大操作数数目,以较大者为准。
如果没有输出操作数但存在输入操作数,你必须将两个连续的冒号放置于输出操作数原本会放置的地方周围。
例如:
1 | asm("cld\n\t" |
以上的内联汇编是将 fill_value
值连续 count
次拷贝到寄存器 edi
所指位置。 它也告诉 gcc
寄存器 ecx
和 edi
将会被修改。
为了更加清晰地说明,让我们再看一个示例。
1 | int a=10, b; |
这里我们所做的是使用汇编指令使 b
变量的值等于 a
变量的值。一些有意思的地方是:
b
为输出操作数,用%0
引用;a
为输入操作数,用%1
引用。r
为操作数约束。r
告诉GCC
可以使用任一寄存器存储操作数。=
是一个约束修饰符 ,它表明b
是一个可写的输出操作数。寄存器名字以两个
%
为前缀。这有利于GCC
区分操作数和寄存器,操作数以一个%
为前缀。第三个冒号之后的修饰寄存器
%eax
用于告诉GCC
%eax
的值将会在asm
内部被修改,所以GCC
将不会使用此寄存器存储任何其他值。
当 asm
执行完毕, b
变量会映射到更新的值,因为它被指定为输出操作数。换句话说, asm
内 b
变量的修改应该会被映射到 asm
外部。
汇编程序模板
汇编程序模板包含了被插入到 C
程序的汇编指令集。其格式为:
每条指令用双引号圈起,或者整个指令组用双引号圈起。同时每条指令应以分界符结尾。有效的分界符有换行符(\n
)和分号(;
)。一般使用换行符后会添加一个制表符(\t
),原因就是为了排版和分隔。 C
变量对应的操作数使用 %0、%1 ... %n-1
表示。
操作数
C
变量用作 asm
内的汇编指令操作数。每个操作数前面是以双引号圈起的操作数约束,对于输出操作数,在引号内还有一个额外约束修饰符。约束字符串主要用于决定操作数的寻址方式,同时也用于指定使用的寄存器。
如果我们使用多个操作数,那么每一个操作数用逗号隔开。
在汇编程序模板中,每个操作数用数字引用。编号方式如下,如果总共有 n
个操作数(包括输入和输出操作数),那么第一个输出操作数编号为 0
,逐项递增,并且最后一个输入操作数编号为 n - 1
。
输出操作数变量必须为左值。输入操作数的要求不像这样严格。扩展汇编特性常常用于编译器所不知道的机器指令 。
所以现在我们来关注一些示例。我们想要求一个数的5次方结果。为了计算该值,我们使用 lea
指令。
1 | asm ("leal (%1,%1,4), %0" |
如果我们想要输入和输出放在同一个寄存器里,我们也可以要求 GCC
这样做。
1 | asm ("leal (%0,%0,4), %0" |
现在输出和输出操作数位于同一个寄存器。但是我们无法得知是哪一个寄存器。现在假如我们也想要指定操作数所在的寄存器,这里有一种方法。
1 | asm ("leal (%%ecx,%%ecx,4), %%ecx" |
在头两个示例, GCC
决定了寄存器并且它知道发生了什么改变。在最后一个示例,我们不必将 ecx
添加到修饰寄存器列表, gcc
知道它表示 x
。因为它可以知道 ecx
的值,它就不被当作修饰的了。
修饰寄存器列表
一些指令会破坏一些硬件寄存器内容。我们不得不在修饰寄存器中列出这些寄存器,即汇编函数内第三个 :
之后的域。这可以通知 gcc
我们将会自己使用和修改这些寄存器,这样 gcc
就不会假设存入这些寄存器的值是有效的。我们不用在这个列表里列出输入、输出寄存器。因为 gcc
知道 asm
使用了它们。如果指令隐式或显式地使用了任何其他寄存器,(并且寄存器没有出现在输出或者输出约束列表里),那么就需要在修饰寄存器列表中指定这些寄存器。
如果我们的指令可以修改条件码寄存器( cc
),我们必须将 cc
添加进修饰寄存器列表。
如果我们的指令以不可预测的方式修改了内存,那么需要将 memory
添加进修饰寄存器列表。这可以使 GCC
不会在汇编指令间保持缓存于寄存器的内存值。如果被影响的内存不在汇编的输入或输出列表中,我们也必须添加 volatile
关键词。
我们可以按我们的需求多次读写修饰寄存器。参考一下模板内的多指令示例;它假设子例程 _foo
接受寄存器 eax
和 ecx
里的参数。
1 | asm ("movl %0,%%eax; |
Volatile
关键词 volatile
放置在 asm
后面、()
的前面,以防止编译器优化将指令移动、删除或者其他操作,我们将其声明为 asm volatile ( ... : ... : ... : ...);
。
如果担心发生冲突,请使用 __volatile__
。
如果我们的汇编只是用于一些计算并且没有任何副作用,不使用 volatile
关键词会更好。不使用 volatile
关键字 gcc
将会优化代码。
约束
约束用于表明一个操作数是否可以位于寄存器和位于哪种寄存器;操作数是否可以为一个内存引用和哪种地址;操作数是否可以为一个立即数和它可能的取值范围;等等。
常用约束
在许多约束中,只有小部分是常用的。我们来看看这些约束。
- 寄存器操作数约束
当使用这种约束指定操作数时,它们存储在通用寄存器( GPR
)中。请看下面示例:
1 | asm ("movl %%eax, %0\n" :"=r"(myval)); |
这里,变量 myval
保存在寄存器中,寄存器 eax
的值被复制到该寄存器中,并且 myval
的值从寄存器更新到了内存。当指定 r
约束时, gcc
可以将变量保存在任何可用的 GPR
中。要指定寄存器,你必须使用特定寄存器约束直接地指定寄存器的名字。它们为:
1 | +---+--------------------+ |
- 内存操作数约束
当操作数位于内存时,任何对它们的操作将直接发生在内存位置,这与寄存器约束相反,后者首先将值存储在要修改的寄存器中,然后将它写回到内存位置。但寄存器约束通常用于一个指令必须使用它们或者它们可以大大提高处理速度的地方。当需要在 asm
内更新一个 C
变量,而又不想使用寄存器去保存它的值,使用内存最为有效。例如, IDTR
寄存器的值存储于内存位置 loc
处:
1 | asm("sidt %0\n" : :"m"(loc)); |
- 匹配约束
在某些情况下,一个变量可能既充当输入操作数,也充当输出操作数。可以通过使用匹配约束在 asm
中指定这种情况。
1 | asm ("incl %0" :"=a"(var):"0"(var)); |
在这个匹配约束的示例中,寄存器 %eax
既用作输入变量,也用作输出变量。 var
输入被读进 %eax
,并且等递增后更新的 %eax
再次被存储进 var
。这里的 "0"
用于指定与第 0
个输出变量相同的约束。该约束可用于:
- 在输入从变量读取或变量修改后且修改被写回同一变量的情况。
- 在不需要将输入操作数实例和输出操作数实例分开的情况。
使用匹配约束最重要的意义在于它们可以有效地使用可用寄存器。
其他一些约束:
"m"
: 允许一个内存操作数,可以使用机器普遍支持的任一种地址。"o"
: 允许一个内存操作数,但只有当地址是可偏移的。即,该地址加上一个小的偏移量可以得到一个有效地址。"V"
: 一个不允许偏移的内存操作数。换言之,任何适合"m"
约束而不适合"o"
约束的操作数。"i"
: 允许一个(带有常量)的立即整形操作数。这包括其值仅在汇编时期知道的符号常量。"n"
: 允许一个带有已知数字的立即整形操作数。许多系统不支持汇编时期的常量,因为操作数少于一个字宽。对于此种操作数,约束应该使用'n'
而不是'i'
。"g"
: 允许任一寄存器、内存或者立即整形操作数,不包括通用寄存器之外的寄存器。
以下约束为 x86
特有。
"r"
: 寄存器操作数约束,查看上面给定的表格。"q"
: 寄存器a、b、c
或者d
。"I"
: 范围从0
到31
的常量(对于32
位移位)。"J"
: 范围从0
到63
的常量(对于64
位移位)。"K"
:0xff
。"L"
:0xffff
。"M"
:0、1、2
或3
(lea
指令的移位)。"N"
: 范围从0
到255
的常量(对于out
指令)。"f"
: 浮点寄存器"t"
: 第一个(栈顶)浮点寄存器"u"
: 第二个浮点寄存器"A"
: 指定"a"
或"d"
寄存器。这主要用于想要返回64
位整形数,使用"d"
寄存器保存最高有效位和"a"
寄存器保存最低有效位。
约束修饰符
当使用约束时,对于更精确的控制超过了对约束作用的需求,GCC
给我们提供了约束修饰符。最常用的约束修饰符为:
"="
: 意味着对于这条指令,操作数为可写的;旧值会被忽略并被输出数据所替换。"&"
: 意味着这个操作数为一个早期改动的操作数,其在该指令完成前通过使用输入操作数被修改了。因此,这个操作数不可以位于一个被用作输出操作数或任何内存地址部分的寄存器。如果在旧值被写入之前它仅用作输入而已,一个输入操作数可以为一个早期改动操作数。
上述只是一些常见的的约束列表和解释。
一些实用的诀窍
现在我们已经介绍了关于 GCC
内联汇编的基础理论,现在我们将专注于一些简单的例子。将内联汇编函数写成宏的形式总是非常方便的。我们可以在 Linux
内核代码里看到许多汇编函数。(usr/src/linux/include/asm/*.h
)。
首先我们从一个简单的例子入手。我们将写一个两个数相加的程序。
1 | int main(void) |
这里我们要求 GCC
将 foo
存放于 %eax
,将 bar
存放于 %ebx
,同时我们也想要在 %eax
中存放结果。"="
符号表示它是一个输出寄存器。现在我们可以以其他方式将一个整数加到一个变量。
1 | __asm__ __volatile__( |
这是一个原子加法。为了移除原子性,我们可以移除指令 lock
。在输出域中,"=m"
表明 myvar
是一个输出且位于内存。类似地,"ir"
表明 myint
是一个整型,并应该存在于其他寄存器。没有寄存器位于修饰寄存器列表中。
现在我们将在一些寄存器/变量上展示一些操作,并比较值。
1 | __asm__ __volatile__( "decl %0; sete %1" |
这里,my_var
的值减 1
,并且如果结果的值为 0
,则变量 cond
置 1
。我们可以通过将指令 "lock;\n\t"
添加为汇编模板的第一条指令以增加原子性。
这里需要注意的地方是:
my_var
是一个存储于内存的变量。cond
位于寄存器eax、ebx、ecx、edx
中的任何一个。memory
位于修饰寄存器列表中。也就是说,代码将改变内存中的内容。
如何置 1
或清 0
寄存器中的一个比特位。
1 | __asm__ __volatile__( "btsl %1,%0" |
这里 ADDR
变量的 pos
位置上的比特被设置为 1
。我们可以使用 btrl
来清除由 btsl
设置的比特位。 pos
的约束 "Ir"
表明 pos
位于寄存器,并且它的值为 0-31
。也就是说,我们可以设置/清除 ADDR
变量上第 0
到 31
位的任意位。因为条件码会被改变,所以我们将 "cc"
添加进修饰寄存器列表。
现在我们看看一些更为复杂而有用的函数。字符串拷贝。
1 | static inline char * strcpy(char * dest,const char *src) |
源地址存放于 esi
,目标地址存放于 edi
,同时开始拷贝,当我们到达 0
时,拷贝完成。约束 "&S"
、"&D"
、"&a"
表明寄存器 esi、edi
和 eax
早期修饰寄存器,也就是说,它们的内容在函数完成前会被改变。这里很明显可以知道为什么 "memory"
会放在修饰寄存器列表。
我们可以看到一个类似的函数,它能移动双字块数据。注意函数被声明为一个宏。
1 |
这里我们没有输出,寄存器 ecx、esi
和 edi
的内容发生了改变,这是块移动的副作用。因此我们必须将它们添加进修饰寄存器列表。
在 Linux
中,系统调用使用 GCC
内联汇编实现。让我们看看如何实现一个系统调用。所有的系统调用被写成宏(linux/unistd.h
)。例如,带有三个参数的系统调用被定义为如下所示的宏。
1 | type name(type1 arg1,type2 arg2,type3 arg3) \ |
无论何时调用带有三个参数的系统调用,以上展示的宏就会用于执行调用。系统调用号位于 eax
中,每个参数位于 ebx、ecx、edx
中。最后 "int 0x80"
是一条用于执行系统调用的指令。返回值被存储于 eax
中。
每个系统调用都以类似的方式实现。exit
是一个单一参数的系统调用,让我们看看它的代码看起来会是怎样。它如下所示。
1 | { |
exit
的系统调用号是 1
,同时它的参数是 0
。因此我们分配 eax
包含 1
,ebx
包含 0
,同时通过 "int $0x80"
执行 "exit(0)"
。这就是 exit
的工作原理。