Go语言interface实现原理详解

218 阅读10分钟

1 前言

1.1 Go汇编

 Go语言被定义为一门系统编程语言,与C语言一样通过编译器生成可直接运行的二进制文件。这一点与Java,PHP,Python等编程语言存在很大的不同,这些语言都是运行在基于C语言开发的虚拟机上,如果想深入了解运行原理只需要看懂对应的C语言开发的虚拟机 (绝大部分程序员应该都对C语言有基本的了解)。但是如果想深入学习Go语言,就需要对基本的汇编指令和语法有一定的了解 (通过汇编可以了解到编译器到底做了什么工作)

 通过下面的例子简单了解如何通过汇编来了解Go语言的运行原理。编辑一个go文本call_function.go,输入如下代码:

package main

func add(a, b int) int {
   return a + b
}

func main() {
   a := 10
   b := 20

   c := add(a, b)
   _ = c
}

 输入命令go build -gcflags '-l -N' call_function.go生成可执行文件,然后输入命令go tool objdump -s "main.main" call_function查看汇编代码如下:

TEXT main.main(SB) /Users/didi/Source/Go/src/ppt/call_function.go
  call_function.go:7    0x104f380       65488b0c25a0080000  MOVQ GS:0x8a0, CX
  call_function.go:7    0x104f389       483b6110        CMPQ 0x10(CX), SP
  call_function.go:7    0x104f38d       764c            JBE 0x104f3db
  call_function.go:7    0x104f38f       4883ec38        SUBQ $0x38, SP
  call_function.go:7    0x104f393       48896c2430      MOVQ BP, 0x30(SP)
  call_function.go:7    0x104f398       488d6c2430      LEAQ 0x30(SP), BP
  call_function.go:8    0x104f39d       48c74424280a000000  MOVQ $0xa, 0x28(SP)
  call_function.go:9    0x104f3a6       48c744242014000000  MOVQ $0x14, 0x20(SP)
  call_function.go:11   0x104f3af       488b442428      MOVQ 0x28(SP), AX
  call_function.go:11   0x104f3b4       48890424        MOVQ AX, 0(SP)
  call_function.go:11   0x104f3b8       488b442420      MOVQ 0x20(SP), AX
  call_function.go:11   0x104f3bd       4889442408      MOVQ AX, 0x8(SP)
  call_function.go:11   0x104f3c2       e899ffffff      CALL main.add(SB)
  call_function.go:11   0x104f3c7       488b442410      MOVQ 0x10(SP), AX
  call_function.go:11   0x104f3cc       4889442418      MOVQ AX, 0x18(SP)
  call_function.go:13   0x104f3d1       488b6c2430      MOVQ 0x30(SP), BP
  call_function.go:13   0x104f3d6       4883c438        ADDQ $0x38, SP
  call_function.go:13   0x104f3da       c3          RET
  call_function.go:7    0x104f3db       e89083ffff      CALL runtime.morestack_noctxt(SB)
  call_function.go:7    0x104f3e0       eb9e            JMP main.main(SB)

 第8-9行汇编代码,分别将SP(栈寄存器)偏移0x28和0x20的地址赋值为0xa和0x14,对应Go代码的第8行和第9行中的对a,b变量赋值,也就是说a变量对应的内存地址是SP+0x28,b变量对应的内存地址是SP+0x20。

 然后10~14行汇编代码表示对a,b变量进行拷贝,分别拷贝到SP+0x0和SP+0x8地址,然后调用add方法,这就是通常说到的函数调用时的“值传递”。

 输入命令go tool objdump -s "main.add" call_function,可以看到如下的汇编代码:

TEXT main.add(SB) /Users/didi/Source/Go/src/ppt/call_function.go
  call_function.go:3	0x104f360		48c744241800000000	MOVQ $0x0, 0x18(SP)
  call_function.go:4	0x104f369		488b442408		MOVQ 0x8(SP), AX
  call_function.go:4	0x104f36e		4803442410		ADDQ 0x10(SP), AX
  call_function.go:4	0x104f373		4889442418		MOVQ AX, 0x18(SP)
  call_function.go:4	0x104f378		c3			RET

 第3~5行汇编代码表示,将SP+0x8和SP+0x10地址的值相加,并复制到SP+0x18地址。  为什么在main函数中,a和b变量分别复制到了SP+0x0和SP+0x8地址,但是在add函数中,却将SP+0x8和SP+0x10地址的值进行相加呢?  这是因为在main函数中的汇编代码14行中,调用call执行时CPU会执行一次压栈操作,将函数调用完成以后需要返回的地址存在SP-0x8的地址处,并执行一次SP=SP-0x8的操作 (具体操作可以百度一下)。所以在add函数里面的SP+0x8和SP+0x10地址就对应着main函数中的SP+0x0和SP+0x8地址。  具体过程如下图: go函数调用.jpg

1.2 Go指针

 Go的库代码中大量使用了一些指针进行内存操作。但是在Go语言中指针变量是不能进行运算的,所以不能像C语言那样方便的对内存进行偏移寻址,但是Go中提供了unsafe包来对指针计算运算。  下面的例子可以说明使用方式:

package main

import (
	"fmt"
	"unsafe"
)

type Struct1 struct {
	A int64
	B int64
	C int64
}

type Struct2 struct {
	A int64
	B int64
	C int64
}

func main() {
	struct1 := Struct1 {
		A : 1,
		B : 2,
		C : 3,
	}

	struct2 := new(Struct2)

	var src uintptr = uintptr(unsafe.Pointer(&struct1))
	var dst uintptr = uintptr(unsafe.Pointer(struct2))
	for i := 0; i < 24; i++ {
		*(*uint8)(unsafe.Pointer(dst + uintptr(i))) = *(*uint8)(unsafe.Pointer(src + uintptr(i)))
	}

	fmt.Println("struct1=%v||struct2=%v", struct1, *struct2);
}

 在上面的例子将struct1对应内存的值复制到struct2对应的内存中,从例子中可以看出可以看到Go语言中

  • unsafe.Pointer类似于C中的void*,任何类型的指针都可以转换为unsafe.Pointer 类型,unsafe.Pointer 类型也可以转换为任何指针类型;
  • uintptr可以存go中的任何变量,如果想对指针进行运算,必须先把指针转换为uintptr。

2 Go的interface的实现

 在Go语言中interface是一个非常重要的概念,也是与其它语言相比存在很大特色的地方。interface也是一个Go语言中的一种类型,是一种比较特殊的类型,存在两种interface,一种是带有方法的interface,一种是不带方法的interface。Go语言中的所有变量都可以赋值给空interface变量,实现了interface中定义方法的变量可以赋值给带方法的interface变量,并且可以通过interface直接调用对应的方法,实现了其它面向对象语言的多态的概念。

2.1 内部定义

 两种不同的interface在Go语言内部被定义成如下的两种结构体 (源码基于Go的1.9.2版本)

// 没有方法的interface
type eface struct {
	_type *_type
	data  unsafe.Pointer
}

// 记录着Go语言中某个数据类型的基本特征
type _type struct {
	size       uintptr
	ptrdata    uintptr
	hash       uint32
	tflag      tflag
	align      uint8
	fieldalign uint8
	kind       uint8
	alg        *typeAlg
	gcdata    *byte
	str       nameOff
	ptrToThis typeOff
}

// 有方法的interface
type iface struct {
	tab  *itab
	data unsafe.Pointer
}

type itab struct {
	inter  *interfacetype
	_type  *_type
	link   *itab
	hash   uint32
	bad    bool
	inhash bool
	unused [2]byte
	fun    [1]uintptr
}

// interface数据类型对应的type
type interfacetype struct {
	typ     _type
	pkgpath name
	mhdr    []imethod
}

 可以看到两种类型的interface在内部实现时都是定义成了一个2个字段的结构体,所以任何一个interface变量都是占用16个byte的内存空间。

在Go语言中_type这个结构体非常重要,记录着某种数据类型的一些基本特征,比如这个数据类型占用的内存大小(size字段),数据类型的名称(nameOff字段)等等。每种数据类型都存在一个与之对应的_type结构体(Go语言原生的各种数据类型,用户自定义的结构体,用户自定义的interface等等)。如果是一些比较特殊的数据类型,可能还会对_type结构体进行扩展,记录更多的信息,比如interface类型,就会存在一个interfacetype结构体,除了通用的_type外,还包含了另外两个字段pkgpath和mhdr,后文在对这两个字段的作用进行解析。除此之外还有其它类型的数据结构对应的结构体,比如structtype,chantype,slicetype,有兴趣的可以在$GOROOT/src/runtime/type.go文件中查看。 iface和eface的内存分布.jpg

2.2 赋值

 存在对没有方法的interface变量和有方法的interface变量赋值这两种不同的情况。分别详解这两种不同的赋值过程。

  • 没有方法的interface变量赋值  对没有方法的interface变量赋值时编译器做了什么工作?创建一个eface.go文件,代码如下:
package main

type Struct1 struct {
	A int64
	B int64
}

func main() {
	s := new(Struct1)
	var i interface{}
	i = a

	_ = i
}

 输入命令go build -gcflags '-l -N' eface.go,go tool objdump -s "main.main" eface,查看汇编代码。

TEXT main.main(SB) /Users/didi/Source/Go/src/ppt/eface.go
     eface.go:8		0x104f360		4883ec38		SUBQ $0x38, SP
     eface.go:8		0x104f364		48896c2430		MOVQ BP, 0x30(SP)
     eface.go:8		0x104f369		488d6c2430		LEAQ 0x30(SP), BP
     eface.go:9		0x104f36e		48c7042400000000	MOVQ $0x0, 0(SP)
     eface.go:9		0x104f376		48c744240800000000	MOVQ $0x0, 0x8(SP)
     eface.go:9		0x104f37f		488d0424		LEAQ 0(SP), AX
     eface.go:9		0x104f383		4889442410		MOVQ AX, 0x10(SP)
     eface.go:10		0x104f388		48c744242000000000	MOVQ $0x0, 0x20(SP)
    eface.go:10		0x104f391		48c744242800000000	MOVQ $0x0, 0x28(SP)
    eface.go:11		0x104f39a		488b442410		MOVQ 0x10(SP), AX
    eface.go:11		0x104f39f		4889442418		MOVQ AX, 0x18(SP)
    eface.go:11		0x104f3a4		488d0dd5670000		LEAQ 0x67d5(IP), CX
    eface.go:11		0x104f3ab		48894c2420		MOVQ CX, 0x20(SP)
    eface.go:11		0x104f3b0		4889442428		MOVQ AX, 0x28(SP)
    eface.go:14		0x104f3b5		488b6c2430		MOVQ 0x30(SP), BP
    eface.go:14		0x104f3ba		4883c438		ADDQ $0x38, SP

 汇编代码第5~6行给结构体Struct1分配了空间SP+0x0和SP+0x8,第7~8行把这个结构体的地址放在存入了SP+0x10地址,这个地址就是变量s,第9~10行给interface类型的变量i分配了SP+0x20和SP+0x28,第13~14行把结构体A对应的_type的地址赋值到SP+0x20,然后把a变量赋值到了SP+0x28。这就是对没有方法的interface进行赋值的过程。赋值完以后的内存分配如下图: 没有方法的interface赋值.jpg

  • 有方法的interface变量赋值  如下一段代码在内存的分布
package main

type I interface {
	Add()
	Del()
}

type Struct1 struct {
	A int64
	B int64
}

func (a *Struct1) Add() {
	a.A = a.A + 1
	a.B = a.B + 1
}

func (a *Struct1) Del() {
	a.A = a.A - 1
	a.B = a.B - 1
}

func main() {
	a := new(Struct1)
	var i I
	i = a

	i.Add()
	i.Del()
}

有方法的interface赋值.jpg  这些内存地址都可以使用gdb调试时得到

(gdb) p i
$11 = {tab = 0x10a70e0 <Struct1,main.I>, data = 0xc42001a0c0}
(gdb) p a
$12 = (struct main.Struct1 *) 0xc42001a0c0
(gdb) p i.tab
$13 = (runtime.itab *) 0x10a70e0 <Struct1,main.I>
(gdb) p i.tab.inter
$14 = (runtime.interfacetype *) 0x105dc60 <type.*+59232>
(gdb) p i.tab._type
$15 = (runtime._type *) 0x105d200 <type.*+56576>

 通过对内存地址的打印,可以很清晰的看出在对有方法的interface变量进行赋值时的内存分布。Struct1类型和interface I类型都存在内存记录着各自的_type结构体信息,在将Struct1类型的变量赋值给interface I类型时,会有一个itab类型的结构体将Struct1类型和interface I类型关联起来。

 上面的例子都是将一个指针赋值给interface变量,如果是将一个值赋值给interface变量。会先对分配一块空间保存该值的副本,然后将该interface变量的data字段指向这个新分配的空间。将一个值赋值给interface变量时,操作的都是该值的一个副本。

2.3 方法的调用

 上面对有方法的interface进行赋值后,是如何实现通过接口变量实现了函数调用呢?参考下面的汇编代码

TEXT main.main(SB) /Users/didi/Source/Go/src/ppt/iface.go
    iface.go:23		0x104f3e0		65488b0c25a0080000	MOVQ GS:0x8a0, CX
    iface.go:23		0x104f3e9		483b6110		CMPQ 0x10(CX), SP
    iface.go:23		0x104f3ed		0f8687000000		JBE 0x104f47a
    iface.go:23		0x104f3f3		4883ec38		SUBQ $0x38, SP
    iface.go:23		0x104f3f7		48896c2430		MOVQ BP, 0x30(SP)
    iface.go:23		0x104f3fc		488d6c2430		LEAQ 0x30(SP), BP
    iface.go:23		0x104f401		488d0578ff0000		LEAQ 0xff78(IP), AX
    iface.go:24		0x104f408		48890424		MOVQ AX, 0(SP)
    iface.go:24		0x104f40c		e86fcefbff		CALL runtime.newobject(SB)
    iface.go:24		0x104f411		488b442408		MOVQ 0x8(SP), AX
    iface.go:24		0x104f416		4889442410		MOVQ AX, 0x10(SP)
    iface.go:25		0x104f41b		48c744242000000000	MOVQ $0x0, 0x20(SP)
    iface.go:25		0x104f424		48c744242800000000	MOVQ $0x0, 0x28(SP)
    iface.go:26		0x104f42d		488b442410		MOVQ 0x10(SP), AX
    iface.go:26		0x104f432		4889442418		MOVQ AX, 0x18(SP)
    iface.go:26		0x104f437		488d0da27c0500		LEAQ 0x57ca2(IP), CX
    iface.go:26		0x104f43e		48894c2420		MOVQ CX, 0x20(SP)
    iface.go:26		0x104f443		4889442428		MOVQ AX, 0x28(SP)
    iface.go:28		0x104f448		488b442420		MOVQ 0x20(SP), AX
    iface.go:28		0x104f44d		488b4020		MOVQ 0x20(AX), AX
    iface.go:28		0x104f451		488b4c2428		MOVQ 0x28(SP), CX
    iface.go:28		0x104f456		48890c24		MOVQ CX, 0(SP)
    iface.go:28		0x104f45a		ffd0			CALL AX
    iface.go:29		0x104f45c		488b442420		MOVQ 0x20(SP), AX
    iface.go:29		0x104f461		488b4028		MOVQ 0x28(AX), AX
    iface.go:29		0x104f465		488b4c2428		MOVQ 0x28(SP), CX
    iface.go:29		0x104f46a		48890c24		MOVQ CX, 0(SP)
    iface.go:29		0x104f46e		ffd0			CALL AX
    iface.go:30		0x104f470		488b6c2430		MOVQ 0x30(SP), BP
    iface.go:30		0x104f475		4883c438		ADDQ $0x38, SP
    iface.go:30		0x104f479		c3			RET
    iface.go:23		0x104f47a		e8f182ffff		CALL runtime.morestack_noctxt(SB)
    iface.go:23		0x104f47f		e95cffffff		JMP main.main(SB)

 汇编代码的第17行和18行,将itab的地址加载到SP+0x20地址处,第20,21行,24行将SP+0x20的值加载到AX寄存器,然后将AX+0x20地址的值加载到AX寄存器,CALL AX就实现了add方法的调用,其中第22行和23行的作用是将interface里面data字段的地址传递给了add方法。 iface函数调用.jpg  通过对itab结构体进行分析,可以看到偏移0x20处为fun字段,其中0x20处为add函数的入口地址,0x28处就是del函数的入口地址。

2.4 断言的实现

 在Go语言中,经常需要对一个interface变量进行断言

package main

type Struct1 struct {
	A int64
}

func main() {
	a := new(Struct1)

	var i interface{}
	i = a

	b, ok := i.(Struct1)
	if ok {
		_ = b
	}
}

 生成汇编代码进行分析

TEXT main.main(SB) /Users/didi/Source/Go/src/ppt/assert.go
  assert.go:7		0x104f360		4883ec48		SUBQ $0x48, SP
  assert.go:7		0x104f364		48896c2440		MOVQ BP, 0x40(SP)
  assert.go:7		0x104f369		488d6c2440		LEAQ 0x40(SP), BP
  assert.go:8		0x104f36e		48c744241000000000	MOVQ $0x0, 0x10(SP)
  assert.go:8		0x104f377		488d442410		LEAQ 0x10(SP), AX
  assert.go:8		0x104f37c		4889442420		MOVQ AX, 0x20(SP)
  assert.go:10		0x104f381		48c744243000000000	MOVQ $0x0, 0x30(SP)
  assert.go:10		0x104f38a		48c744243800000000	MOVQ $0x0, 0x38(SP)
  assert.go:11		0x104f393		488b442420		MOVQ 0x20(SP), AX
  assert.go:11		0x104f398		4889442428		MOVQ AX, 0x28(SP)
  assert.go:11		0x104f39d		488d0d1c680000		LEAQ 0x681c(IP), CX
  assert.go:11		0x104f3a4		48894c2430		MOVQ CX, 0x30(SP)
  assert.go:11		0x104f3a9		4889442438		MOVQ AX, 0x38(SP)
  assert.go:13		0x104f3ae		488b442438		MOVQ 0x38(SP), AX
  assert.go:13		0x104f3b3		488b4c2430		MOVQ 0x30(SP), CX
  assert.go:13		0x104f3b8		488d1581ed0000		LEAQ 0xed81(IP), DX
  assert.go:13		0x104f3bf		4839d1			CMPQ DX, CX
  assert.go:13		0x104f3c2		7402			JE 0x104f3c6
  assert.go:13		0x104f3c4		eb3f			JMP 0x104f405
  assert.go:13		0x104f3c6		488b00			MOVQ 0(AX), AX
  assert.go:13		0x104f3c9		b901000000		MOVL $0x1, CX
  assert.go:13		0x104f3ce		eb00			JMP 0x104f3d0

 汇编的第12行,17行,18行可以看出,将Struct1对应的_type结构体的地址赋值给interface以后。在进行断言的时候,原理就是将interface变量_type字段的与Struct1对应的_type结构地址进行对比。(在本例子中,第12行的IP寄存器对应的值是0x104f39d,0x681c(IP)对应的地址为0x1055BB9,第17行的IP寄存器对应的值是0x104f3b8,0xed81(IP)对应的地址为0x105E139,貌似并不相同。可能是对Go的汇编中对IP寄存器的理解存在偏差,找了几个小时资料都没找到原因。)

3 Go的反射

 反射是一种强大的语言特性,可以“动态”的调用方法,获取结构体运行时的一些特征,很多框架的实现都离不开反射。Go的反射就是通过interface类型来实现的。

3.1 反射获取变量的信息

 Go的反射包主要存在两个重要的结构体。

type Value struct {
	typ *rtype
	ptr unsafe.Pointer
	flag
}

func ValueOf(i interface{}) Value {
}

type Type interface {
	Align() int
	FieldAlign() int
	Method(int) Method
	Name() string
	//一堆方法
	//....
}

func TypeOf(i interface{}) Type {
	eface := *(*emptyInterface)(unsafe.Pointer(&i))
	return toType(eface.typ)
}

type emptyInterface struct {
	typ  *rtype
	word unsafe.Pointer
}

 任何一个变量可以通过调用ValueOf来获取到变量的Value结构体,通过TypeOf方法来获取变量的Type接口类型。通过TypeOf方法获取到的Type接口实际上就是该变量对应的_type。

 通过前面的分析,当通过TypeOf方法获取到变量的_type结构体后,很容易获取到该变量的一些基本信息,比如_type结构体中的各种字段都可以直接获取到。

3.2 反射修改变量的值

package main

import (
	"reflect"
)

func main() {
	var x int64 = 10

	reflect.ValueOf(x).SetInt(20)

	reflect.ValueOf(&x).SetInt(20)

	reflect.ValueOf(&x).Elem().SetInt(20)
}

 上面的例子中,第10行,12行都会报panic,只有第14行能修改变量的值。在使用ValueOf获取到Value结构体以后,flag字段记录着值能否进行修改,这样应该是为了避免误操作,保证api调用者明确了解到是否需要修改值。

3.3 反射修改结构体变量字段的值

 如果需要通过反射修改某结构体里面各个字段的值。

package main

import (
	"reflect"
	"fmt"
)

type Struct1 struct {
	A int64
	B int64
	C int64
}

func main() {
	P := new(Struct1)

	V := reflect.ValueOf(P).Elem()
	V.FieldByName("A").SetInt(100)
	V.FieldByName("B").SetInt(200)
	V.FieldByName("C").SetInt(300)

	fmt.Printf("%v", P)
}

 上面的代码中,需要根据结构体字段的名称对各个字段的值进行修改,内部是如何实现的呢? 自定义struct内存分布.jpg  每一个自定义的struct类型都存在这一个对应的structType结构体,该结构体记录了每个字段structField。通过对比structField里面的name字段,就可以获取到某个字段的type和偏移量。从而对具体的值进行修改。

3.4 反射动态调用方法

 动态的调用方法是怎么实现的?

package main

import (
	"reflect"
)

type Struct1 struct {
	A int64
	B int64
	C int64
}

func (p *Struct1) Set() {
	p.A = 200
}

func main() {
	P := new(Struct1)
	P.A = 100
	P.B = 200
	P.C = 300

	V := reflect.ValueOf(P)

	params := make([]reflect.Value, 0)
	V.MethodByName("Set").Call(params)
}

 结构体的方法在内存中存在如下的分布 反射获取方法.jpg  在编译过程中,结构体对应方法的相关信息都已经存在于内存中,分配了一块uncommonType的结构体跟在fields字段后面。根据内存的分布,如果需要根据一个结构体的名称获取到方法并且执行,只需要根据uncommonType结构中的moff字段去获取方法相关信息的地址块,然后逐个对比名称是否为想要获取的方法进行调用。

3.5 使用场景

 碰到一个使用场景,因为使用的go版本还不支持泛型,为了减少重复的编码,避免一直做结构体类型的判断和赋值。 通过反射的方式拿到调用方传入的参数的类型并赋值,例如传入的类型是结构体切片的指针时,能够对此结构体赋值。代码如下:

package main

import (
	"fmt"
	"reflect"
)

type StructT struct {
	A string
	B string
}

func main() {
	var aList []StructT
	var i interface{}
	i = &aList

	fmt.Println(reflect.ValueOf(i))
	fmt.Println(reflect.ValueOf(i).Type())
	fmt.Println(reflect.ValueOf(i).Elem().Type())
	fmt.Println(reflect.ValueOf(i).Elem().Type().Elem())
	fmt.Println(reflect.New(reflect.ValueOf(i).Elem().Type().Elem()))
}

// 输入:
// &[]
// *[]main.StructT
// []main.StructT
// main.StructT
// &{ }

 一般在json各种序列化库,或者各种orm库中,都需要用到这样的一些api。

4 总结

 本文从实现原理上分析了Go语言中interface类型和反射包的使用,相信各位读者以后再使用Go的interface类型和反射包时能做到胸有成竹,也能够对分析Go语言的其它特性提供思路。