Go - string实现原理
一、 string标准概念
Go标准库 builtin 给出了所有内置类型的定义。源代码位于 src/builtin/builtin.go ,其中关于string的描述如 下
// string is the set of all strings of 8-bit bytes, conventionally but not
// necessarily representing UTF-8-encoded text. A string may be empty, but
// not nil. Values of string type are immutable.
type string string
- 所以string是8比特字节的集合,通常但并不一定是UTF-8编码的文本。
- string可以为空(长度为0),但不会是nil;
- string对象不可以修改
二、string数据结构
源码包 src/runtime/string.go:stringStruct 定义了string的数据结构:
type stringStruct struct {
str unsafe.Pointer
len int
}
其数据结构很简单:
- stringStruct.str:字符串的首地址;
- stringStruct.len:字符串的长度;
string数据结构跟切片有些类似,只不过切片还有一个表示容量的成员,事实上string和切片,准确的说是byte切 片经常发生转换。
三、string操作
3.1 字符串声明
如下代码所示,可以声明一个string变量变赋予初值:
var str string
str = "Hello World"
字符串构建过程是先跟据字符串构建stringStruct,再转换成string。转换的源码如下:
func gostringnocopy(str *byte) string { // 跟据字符串地址构建string
ss := stringStruct{str:unsafe.Pointer(str),len:findnull(str)} // 先构造stringStruct
s := *(*string)(unsafe.Pointer(&ss)) //再将stringStruct转换成string return s
}
string在runtime包中就是stringStruct,对外呈现叫做string。
3.2 []byte转string
byte切片可以很方便的转换成string,如下所示:
func GetStringBySlice(s []byte) string {
return string(s)
}
需要注意的是这种转换需要一次内存拷贝。
转换过程如下:
- 跟据切片的长度申请内存空间,假设内存地址为p,切片长度为len(b);
- 构建string(string.str=p;string.len=len;)
- 拷贝数据(切片中数据拷贝到新申请的内存空间)
转换示意图:
3.3 string转[]byte
string也可以方便的转成byte切片,如下所示:
func GetSliceByString(str string) []byte {
return []byte(str)
}
string转换成byte切片,也需要一次内存拷贝,其过程如下:
- 申请切片内存空间
- 将string拷贝到切片
四、常见的问题
4.1 字符串拼接实现?
字符串可以很方便的拼接,像下面这样
str := "Str1" + "Str2" + "Str3"
即便有非常多的字符串需要拼接,Go性能上也有比较好的保证。
因为新字符串的内存空间是一次分配完成的,所以性能消耗主要在拷贝数据上。
一个拼接语句的字符串编译时都会被存放到一个切片中,拼接过程需要遍历两次切片。
第一次遍历获取总的字符串长 度,据此申请内存。
第二次遍历会把字符串逐个拷贝过去。
字符串拼接伪代码如下:
func concatstrings(a []string) string { // 字符串拼接
length:=0 // 拼接后总的字符串长度
for _,str:=range a {
length += length(str)
}
s,b:=rawstring(length) //生成指定大小的字符串,返回一个string和切片,二者共享内存空间
for _, str := range a {
copy(b, str)
b = b[len(str):]
}
return s
}
4.2 为什么字符串不允许修改?
像C++语言中的string,其本身拥有内存空间,修改string是支持的。
Go的实现中,string不包含内存空间,只 有一个内存的指针,这样做的好处是string变得非常轻量,可以很方便的进行传递而不用担心内存拷贝。
因为string通常指向字符串字面量,而字符串字面量存储位置是只读段,而不是堆或栈上,所以才有了string不可 修改的约定。
4.3 []byte转换成string一定会拷贝内存吗?
byte切片转换成string的场景很多,为了性能上的考虑有时候只是临时需要字符串的场景下,byte切片转换成 string时并不会拷贝内存,而是直接返回一个string,这个string的指针(string.str)指向切片的内存。
比如,编译器会识别如下临时场景:
- 使用m[string(b)]来查找map(map是string为key,临时把切片b转成string);
- 字符串拼接,如”<” + “string(b)” + “>”;
- 字符串比较:string(b) == “foo”
因为是临时把byte切片转换成string,也就避免了因byte切片同容改成而导致string引用失败的情况,所以此时可以不必拷贝内存新建一个string。
4.4 string和[]byte如何取舍?
string和[]byte都可以表示字符串,但因数据结构不同,其衍生出来的方法也不同,要跟据实际应用场景来选择。
string擅长的场景:
- 需要字符串比较的场景;
- 不需要nil字符串的场景;
[]byte擅长的场景:
- 修改字符串的场景,尤其是修改粒度为1个字节;
- 函数返回值,需要用nil表示含义的场景;
- 需要切片操作的场景;
虽然看起来string适用的场景不如[]byte多,但因为string直观在实际应用中还是大量存在,在偏底层的实现中 []byte使用更多