go语言分割 golang 分词

go语言小白求助，为什么多态的接受的数据类型是接口，但是可以给他传输对象的地址？

因为结构Student和Teacher实现接口Human的方法SayHello时，接受的是通过一个指针类型的变量（见(s *Student)和(t *Teacher)）来调用这个方法。因此，在调用SayHi函数时，只能传递Student或Teacher的对象的地址，传递它们的对象是错的。

10年的建阳网站建设经验，针对设计、前端、开发、售后、文案、推广等六对一服务，响应快，48小时及时工作处理。营销型网站建设的优势是能够根据用户设备显示端的尺寸不同，自动调整建阳建站的显示方式，使网站能够适用不同显示终端，在浏览器中调整网站的宽度，无论在任何一种浏览器上浏览网站，都能展现优雅布局与设计，从而大程度地提升浏览体验。创新互联从事“建阳网站设计”,“建阳网站推广”以来，每个客户项目都认真落实执行。

相反，如果结构Student和Teacher实现接口Human的方法SayHello时，接受的是通过一个对象（像(s Student)和(t Teacher)）来调用这个方法。则在调用SayHi函数时，既能传递Student或Teacher的对象，也能传递Student或Teacher的对象的地址。

golang减少switch

相比较 C 和 Java 等其它语言而言，Go 语言中的 switch 结构使用上更加灵活。它接受任意形式的表达式，例如：

switch var1 {

case val1:

...

case val2:

...

default:

...

}

变量 var1 可以是任何类型，而 val1 和 val2 则可以是同类型的任意值。类型不被局限于常量或整数，但必须是相同的类型；或者最终结果为相同类型的表达式。前花括号{必须和 switch 关键字在同一行。您可以同时测试多个可能符合条件的值，使用逗号分割它们，例如：case val1, val2, val3。每一个 case 分支都是唯一的，从上至下逐一测试，直到匹配为止。一旦成功地匹配到每个分支，在执行完相应代码后就会退出整个 switch 代码块，也就是说你不需要特别使用 break 语句来表示结束。

Go语言里面switch默认相当于每个case最后带有break，匹配成功后不会自动向下执行其他case，而是跳出整个switch。

golang获取到string和直接赋值strimg不一样

1、 string的定义

Golang中的string的定义在reflect包下的value.go中，定义如下：

StringHeader 是字符串的运行时表示，其中包含了两个字段，分别是指向数据数组的指针和数组的长度。

// StringHeader is the runtime representation of a string.

// It cannot be used safely or portably and its representation may

// change in a later release.

// Moreover, the Data field is not sufficient to guarantee the data

// it references will not be garbage collected, so programs must keep

// a separate, correctly typed pointer to the underlying data.

type StringHeader struct {

Data uintptr

Len int

}

2、string不可变

Golang中的字符串是不可变的，不能通过索引下标的方式修改字符串中的数据：

在这里插入图片描述

运行代码，可以看到编译器报错，string是不可变的

在这里插入图片描述

但是能不能进行一些骚操作来改变元素的值呢？

package main

import (

"fmt"

"reflect"

"unsafe"

)

func main() {

a := "hello,world"

b := a[6:]

bptr := (*reflect.StringHeader) (unsafe.Pointer(b))

fmt.Println(a)

fmt.Println(b)

*(*byte)(unsafe.Pointer(bptr.Data)) = '.'

fmt.Println(a)

fmt.Println(b)

}

// 运行结果

hello,world

world

unexpected fault address 0x49d7e3

fatal error: fault

[signal 0xc0000005 code=0x1 addr=0x49d7e3 pc=0x4779fa]

goroutine 1 [running]:

runtime.throw(0x49c948, 0x5)

C:/Program Files/Go/src/runtime/panic.go:1117 +0x79 fp=0xc0000dbe90 sp=0xc0000dbe60 pc=0x405fd9

runtime.sigpanic()

C:/Program Files/Go/src/runtime/signal_windows.go:245 +0x2d6 fp=0xc0000dbee8 sp=0xc0000dbe90 pc=0x4189f6

main.main()

F:/go_workspace/src/code/string_test/main.go:20 +0x13a fp=0xc0000dbf88 sp=0xc0000dbee8 pc=0x4779fa

runtime.main()

C:/Program Files/Go/src/runtime/proc.go:225 +0x256 fp=0xc0000dbfe0 sp=0xc0000dbf88 pc=0x4087f6

runtime.goexit()

C:/Program Files/Go/src/runtime/asm_amd64.s:1371 +0x1 fp=0xc0000dbfe8 sp=0xc0000dbfe0 pc=0x435da1

Process finished with the exit code 2

在上面的代码中，因为在go语言中不能进行指针的加减运算，因此取切片，让b的Data指针指向’,'所在的位置。然后把"hello,world"中的逗号改为点，但是发现还是不行，程序直接崩溃了。看来go语言中的指针得到了大大的限制，设计者并不想让程序员过度使用指针来写出一些不安全的代码。

3、使用string给另一个string赋值

Golang中的字符串的赋值并不是拷贝底层的字符串数组，而是数组指针和长度字段的拷贝。例如：当我们定义了一个字符串 a := “hello,world” 然后定义了 b := a 底层所做的操作只是创建了两个StringHeader的结构体，它们的Data字段都指向同一段数据，如下图：

在这里插入图片描述

我们可以利用代码来证实这一点：

package main

import (

"fmt"

"reflect"

"unsafe"

)

func main() {

a := "hello,world"

b := a

fmt.Println(a)

fmt.Println(b)

aptr := (*reflect.StringHeader) (unsafe.Pointer(a))

bptr := (*reflect.StringHeader) (unsafe.Pointer(b))

fmt.Println("a ptr:", unsafe.Pointer(aptr.Data))

fmt.Println("b ptr:", unsafe.Pointer(bptr.Data))

}

// 运行结果

hello, world

a ptr: 0x6bdb76

b ptr: 0x6bdb76

在上面的代码中，将a和b转换为StringHeader类型的指针，然后分别打印出，a和b的Data指针的值，发现是相同的

那么如果对a做切片赋值给b呢？

func main() {

a := "hello,world"

b := a[6:]

fmt.Println(a)

fmt.Println(b)

aptr := (*reflect.StringHeader) (unsafe.Pointer(a))

bptr := (*reflect.StringHeader) (unsafe.Pointer(b))

fmt.Println("a ptr:", unsafe.Pointer(aptr.Data))

fmt.Println("b ptr:", unsafe.Pointer(bptr.Data))

}

// 运行结果

hello,world

world

a ptr: 0xd4d849

b ptr: 0xd4d84f

0xd4d849 - 0xd4d84f = 0x000006

显然，也没有分配新的数组并拷贝数据，而是将原字符数组的指针的偏移赋给了b的StringHeader的Data

4、string重新赋值

如果对一个已经赋值的字符串重新赋值，也不会修改原内存空间，而是申请了新的内存空间，对其赋值，并指向新的内存空间。如下图：

在这里插入图片描述

也可以使用代码来证实一下：

package main

import (

"fmt"

"reflect"

"unsafe"

)

func main() {

a := "hello,world"

aptr := (*reflect.StringHeader) (unsafe.Pointer(a))

fmt.Println("a ptr:", unsafe.Pointer(aptr.Data))

fmt.Println("a len", aptr.Len)

a = "hello,golang"

newAPtr := (*reflect.StringHeader) (unsafe.Pointer(a))

fmt.Println("b ptr:", unsafe.Pointer(newAPtr.Data))

fmt.Println("b len:", newAPtr.Len)

}

// 运行结果

a ptr: 0x3ed7f4

a len 11

b ptr: 0x3edb2c

b len: 12

文章知识点与官方知识档案匹配

Go技能树九阴真经字符串

2043 人正在系统学习中

点击阅读全文

打开CSDN APP，看更多技术内容

Golang底层原理剖析之string类型与字符编码_cheems~的博客_g...

string类型 string结构 go语言中默认使用的是UTF-8编码 string由两部分组成,一部分是指向字符串起始地址的指针,另一部分是字节个数len注意不是字符个数,是字节个数!这个数据类型占用16B空间,指向字符串起始地址的指针和存在字节个数的整...

继续访问

...底层系列二(基础)_GoGo在努力的博客_golang string底层

1、 string的定义 Golang中的string的定义在reflect包下的value.go中,定义如下: StringHeader 是字符串的运行时表示,其中包含了两个字段,分别是指向数据数组的指针和数组的长度。 // StringHeader is the runtime representation of a...

继续访问

最新发布 Golang: []string 和 ...string

… 参数语法形成了可变参数的参数。它将接受零个或多个string参数，并将它们作为切片引用

继续访问

常用的Golang字符串（string）操作

文章目录Golang中常用的字符串操作一、标准库相关的Package二、常用字符串操作判断是否为空字符串正文 Golang中常用的字符串操作一、标准库相关的Package 二、常用字符串操作判断是否为空字符串思路：直接判断是否等于""空字符串，由于golang中字符串不能为nil，且为值类型，所以直接与空字符串比较即可举例： str := "" if str == ""{...

继续访问

golang中的string_xiaodongdonga的博客_golang ...string

golang中的string 在golang中,string其实是个结构体,如图 ,在这个结构体中有两个值,一个是指向字符数组的指针str,另一个是这个字符串的长度len。另外在golang中用的是UFT8边长编码,里面字母是用一个字节,西方的文字使用两个字节,...

继续访问

Golang中对字符串string的相关操作_Codex_97的博客_go 字符...

golang中拥有string的内置类型,可以使用与普通slice类型相似的性质。 1.简介 strings包提供了很多操作字符串的简单函数,通常一般的字符串操作都可以在这个包中找到。 strconv 包提供了基本数据类型和字符串之间的转换。在Go 中,没有隐式...

继续访问

go-string-set:一种在GoLang中创建字符串集的方法

概述通过字符串设置方法。用法 go get github.com/wojnosystems/go-string-set package main import ( "github.com/wojnosystems/go-string-set/string_set" "strings" ) func main () { myPeople := string_set . New () myPeople . Add ( "Bob" ) myPeople . Add ( "Jane" ) myPeople . Add ( "Gary" ) myPeople . Add ( "Bob" ) if myPeople . Exists ( "Bob" ) { // Bob exists in myPeople, so this code block execute

Golang：strings包和字符串操作

strings包 string类型值是不可变的，如果想要获得一个不一样的字符串，就只能基于原字符串进行剪裁，拼接等操作，然后将得到的新字符串存放到一块联系内存中。 string值包含了指向底层字节数组头部的指针值，以及该字节数组的长度。在string值上做切片，就相当于在其底层字节数组做切片。而字符串拼接时（使用+），会把所有被拼接的字符串依次拷贝到一个崭新且足够大的连续内存空间中，并把持有新...

继续访问

golang中的strings.SplitN_盼盼编程的博客_strings.splitn

golang中的字符串操作strings.SplitN package main import ( "fmt" "strings" ) //golang字符串操作 func main(){ s := "hello world hello world" //str := "wo" //以str为分隔符,将s切分成多个子串,结果中**不包含*...

继续访问

Golang_String常用操作_itzhuzhu.的博客_golang strings

func main() { var x string = "ITzhuzhu" var y string = "itzhuzhu" fmt.Println(strings.EqualFold(x, y)) //true fmt.Println(x == y) //false } 1 2 3 4 5 6 返回子串在字符串第一次出现的索引,如果没有则...

继续访问

Golang类型的String()方法

作用用于定制fmt.Println(x)、fmt.Printf("%v", x)、fmt.Print(x)时输出的内容。示例 package main import "fmt" type Couple struct { Husband string Wife string } func (self Couple) String() string { return "(husband:" + self.Husband + ", wife:" + self.Wife +

继续访问

golang的string

golang中的string是不可变的字节序列，零值是空字符串，默认是UTF-8编码。 golang中使用字符串最需要注意的是，golang中的字符串是字节序列，string == []byte，由于一个字符占用的字节数不确定，所以无法通过下标[i]的方式稳定地获取对应位置的字符。也就意味着字符串的第i个字节，不一定就是第i个字符，原因请参考 unicode与UTF-8 文字符号在golang中被称为rune，发音为/ru:n/，意思是符号。由于utf-8最多使用4个字节来编码，所以rune类型是int3

继续访问

golang中的strings.Trim_盼盼编程的博客_strings.trim

golang中的字符串操作strings.Trim package main import ( "fmt" "strings" ) //golang字符串操作 func main(){ s := "Hello world hello world" str := "world" //var s = []string{"11","22","33"} //删除s首尾...

继续访问

Golang 字符串

Go语言的代码是由Unicode字符组成的，它们都必须由Unicode编码规范中的UTF-8编码格式进行编码并存储，Unicode编码规范中的编码格式定义的是字符与字节序列之间的转换方式。其中的UTF-8是一种可变宽的编码方案，它会用一个或多个字节的二进制数来表示某个字符，最多使用四个字节。Go语言中的一个string类型值会由若干个Unicode字符组成，每个Unicode字符都可以由一个rune类型的值来承载。stringforrange。...

继续访问

golang字符串[]string(slice)去重

1、现实代码 // []string 去重 func RemoveDuplicate(list []string) []string { // 这个排序很关键 sort.Strings(list) i := 0 var newlist = []string{""} for j := 0; j len(list); j++ { if strings.Compare(newlist[i], list[j]) == -1 { newlist = append(newlist, lis

继续访问

深入理解golang string

golang string string的定义 // string is the set of all strings of 8-bit bytes, conventionally but not // necessarily representing UTF-8-encoded text. A string may be empty, but // not nil. Values of string type are immutable. type string string string里存储的是字符

继续访问

golang中string包

对于基本类型来说，字符串所需要执行的操作会比较复杂，所以一般语言都会额外封装一些方法用于处理字符串，go语言标准库中也存在这样一个名为strings的库包含判断，判断一个字符中是否有相应的某个子字符串是经常遇到的一种字符串操作，再go语言中可以使用strings包中的两个方法判断 ...

继续访问

golang中的strings.TrimLeft

golang中的字符串操作strings.TrimLeft package main import ( "fmt" "strings" ) //golang字符串操作 func main(){ s := "Hello world hello world" str := "Hello" //var s = []string{"11","22","33"} //删除s头部连续的包含在str中的字符串 .

继续访问

golang入门time与string转换, time加减时间, 两个时间差

package mainimport ( "fmt" "time")var timeLayoutStr = "2006-01-02 15:04:05" //go中的时间格式化必须是这个时间//var timeLayoutStr = 2006/01/02 03:04:05 //合法, 格式可以改变//var timeLayoutStr = 2019/01/02 15:04:05 /...

继续访问

Golang——string

1.string结构体底层由两部分组成：指向底层[ ]byte数组的指针；长度（类似切片结构体） 2.相同的string常量不会重复存储 //由s1、s2的指针指向一块相同的只读内存，这段内存以utf-8编码存放hello数组 s1 := "hello" s2 := "hello" 3.string常量会在编译期分配到只读段，对应数据地址不可写入，故string不支持修改。要修改必须转[]byte，string和[]byte转换，会将这段只读内存的数据复制到堆/栈上。 //wrong s := "he

继续访问

热门推荐 golang -----------字符串（rune,string,type）

一、内存布局字符串在Go语言内存模型中用一个2字长的数据结构表示。它包含一个指向字符串存储数据的指针和一个长度数据。因为string类型是不可变的，对于多字符串共享同一个存储数据是安全的。切分操作str[i:j]会得到一个新的2字长结构，一个可能不同的但仍指向同一个字节序列(即上文说的存储数据)的指针和长度数据。这意味着字符串切分可以在不涉及内存分配或复制操作。这使得字符串切分的效率等同于...

继续访问

Golang string 常用方法

strings.Compare(p1, p2) 判断p1是否大于p2，大于:1,小于:-1,等于:0。2.strings.LastIndex(p1,p2) p2在p1中最后一次出现的位置,未出现返回-1。1.strings.Replace(p1,p2,p3,n) 将p1中的p2替换成p3，最多替换n个。1.strings.Index(p1,p2) p2在p1中第一次出现的位置,未出现返回-1。2.strings.ReplaceAll(p1,p2,p3) 将p1中的所有p2替换成p3。

继续访问

golang中的字符串

在go中rune是一个unicode编码点。我们都知道UTF-8将字符编码为1-4个字节，比如我们常用的汉字，UTF-8编码为3个字节。所以rune也是int32的别名。

继续访问

golang之字符串

Go语言的字符有两种类型：一种是byte型，或者叫uint8类型，代表了ASCII码的一个字符。一种是rune类型，或者叫int32类型，代表一个UTF-8字符，当需要处理中文、日文等unicode字符时，则需要用到rune类型。 ...

继续访问

Golang的 string 类型

一点睛字符串就是一串固定长度的字符连接起来的字符序列。Go 的字符串是由单个字节连接起来的。Go语言的字符串的字节使用 UTF-8 编码标识 Unicode 文本。二 string 使用注意事项和细节 1 Go 语言的字符串的字节使用 UTF-8 编码标识 Unicode 文本，这样 Golang 统一使用 UTF-8 编码,中文乱码问题不会再困扰程序员。 2 字符串一旦赋值了，字符串就不能修改了，在 Go 中字符串是不可变的。 3 字符串的两种表示形式。 a 双引号——会识别转义字符 .

继续访问

Golang Strings 官方包常用方法，学会这些够用了

1.判断是否以某字符串打头/结尾 2.字符串分割 3.返回子串索引 4.字符串连接 5.字符串转化为大小写 6.统计某个字符在字符串出现的次数 7.判断字符串的包含关系 8.字符串替换

go 中怎么把字符串分割为数组

方法：

先拆分，然后把拆分的字符串存到数据组中即可，代码参考

public class STest

{

public static void main(String[] args)

{

String t="abc,edf,xyz";

String[] chrstr=t.split(",");

for(int i=0;ichrstr.length;i++)

{

System.out.println(chrstr[i]);

}

hyperledger 什么语言编写

支付系统应该是高度集权的，还是完全地分布式、去中心化呢？Hyperledger团队认为，两者中间应该有个平衡——权力既不是集中在某一个机构，也不是完全地分布式，而是进行合理适当地分割成若干部分。分权这个最早由英国哲学家约翰·洛克提出的政治概念，被Hyperledger用在支付系统的权力分布上。就如下图所示，第一种是一般国家和第三方支付系统的“中心化”网络，第三种是比特币式的点对点“去中心化”网络，而第二种，就是Hyperledger所建立的支付协议体系。Hyperledger是一个开源平台，允许任何人发行个人货币。Hyperledger开源支付协议由来自香港的DanielFeichtinger首先创立，他是Hyperledger的核心开发者以及分布式共识机制的发明者。Hyperledger的另一成员DanO’Prey作为联合创始人，在今年4月加入。在此之前，O’Prey创立了一家可视化云计算工具麦德云，公司Base在北京，帮助开发者更方便地使用AmazonAWS，早期获得红杉资本150万美元融资，O’Prey三个月前从CEO位置离职。O’Prey加入Hyperledger，则是负责市场和商业拓展相关工作。目前，Hyperledger的服务器和客户端代码已经上传到GitHub上。Hyperledger支付协议的提出，很大程度上受到Ripple的影响。在Hyperledger网站问答页面末端，团队表示，可以把Hyperledger看做Ripple的替代方案或者补充体系。Ripple是继Bitcoin之后，另外一个被看好的数字货币。而Ripple与Bitcoin最大的不同在于，两者的逻辑正好相反。Bitcoin首先是个数字货币，其次才是再其基础上的支付手段；而Ripple的理念是让支付变得更容易，首先是支付，为了让支付更方便和货币流通才创造了自己的虚拟货币XRP。在Ripple支付网络中，可以转账任意一种货币，包括美元、欧元、人民币、日元或者Bitcoin，简便易行快捷，交易确认在几秒以内完成，交易费用几乎是零，没有所谓的跨行异地以及跨国支付费用。相比BitCoin账本需要六次确认，每次10分钟，确认时间总计需要将近1个小时。Ripple则是引入了一个“共识（Consensus）”机制，通过特殊节点的投票，在很短的时间内就能够对交易进行验证和确认。Ripple的交易确认过程可在几秒钟之内完成。Hyperledger则是采用类似Ripple“共识”机制，达成共识则是通过拜占庭容错算法机制。另外，Ripple客户端不需要下载区块链（记录历史交易数据），它在普通节点上舍弃掉已经验证过的总帐本链，只保留最近的已验证总帐本和一个指向历史总帐本的链接，因而同步和下载总帐本的工作量很小。区块链体积的不断增大，成为了BitCoin的另一大问题。每次比特币钱包安装，需要消耗大量时间下载数据块。在过去一年中，随着交易数量的增加，特别是博彩网站上出现大量的小额交易，块环链体积扩大两倍变成15Gb。同时，在总账和共识机制下应运生的Ripple还具有绝对准确的网络欠条标记功能，这其中隐藏着一个颠覆性思想——用户可以发行自己的货币。用户可以自行设定欠条的名称、与美元或者比特币兑换的比例，这事实上就是“个人货币”，其核心是在颠覆以政府信用为核心的货币，而将每一次信任的选择权交给用户。验证时间长、不断增长的块环链（记录历史交易数据）以及不可靠交易的增加，是BitCoin现在所面临的问题。这些也是Hyperledger试图解决的问题，Hyperledger继承了Ripple的优点，通过引入类似Ripple的共识机制，缩短验证时间，去除块环链、使用投票机制（三分之二同意）通过交易要求，能够自动侦测并清除损坏的节点。Ripple的理念早在2004年就已经出现，RyanFugger推出了Ripple的第一个实现版本。它的目标是构建一个去中心化的、准许任何人创建自家货币的虚拟货币系统。Ripple网络中的金钱都用“债务”表示，所有交易均表现为帐务余额的变化。Ripple项目的初衷就是要建立一个分布式的P2P清算网络：每个人都是自己的银行，可以签发、接受借贷，同时又作为借贷通道（例如A想向B借钱，他们互不认识，却正好都认识C，那么C就可以作为A、B的通道，C先向B借钱，然后再把钱借给A，间接实现A向B借钱）。Ripple的设计思路基于熟人关系和信任链，一个人要使用Ripple网络进行汇款或借贷，前提是在网络中已经存在他的朋友，否则无法在该用户与其它用户之间建立信任链，所以导致Ripple用户一直不多。用户局限在小圈子的问题，在新公司OpenCoin成立之后得到了解决。OpenCoin推出了新版Ripple，引入两个措施解决孤立小圈子的问题：其一是推出Ripple币——XRP，它作为Ripple网络的基础货币，就像比特币一样可以整个网络中流通，而不必局限于熟人圈子；其二是引入网关（Gateway）系统，它类似于货币兑换机构，允许人们把法定货币注入、抽离Ripple网络，并可充当借、贷双方的桥梁。那么，Hyperledger与Ripple到底有哪些不同呢？根据Hyperledger团队给出的说法：?在理念上，Ripple是集中在根据实体的信誉，形成信任链，找到最简洁的途径实现交易，这种交易可以是跨币种的。而Hyperledger的目的是，让私人实体能够便捷地发行货币，并且对于发行量有着精确的控制；?Ripple和Hyperledger有着同样地“共识”机制，附着相同的协议，但会员和隐私的规则不太一样；?Hyperledger并没有在系统中自己发行一种货币；目前，Ripple的商业化业务分为两种：一种是Ripple直接提供给银行类金融机构汇款技术和底层协议，这相当于替换原来成本高昂的SWIFT技术，Ripple只在其中担任技术提供者，用户可以打开招商银行的客户端，在汇款一栏选择用SWIFT汇款，或者用Ripple汇款，Ripple存在的意义是利用技术革新去改变帮助银行缩减成本；另一种则是直接面向消费者的业务。用户可以登录Ripple的网页或者下载一个Ripple钱包的App，可以自由在其中进行跨境汇款、记账或者在真实货币与虚拟货币之间兑换。这其中的网管可以是银行，也可以是第三方支付企业，甚至可以是个人。如何参与到Hyperledger？它的共识池总共分为四部分：testpool、mainpool、custompool以及premiumpool。?testpool对所有人都免费开放，在里面可以发布你个人的分类账（货币）或者测试第三方应用程序，甚至可以尝试攻击支付系统，做你想做的；?mainpool是基础池，池中的每个节点要求一个独特的域名和SSL证明，现在加入邮件列表，将在Hyperledger发布后第一时间通知；?custompool则是允许用户自定义池子，可以把池子限定在一个国家、一所大学等；?premiumpool是一个商业化的池子，运营一个“共识”节点有着更严格的限制和要求，每次分类账的请求都要被审计，并且加入需要缴纳会员订阅费，具体的规则需要和Hyperledger团队沟通联系。

[原创] 深入剖析mmap原理 - 从三个关键问题说起

对于mmap，您是否能从原理上解析以下三个问题：

要解决这些疑问，可能还需要在操作系统层面多了解。本文将尝试通过这些问题深入剖析，希望通过这篇文章，能使大家对mmap有较深入的认识，也能在存储引擎的设计中，有所参考。

最近在研发分布式日志存储系统，这是一个基于Raft协议的自研分布式日志存储系统，Logstore则是底层存储引擎。

Logstore中，使用mmap对数据文件进行读写。Logstore的存储结构简化如下图：

Logstore使用了Segments Files + Index Files的方式存储Log，Segment File是存储主体，用于存储Log数据，使用定长的方式，默认每个512M，Index File主要用于Segment File的内容检索。

Logstore使用mmap的方式读写Segment File，Segments Files的个数，主要取决于磁盘空间或者业务需求，一般情况下，Logstore会存储1T~5T的数据。

我们先看看什么是mmap。

在深入理解计算机系统这本书中，mmap定义为：Linux通过将一个虚拟内存区域与一个磁盘上的对象(object)关联起来，以初始化这个虚拟内存区域的内容，这个过程称为内存映射(memory mapping)。

在Logstore中，mapping的对象是普通文件(Segment File)。

我们先来简单看一下mapping一个文件，mmap做了什么事情。如下图所示：

假设我们mmap的文件是FileA，在调用mmap之后，会在进程的虚拟内存分配地址空间，创建映射关系。

这里值得注意的是， mmap只是在虚拟内存分配了地址空间，举个例子，假设上述的FileA是2G大小

在mmap之后，查看mmap所在进程的maps描述，可以看到

由上可以看到，在mmap之后，进程的地址空间7f35eea8d000-7f366ea8d000被分配，并且map到FileA，7f366ea8d000减去7f35eea8d000，刚好是2147483648(ps: 这里是整个文件做mapping)

在Linux中，VM系统通过将虚拟内存分割为称作虚拟页(Virtual Page，VP)大小固定的块来处理磁盘(较低层)与上层数据的传输，一般情况下，每个页的大小默认是4096字节。同样的，物理内存也被分割为物理页(Physical Page，PP)，也为4096字节。

上述例子，在mmap之后，如下图：

在mmap之后，并没有在将文件内容加载到物理页上，只上在虚拟内存中分配了地址空间。当进程在访问这段地址时（通过mmap在写入或读取时FileA），若虚拟内存对应的page没有在物理内存中缓存，则产生"缺页"，由内核的缺页异常处理程序处理，将文件对应内容，以页为单位(4096)加载到物理内存，注意是只加载缺页，但也会受操作系统一些调度策略影响，加载的比所需的多，这里就不展开了。

(PS: 再具体一些，进程在访问7f35eea8d000这个进程虚拟地址时，MMU通过查找页表，发现对应内容未缓存在物理内存中，则产生"缺页")

缺页处理后，如下图：

我认为从原理上，mmap有两种类型，一种是有backend，一种是没有backend。

这种模式将普通文件做memory mapping(非MAP_ANONYMOUS)，所以在mmap系统调用时，需要传入文件的fd。这种模式常见的有两个常用的方式，MAP_SHARED与MAP_PRIVATE，但它们的行为却不相同。

1) MAP_SHARED

这个方式我认为可以从两个角度去看：

2) MAP_PRIVATE

这是一个copy-on-write的映射方式。虽然他也是有backend的，但在写入数据时，他会在物理内存copy一份数据出来(以页为单位)，而且这些数据是不会被回写到文件的。这里就要注意，因为更新的数据是一个副本，而且不会被回写，这就意味着如果程序运行时不主动释放，若更新的数据超过可用物理内存+swap space，就会遇到OOM Killer。

无backend通常是MAP_ANONYMOUS，就是将一个区域映射到一个匿名文件，匿名文件是由内核创建的。因为没有backend，写入/更新的数据之后，若不主动释放，这些占用的物理内存是不能被释放的，同样会出现OOM Killer。

到这里，这个问题就比较好解析了。我们可以将此问题分离为：

-- 虚拟内存是否会出问题：

回到上述的"mmap在进程虚拟内存做了什么"，我们知道mmap会在进程的虚拟内存中分配地址空间，比如1G的文件，则分配1G的连续地址空间。那究竟可以maping多少呢？在64位操作系统，寻址范围是2^64 ，除去一些内核、进程数据等地址段之外，基本上可以认为可以mapping无限大的数据(不太严谨的说法)。

-- 物理内存是否会出问题

回到上述"mmap的分类"，对于有backend的mmap，而且是能回写到文件的，映射比内存+swap空间大是没有问题的。但无法回写到文件的，需要非常注意，主动释放。

MAP_NORESERVE是mmap的一个参数，MAN的说明是"Do not reserve swap space for this mapping. When swap space is reserved, one has the guarantee that it is possible to modify the mapping."。

我们做个测试：

场景A：物理内存+swap space: 16G，映射文件30G，使用一个进程进行mmap，成功后映射后持续写入数据

场景B：物理内存+swap space: 16G，映射文件15G，使用两个进程进行mmap，成功后映射后持续写入数据

从上述测试可以看出，从现象上看，NORESERVE是绕过mmap的校验，让其可以mmap成功。但其实在RESERVE的情况下(序列4)，从测试结果看，也没有保障。

mmap的性能经常与系统调用（write/read）做对比。

我们将读写分开看，先尝试从原理上分析两者的差异，然后再通过测试验证。

我们先来简单讲讲write系统调用写文件的过程：

再来简单讲讲使用mmap时，写入文件流程：

系统调用会对性能有影响，那么从理论上分析:

下面我们对两者进行性能测试：

场景：对2G的文件进行顺序写入(go语言编写)

每次写入大小 | mmap 耗时 | write 耗时

--------------- | ------- | -------- | --------

| 1 byte | 22.14s | 300s

| 100 bytes | 2.84s | 22.86s

| 512 bytes | 2.51s | 5.43s

| 1024 bytes | 2.48s | 3.48s

| 2048 bytes | 2.47s | 2.34s

| 4096 bytes | 2.48s | 1.74s

| 8192 bytes | 2.45s | 1.67s

| 10240 bytes | 2.49s | 1.65s

可以看到mmap在100byte写入时已经基本达到最大写入性能，而write调用需要在4096(也就是一个page size)时，才能达到最大写入性能。

从测试结果可以看出，在写小数据时，mmap会比write调用快，但在写大数据时，反而没那么快(但不太确认是否go的slice copy的性能问题，没时间去测C了)。

测试结果与理论推导吻合。

我们还是来简单分析read调用与mmap的流程：

从图中可以看出，read调用确实比mmap多一次copy。因为read调用，进程是无法直接访问kernel space的，所以在read系统调用返回前，内核需要将数据从内核复制到进程指定的buffer。但mmap之后，进程可以直接访问mmap的数据(page cache)。

从原理上看，read性能会比mmap慢。

接下来实测一下性能区别：

场景：对2G的文件进行顺序读取(go语言编写)

(ps: 为了避免磁盘对测试的影响，我让2G文件都缓存在pagecache中)

每次读取大小 | mmap 耗时 | write 耗时

--------------- | ------- | -------- | --------

| 1 byte | 8215.4ms | 300s

| 100 bytes | 86.4ms | 8100.9ms

| 512 bytes | 16.14ms | 1851.45ms

| 1024 bytes | 8.11ms | 992.71ms

| 2048 bytes | 4.09ms | 636.85ms

| 4096 bytes | 2.07ms | 558.10ms

| 8192 bytes | 1.06ms | 444.83ms

| 10240 bytes | 867.88µs | 475.28ms

由上可以看出，在read上面，mmap比write的性能差别还是很大的。测试结果与理论推导吻合。

对mmap的深入了解，能帮助我们在设计存储系统时，更好地进行决策。

比如，假设需要设计一个底层的数据结构是B+ Tree，node操作以Page单位的单机存储引擎，根据上述推论，写入使用系统调用，而读取使用mmap，可以达到最优的性能。而LMDB就是如此实现的。

当前文章：go语言分割 golang 分词
文章路径：http://myzitong.com/article/dodecgi.html

go语言分割 golang 分词

go语言小白求助，为什么多态的接受的数据类型是接口，但是可以给他传输对象的地址？

golang减少switch

golang获取到string和直接赋值strimg不一样

go 中怎么把字符串分割为数组

hyperledger 什么语言编写

[原创] 深入剖析mmap原理 - 从三个关键问题说起

其他资讯