MIT 6.824 分布式系统 lec1

这是一篇关于MIT 6.824 分布式系统课程 lec1 的笔记。

Lec1: MapReduce

开个新坑,也是赫赫有名的神课啊,老师跟6.S081一样,也是我们的老熟人,Frans Kaashoek和Robert Morris。课程内容呢,大家也都知道,用Go语言讲的分布式系统。

第一节课一般来说都是废话,将规章制度和课程大纲和教学计划之类的,但是这次一反常规,讲了MapReduce这个分布式中的重要概念。

网络分区

这是Lecture 1前期讲的一个概念,也是分布式系统的一个重要概念。

对于一个 nn 个节点组成的网络来说,如果 nn 个节点可以被分为 kk不相交覆盖的 group , 每个 group 内所有节点全是两两正常连接,而任意两个 group 之间的任何节点无连接。当 k=1k = 1 时,网络正常,当 k>1k > 1 时,我们称之为network partition

大白话就是说,要把一个网络集群下的节点分成几个不相交且全覆盖的组,每个组内的节点之间全是正常连接,而任意两个组之间的节点都没有连接,那么就叫它为网络分区。

为什么说这个概念重要呢?因为当网络发生分区时,集群的几个组之间就无法通信,并且各自为政,互相都以为除了自己这个组之外全世界都已经挂了。一般是由集群中的某个节点故障引起的,会造成的大规模故障。

如果有 1% 的请求耗时高于 99% 的请求耗时,影响用户体验,甚至拖垮服务,我们就认为它不是一个好的分布式系统。

MapReduce

MapReduce是一种编程模型,是由Google提出的一个分布式计算模型,其核心思想是将大数据集分解为多个小数据集,然后并行地对小数据集进行处理,最后再合并处理结果。

本质上来说,它利用的是一种分治的思想,用来实现高可用(因为集群化中节点的失效往往不会导致整个集群的崩溃)、可扩展(集群中的节点可以动态增加或减少等维护)、高效率(分布式代表着并行计算,因此可以充分利用多核CPU的优势)的计算(可以是经典统计字母出现的次数,也可以是排序等算法)。

  • Map: 输入数据集被分解为多个小数据集,并行地对每个小数据集进行处理,结果被保存在内存中。
  • Reduce: 对Map的结果进行汇总,得到最终结果。

几个概念:

  • Coordinator:负责调度任务,分配任务给Worker,监控Worker的运行状态,并在必要时重新调度任务。
  • Worker:负责执行任务,并将结果返回给Coordinator。
  • Master:负责管理Worker节点,包括监控Worker的健康状态、分配任务、监控任务的执行进度等。

执行过程:

Split -> Map -> Shuffle -> Reduce

  1. Split: coordinator将文件分配给特定的worker节点。
  2. Map: worker节点执行map任务,将生成的中间结果存储在本地磁盘,worker在map任务执行完毕后,告知master中间结果的存储位置。
  3. Shuffle: 将map端无规则输出的结果进行分组,洗牌成有一定规律的数据,以便reduce端进行接受处理。
  4. worker节点并行地对洗牌后的每组数据进行reduce操作,将结果聚合返回给coordinator。

注意只有最终结果才是全局的,中间结果只会被存在worker节点的内存或磁盘中。

容错性

如果coordinator没有收到来自worker的响应,那么coordinator会认为该worker已经挂了,从而将该worker上的任务重新分配给其他worker(可能分配给同一个worker),以保证task的执行。

其实一个map函数也是可能被执行两次的,因为worker节点可能执行完之后,出现了网络故障,导致响应没有传达给coordinator,这时coordinator会认为该worker已经挂了,然后重新分配任务给其他worker执行map。而且最关键的是,map被执行两次其实是可以被接受的,因为基于幂等性问题,相同的输入得到的输出是相同的,因此不会影响最终结果。

异常场景

  • map在worker上的执行符合事务性,即使worker执行了99%的任务,到最后出现了故障,coordinator也会重新分配重新完全执行这个任务。
  • map产生的中间结果只会保存在worker本地文件系统当中。而且得益于持久化的保存机制,之前map生成的中间结构都可以被recover。
  • 我们可以接受worker的崩溃,但是无法接受coordinator的崩溃

Struggler: 对于一些执行缓慢的worker它们会被称为struggler,这时coordinator会将其上的任务重新分配给其他闲置的worker,而它们的工作也不会白费,因为这样可以达到backup的效果。这样既不会因为木桶效应拖慢整个集群的运行,也可以增加资源利用率,并且备份保存运行信息。

GoLang

接下来聊聊 Go 这门语言本身。最简单的语法很容易上手,跟我们之前学过的其实很类似。我大概会聊聊 Go 中的以 Goroutine 为代表的并发模型,以及它的一些特性。

匿名函数

又称为lambda函数,我们先回顾一下其他语言的lambda函数。

# Python
f = lambda x: x + 1
print(f(2)) # 3
// Java
Function<Integer, Integer> f = (x) -> x + 1;
System.out.println(f.apply(2)); // 3
// C++
auto f = [](int x) { return x + 1; };
cout << f(2) << endl; // 3

Go语言的匿名函数也很类似,只是语法上稍微有点不同。

// Go
f := func(x int) {
return x + 1
}
fmt.Println(f(2)) // 3

敲黑板

Go 语言中,函数定义和函数调用不需要使用 () 来区分。对于调用的函数就会在函数后加上括号,但如果仅仅是定义,则不需要括号。

Goroutine

Goroutine 是 Go 语言提供的一种并发模型。它可以看作轻量级的线程,但比线程更小,占用更少的资源。

// 创建并启动一个 Goroutine
go func() {
// do something
} ()
// 启动一个已有的 Goroutine
go func()
  1. go 是 Go 语言中的关键字,用于启动一个 Goroutine。它指示编译器将这个函数作为并发执行的线程启动。
  2. func() {} 是一个匿名函数,用于定义 Goroutine 的执行体。
  3. () 用于启动 Goroutine,代表了这个匿名函数会被立即调用执行。相当于打开了一个线程的开关。

new

new 用于创建基本类型和结构体(默认值为零值)。并且因为创建的是值类型,需要指针来进行访问。

// 创建一个 int 类型指针,指向内存中分配的 int 类型变量
intPtr := new(int)
// 创建一个结构体指针,指向内存中分配的结构体变量
structPtr := new (struct{
name string
age int
})

make

make 是用于创建 slice, map, channel 的内置函数,是专门用于这些数据结构的内存分配和初始化,并返回一个指向该内存的指针。

// 创建一个 int 类型 slice,长度为 10
slice := make([]int, 10)
// 创建一个 map 其中键值对类型为 string : int,初始值为 nil
map := make(map[string]int)
// 创建一个 channel 类型,类型为 int
channel := make(chan int)