Google map reduces 并⾏处理的基本过程
Google map reduces 并⾏处理的基本过程
发布时间:2025-11-10 17:20:35
Google map reduces 并⾏处理的基本过程
1.有⼀个待处理的⼤数据,被划分为⼤⼩相同的数据块及与相应的⽤户作业程序。
2.系统中有⼀个负责调度的主节点(Master),以及数据Map和Reduce⼯作节点(Worker)。
3.⽤户作业程序提交给主节点。
4.主节点为作业程序寻找和配备可⽤的Map节点,并将程序和数据传送给map节点。
5.主节点也为作业程序寻找和配备可⽤的Reduce节点,并将程序传送给Reduce节点
6.主节点启动每个Map节点执⾏程序,每个map节点尽可能读取本地或本机架的数据进⾏计算。
7.每个Map节点处理读取的数据块,并做⼀些数据整理⼯作(combining,sorting等)并将中间结果存放在本地;同时通知主节点计算任务完成并告知中间结果数据存储位置。
8.主节点等所有Map节点计算完成后,开始启动Reduce节点运⾏;Reduce节点从主节点所掌握的中间结果数据位置信息,远程读取这些数据。
9.Reduce节点计算结果汇总输出到⼀个结果⽂件即获得整个处理结果。