在最简单的情况下,文件源数据被组织为独立的记录集合,而且结果可以按任意顺序排列。这类问题需要以相当独立的方式将相同的处理应用于每个数据元素——换句话说,没有必要合并或聚合单个结果。一个经典的例子就是处理数以千计的PDF文件,从中抽取某些关键文本并放入CSV文件中,用于后续插入到文件数据库。
  这种情况下的MapReduce实现非常简单——唯一必需的就是mapper,独立地处理每条记录并输出结果。在这种情况下,MapReduce控制mapper的分布,并提供调度和错误处理所需要的全部支持。

关于TeamDoc软件:

TeamDoc是基于服务器/客户端架构的轻量级文件管理软件。TeamDoc将文件集中加密存储在您单位自己的服务器中,员工使用TeamDoc客户端访问服务器,从而获得与自己权限相关的权限:登入后与“我的电脑”界面类似,可以看到自己该看的文件,编辑自己能编辑的文档,对于能看到的文件,还可以细分文档权限,进而做到能看不能拷,能看不能截屏等功能,多种权限灵活设置,在线协同编辑、全文搜索、日志与版本追踪,快速构建企业文档库。告别假大空,我们提供值得您选择的、易用的、可用的文档管理软件。现在就访问TeamDoc首页

TeamDoc软件界面(点击可放大)

版权所有:南京网亚计算机有限公司,本文链接地址: 将MapReduce文件数据用作并行处理框架