前 10 名 Hadoop 命令 [有用法]

已发表: 2021-01-29

在这个拥有大量数据的时代,处理它们变得至关重要。 来自客户不断增长的组织所产生的数据比任何传统数据管理工具所能存储的都要大得多。 它给我们留下了管理更大数据集的问题,这些数据的范围可能从千兆字节到 PB 不等,而无需使用单个大型计算机或传统的数据管理工具。

这就是 Apache Hadoop 框架引人注目的地方。 在深入研究 Hadoop 命令实现之前,让我们简要了解一下 Hadoop 框架及其重要性。

目录

什么是 Hadoop?

Hadoop 被主要的商业组织用来解决各种问题,从每天存储大 GB(千兆字节)的数据到对数据的计算操作。

传统上定义为用于存储数据和处理应用程序的开源软件框架,Hadoop 在大多数传统数据管理工具中脱颖而出。 它通过在框架中添加一些节点来提高计算能力并扩展数据存储限制,使其具有高度可扩展性。 此外,您的数据和应用程序进程受到保护,免受各种硬件故障的影响。

Hadoop 遵循主从架构,使用 MapReduce 和 HDFS 分发和存储数据。 如下图所示,该架构以定义的方式定制,以使用四个主要节点(即名称、数据、主节点和从节点)执行数据管理操作。 Hadoop 的核心组件直接构建在框架之上。 其他组件直接与段集成。

资源

Hadoop 命令

Hadoop 框架的主要特性表现出连贯性,并且在通过学习 Hadoop 命令来管理大数据时变得更加用户友好。 下面是一些方便的 Hadoop 命令,它们允许执行各种操作,例如管理和 HDFS 集群文件处理。 经常需要此命令列表来实现某些过程结果。

1. Hadoop Touchz

hadoop fs -touchz /目录/文件名

该命令允许用户在 HDFS 集群中创建一个新文件。 命令中的“目录”是指用户希望创建新文件的目录名,“文件名”表示命令完成后将创建的新文件的名称。

2.Hadoop测试命令

hadoop fs -test -[defsz] <路径>

这个特定的命令实现了测试 HDFS 集群中文件是否存在的目的。 必须根据需要修改命令中“[defsz]”中的字符。 以下是这些字符的简要说明:

  • d -> 检查它是否是一个目录
  • e -> 检查它是否是路径
  • f -> 检查它是否是一个文件
  • s -> 检查它是否为空路径
  • r -> 检查路径是否存在和读取权限
  • w -> 检查路径是否存在和写权限
  • z -> 检查文件大小

3.Hadoop文本命令

hadoop fs -text <src>

text 命令对于以文本格式显示分配的 zip 文件特别有用。 它通过处理源文件并将其内容提供为纯解码文本格式来运行。

4. Hadoop 查找命令

hadoop fs -find <路径> ... <表达式>

该命令一般用于在 HDFS 集群中搜索文件。 它使用集群中的所有文件扫描命令中的给定表达式,并显示与定义的表达式匹配的文件。

阅读:顶级 Hadoop 工具

5. Hadoop Getmerge 命令

hadoop fs -getmerge <src> <localdest>

Getmerge 命令允许在 HDFS 文件系统集群上的指定目录中合并一个或多个文件。 它将文件累积到位于本地文件系统中的一个文件中。 “src”和“localdest”分别代表source-destination和localdestination的意思。

6. Hadoop 计数命令

hadoop fs -count [选项] <路径>

就像它的名字一样明显,Hadoop count 命令计算给定目录中的文件数和字节数。 有多种可用选项可根据要求修改输出。 这些如下:

  • q -> quota 显示名称总数和空间使用的限制
  • u -> 仅显示配额和使用情况
  • h -> 给出文件的大小
  • v -> 显示标题

7. Hadoop AppendToFile 命令

hadoop fs -appendToFile <localsrc> <dest>

它允许用户将一个或多个文件的内容附加到 HDFS 文件系统集群中指定目标文件的单个文件中。 在执行此命令时,给定的源文件会根据命令中的给定文件名附加到目标源中。

8. Hadoop ls 命令

hadoop fs -ls /路径

Hadoop 中的 ls 命令显示指定目录(即路径)中的文件/内容列表。 在 /path 前添加“R”时,输出将显示给定目录中指定的每个文件的内容详细信息,例如名称、大小、所有者等。

9. Hadoop mkdir 命令

hadoop fs -mkdir /path/directory_name

该命令的独特之处在于如果目录不存在,则会在 HDFS 文件系统集群中创建目录。 此外,如果指定的目录存在,则输出消息将显示表示该目录存在的错误。

10. Hadoop chmod 命令

hadoop fs -chmod [-R] <模式> <路径>

当需要更改访问特定文件的权限时使用此命令。 在给出 chmod 命令时,指定文件的权限被更改。 但是,重要的是要记住,当文件所有者执行此命令时,权限将被修改。

另请阅读: Impala Hadoop 教程

结论

本文从当今世界各大组织面临的重要数据存储问题入手,通过介绍Hadoop,讨论了有限数据存储的解决方案及其对使用Hadoop命令进行数据管理操作的影响。 对于 Hadoop 的初学者,将描述框架的概述及其组件和架构。

阅读本文后,您可以轻松地对自己在 Hadoop 框架及其应用命令方面的知识充满信心。 upGrad 在大数据方面的独家 PG 认证:upGrad 提供针对行业特定的 7.5 个月的大数据 PG 认证计划,您将通过 IIIT-Bangalore 组织、分析和解释大数据。

专为在职专业人士设计,它将帮助学生获得实用知识并促进他们进入大数据角色。

节目亮点:

  • 学习相关语言和工具
  • 学习分布式编程、大数据平台、数据库、算法和网络挖掘的高级概念
  • 来自 IIIT 班加罗尔的认可证书
  • 安置援助以吸引顶级跨国公司
  • 1:1 指导,跟踪您的进度并在每一点为您提供帮助
  • 处理实时项目和任务

资格:数学/软件工程/统计/分析背景

在 upGrad 查看我们的其他软件工程课程。

掌握未来的技术 - 大数据

超过 400 小时的学习时间。 14 种语言和工具。 IIIT-B 校友身份。