大数据解决方案的关键步骤是什么？<br />-k6k4.com

大数据解决方案的关键步骤是什么？

提取数据，存储数据（即数据建模）和处理数据（即数据加工，数据转换和查询数据）。

　　提取数据

　　从各种来源提取数据，例如：

RDBM（Relational Database Management Systems）关系数据库管理系统，如 Oracle，MySQL 等。
ERPs（Enterprise Resource Planning）企业资源规划（即 ERP）系统，如 SAP。
CRM（Customer Relationships Management）客户关系管理系统，如 Siebel，Salesforce 等
社交媒体 Feed 和日志文件。
平面文件，文档和图像。

　　并将其存储在基于“Hadoop 分布式文件系统”（简称 HDFS）的数据中心上。可以通过批处理作业（例如每 15 分钟运行一次，每晚一次，等），近实时（即 100 毫秒至 2 分钟）流式传输和实时流式传输（即 100 毫秒以下）去采集数据。

　　Hadoop 中使用的一个常用术语是“Schema-On-Read”。这意味着未处理（也称为原始）的数据可以被加载到 HDFS，其具有基于处理应用的需求在处理之时应用的结构。这与“Schema-On-Write”不同，后者用于需要在加载数据之前在 RDBM 中定义模式。

　　存储数据

　　数据可以存储在 HDFS 或 NoSQL 数据库，如 HBase。HDFS 针对顺序访问和“一次写入和多次读取”的使用模式进行了优化。HDFS 具有很高的读写速率，因为它可以将 I / O 并行到多个驱动器。HBase 在 HDFS 之上，并以柱状方式将数据存储为键/值对。列作为列家族在一起。HBase 适合随机读/写访问。在 Hadoop 中存储数据之前，你需要考虑以下几点：

数据存储格式：有许多可以应用的文件格式（例如 CSV，JSON，序列，AVRO，Parquet 等）和数据压缩算法（例如 snappy，LZO，gzip，bzip2 等）。每个都有特殊的优势。像 LZO 和 bzip2 的压缩算法是可拆分的。
数据建模：尽管 Hadoop 的无模式性质，模式设计依然是一个重要的考虑方面。这包括存储在 HBase，Hive 和 Impala 中的对象的目录结构和模式。Hadoop 通常用作整个组织的数据中心，并且数据旨在共享。因此，结构化和有组织的数据存储很重要。
元数据管理：与存储数据相关的元数据。
多用户：更智能的数据中心托管多个用户、组和应用程序。这往往导致与统治、标准化和管理相关的挑战。

　　处理数据

　　Hadoop 的处理框架使用 HDFS。它使用“Shared Nothing”架构，在分布式系统中，每个节点完全独立于系统中的其他节点。没有共享资源，如 CPU，内存以及会成为瓶颈的磁盘存储。Hadoop 的处理框架（如 Spark，Pig，Hive，Impala 等）处理数据的不同子集，并且不需要管理对共享数据的访问。 “Shared Nothing”架构是非常可扩展的，因为更多的节点可以被添加而没有更进一步的争用和容错，因为每个节点是独立的，并且没有单点故障，系统可以从单个节点的故障快速恢复。

更多精选文章

上一题：基于 Hadoop 的数据中心的好处是什

下一题：Hadoop有哪些发行版本，有什么区别

标签： hdfs、hadoop、hbase、数据中心、rdbm

一个创业中的苦逼程序员

笔试题

刷题

简历模板

AI算法

大数据

内推

内推：

数据研发工程师 / 个推