数据仓库之数据模型

作者：刀神T 2018-07-08

关于数据仓库的概念，这里不再累赘。先看下面的图（数据仓库建设的7个主要环节）：本文，主要针对第三块数据仓库模型设计来讨论交流，尤其是互联网行业。一、关于数据仓库数据模型1.数据仓库数据模型是指使用实体、属性及其关系对企业运营和逻辑规则进行统一的定义、编码和命名；是业务人员和开发人员之间沟通的一套语言。2.数据仓库数据模型的作用：统一企业的数...
漫谈数据仓库之维度建模

作者：刀神T 2018-07-08

0x00前言下面的内容，是笔者在学习和工作中的一些总结，其中概念性的内容大多来自书中，实践性的内容大多来自自己的工作和个人理解。由于资历尚浅，难免会有很多错误，望批评指正！概述数据仓库包含的内容很多，它可以包括架构、建模和方法论。对应到具体工作中的话，它可以包含下面的这些内容：以Hadoop、Spark、Hive等组建为中心的数据架构体系。...
2017大数据好文章-持续更新

作者：时海 2017-02-16

（1）如何建立数据分析的思维框架欢迎加QQ:大数据交流群（282893304）转载请注明：作者-时海原文链接：http://www.k6k4.com/blog/show/aaakoxtdc1487210617054
数据立方体----维度与OLAP

作者：时海 2016-11-12

前面的一篇文章——数据仓库的多维数据模型中已经简单介绍过多维模型的定义和结构，以及事实表（FactTable）和维表（DimensionTable）的概念。多维数据模型作为一种新的逻辑模型赋予了数据新的组织和存储形式，而真正体现其在分析上的优势还需要基于模型的有效的操作和处理，也就是OLAP（On-lineAnalyticalProcess...
BI项目中的ETL设计详解（数据抽取、清洗与转换 )

作者：时海 2016-11-12

ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程，目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析的依据。ETL是BI项目最重要的一个环节，通常情况下ETL会花掉整个项目的1/3的时间，ETL设计的好坏直接关接到BI项目的成败。ETL也是一个长期的过程，只有不断的发现问题并解决问题，才能使ETL...
Spark性能优化指南——高级篇

作者：随梦而飞 2016-09-27

前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种...
Spark性能优化指南——基础篇

作者：随梦而飞 2016-09-27

前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark...
Spark在美团的实践

作者：随梦而飞 2016-09-27

本文已发表在《程序员》杂志2016年4月期。前言美团是数据驱动的互联网服务，用户每天在美团上的点击、浏览、下单支付行为都会产生海量的日志，这些日志数据将被汇总处理、分析、挖掘与学习，为美团的各种推荐、搜索系统甚至公司战略目标制定提供数据支持。大数据处理渗透到了美团各业务线的各种应用场景，选择合适、高效的数据处理引擎能够大大提高数据生产的效率...
分布式块存储系统Ursa的设计与实现

作者：随梦而飞 2016-09-27

引言云硬盘对IaaS云计算平台有至关重要的作用，几乎已成为必备组件，如亚马逊的EBS(ElasticBlockStore)、阿里云的盘古、OpenStack中的Cinder等。云硬盘可为云计算平台带来许多优良特性，如更高的数据可靠性和可用性、灵活的数据快照功能、更好的虚拟机动态迁移支持、更短的主机故障恢复时间等等。随着万兆以太网逐渐普及，云...
Giraph 基础介绍

作者：技塑人生 2016-09-08

欢迎访问：西北工业大学-大数据与知识管理研究室（NorthwesternPolytechnicalUniversity-BigDataandKnowledgeManagementLab），链接：http://wowbigdata.cn/，http://wowbigdata.net.cn/，http://wowbigdata.com.cn。G...