[云框架]SMACK大数据架构

SMACK并非单一技术，而是由Spark、Mesos、Akka、Cassandra、Kafka组成的大数据架构，适用于广泛的数据处理场景，可完成低延迟扩展及数据复制、统一管理异构负载集群，并通过单一平台满足不同架构设计和不同应用的需求。（A Brief History of the SMACK Stack）主要特点如下：


架构灵活多变	每个组件都可以集群化部署；组件之间可以自由组合；可随意对架构进行无中断升级
支持数据管道	数据以数据流的形式进行流转；上一个组件的输出等于下一个组件的输入
多种模式数据处理	支持秒级流式处理；支持批处理
多种方式数据接入	支持文件、消息、http请求等方式的数据采集
系统可交互	可以与系统进行实时交互，提供REST API
部署简单	以二进制方式部署；以容器化方式部署

在面对数据源数量急剧增加、数据样本获取难度升高、数据分析时效性差、数据分析投资回报率低等一系列挑战时，SMACK可以解决Hadoop等熟知技术无法解决的诸多问题，特别是物联网化、API化趋势下big data向fast data转变所带来的新需求，以及大数据处理对于Data Pipeline的依赖。

我们可以把SMACK看作是一种框架组合思想，其中技术可以增加或被更适合的技术替代，以便我们更好的完成大数据处理。本篇云框架即在引擎层增加了Flink用于处理实时数据，使用Kubernetes替换Mesos作为容器层，以某网站数据为例，提供SMACK大数据框架的最佳实践，包括SMACK、数据接入、数据展示在内的完整框架，适合以下应用场景：

实时计算
时间窗口分析
应用日志分析
项目风控管理
智能预测
实时推荐

在学习和使用SMACK业务和框架之前，建议先行了解Fast Data、Data Pipeline、Lambda Architecture等相关背景说明，这三点可以说是SMACK的灵魂，也是选择使用SMACK的重要原因。

内容概览

快速部署
- 一键部署
- 本地部署
框架说明-业务
框架说明-组件
更新计划
社群贡献

快速部署

一键部署

一键部署至好雨云帮

本地部署

最小环境要求：4 CPUs & 8GB Memory

准备Docker环境，并为Docker分配至少4 CPUs & 8GB Memory

克隆完整代码

git clone https://github.com/cloudframeworks-smack/user-guide-smack.git

使用docker-compose运行如下命令（docker-compose.yml）
```
docker-compose -f docker-compose.yml up -d
```

访问路径

访问	路径	方法	参数
最近10条日志	http://DOCKER_HOST:9091/msg/data/nginx_log/test/test/1/10	GET
最新状态统计信息	http://DOCKER_HOST:9091/msg/data/status_real_statics/test/test/1/10	GET
最新请求统计信息	http://DOCKER_HOST:9091/msg/data/request_real_statics/test/test/1/10	GET
历史统计信息	http://DOCKER_HOST:9090/msg/push/statics	POST	见下方

POST请求参数

    namespace:test
    serviceName:test
    start_time:2017-06-01 01:00:18
    end_time:2017-07-22 01:25:10
    cmd:uv|pv|avgtime
    time_type:day|hour|minute

框架说明-业务

某网站需对其nginx日志进行实时数据和历史数据进行分析统计，实时数据包括——

过去15s中的请求数及每个请求的平均响应时间
过去15s中各网站访问状态（3xx、4xx、5xx）出现频率
过去某时间段中网站访问PV（天／小时／分钟统计）

历史数据包括——

过去某时间段中网站访问UV（以IP地址进行唯一性判断，天／小时／分钟统计）
过去某时间段中请求总数、总时间、最大响应时间、最小响应时间（天／小时／分钟统计）

业务架构如下图所示：

框架说明-组件

SMACK

本项目中SMACK用到了Spark、Flink、Kubernetes、Akka、Cassandra、Kafka，这一组合在技术成熟度、易用性、组合自由性、自动化程度上极具优势。对于数据的实时处理能力是该组合取代Hadoop的重要原因，在Spark基础上增加Flink而不是完全取代Spark的原因则是，Flink处理数据可达秒级（Spark为分钟级），但Spark在数据批处理成熟度上目前整体要强于Flink。

组件	功能／任务	组件	功能／任务
File System	nginx日志路径	Cassandra	数据持久化
Akka-Http	数据增强、数据再处理、restful api接口	Spark	历史数据批处理
Kafka	消息队列	InfluxDb	实时数据统计后汇总的地方
Flink	消息流式处理	Grafana	整合InfluxDb进行数据展示

SMACK整体结构如下图所示:

File System向用户提供底层数据访问机制，即nigix日志存放目录
Akka-http从File system加载日志，进行数据增强、数据再处理，并向外部访问提供REST API接口
数据通过Akka消息队列处理后，由Kafka执行消息传输
Flink利用窗口CP机制对数据进行流式处理及实时状态统计
经过Flink处理的非统计信息将被存储至Cassandra
经过Flink处理的统计信息将被存储至InfluxDB（用来储存实时数据的数据库）
Spark从Cassandra获取数据，进行历史数据的批量分析
数据通过Grafana（或其他可视化工具）进行展示

SMACK涉及技术要点概览

数据接入

准备访问日志并命名为log.log

此处注意，使用本项目需对日志格式进行调整，典型日志结构如下所示：

    172.10.36.32 - - [08/Jun/2017:16:36:46 +0800] "GET /winprize/index?id=aafe-uuawef--afewa HTTP/1.1" 200 2215 "-" "-" "172.11.161.17, 172.10.226.13, 10.208.26.230" 938 0.004 172.11.6.9:10055
    172.10.36.62 - - [08/Jun/2017:16:37:43 +0800] "GET /index HTTP/1.1" 200 56 "-" "-" "172.11.137.181, 172.10.226.14, 10.208.26.226" 947 0.001 172.11.30.144:10055
    172.10.37.46 - - [08/Jun/2017:16:37:43 +0800] "GET /prize/index HTTP/1.1" 200 56 "-" "-" "172.11.97.82, 172.10.226.11, 10.208.26.234" 952 0.001 172.11.6.9:10055
    172.10.36.46 - - [08/Jun/2017:16:37:43 +0800] "GET /prize/rank?r=latest HTTP/1.1" 200 54 "-" "-" "172.11.152.137, 172.10.230.13, 10.208.26.241" 1208 0.001 172.11.9.81:10055
    172.10.37.46 - - [08/Jun/2017:16:36:44 +0800] "GET /prize/rank?r=latest HTTP/1.1" 200 2221 "-" "-" "172.11.97.56, 172.10.226.11, 10.208.26.228" 955 0.003 172.11.14.209:10055
    172.10.36.67 - - [08/Jun/2017:16:36:44 +0800] "GET /index HTTP/1.1" 500 2299 "-" "-" "172.11.152.140, 172.10.230.191, 10.208.26.243" 1024 0.003 172.11.2.194:10055
    172.10.36.32 - - [08/Jun/2017:16:36:46 +0800] "GET /winprize/index?id=aafe-uuawef--afewaaa HTTP/1.1" 404 56 "-" "-" "172.11.161.17, 172.10.230.12, 10.208.26.241" 997 0.001 172.11.23.140:10055
    172.10.36.32 - - [08/Jun/2017:16:37:43 +0800] "GET /prize/index HTTP/1.1" 200 56 "-" "-" "172.10.36.34, 172.10.226.13, 10.208.26.235" 946 0.002 172.11.2.194:10055
    172.10.36.32 - - [08/Jun/2017:16:36:47 +0800] "GET /prize/index HTTP/1.1" 200 56 "-" "-" "172.11.97.88, 172.10.226.13, 10.208.26.229" 1294 0.002 172.11.23.140:10055

字段	表示	字段	表示
remoteAddr	-----IP地址	httpReferer	-----refer
remoteUser	-----用户	httpUserAgent	-----ua
timeLocal	-----服务时间	httpXForwardedFor	-----refer
request	-----请求地址	requestLength	-----请求长度
status	-----请求状态	upstreamResponseTime	------响应时间
bodySize	----内容大小	upstreamAddr	-----响应地址

查看实例日志

确保数据格式正确，可通过正则表达式验证

    reg=`(\d+.\d+.\d+.\d+)\s-\s(.*)\s\[(.+)\]\s\"(.*)\"\s(\d{3,})\s(\d+)\s\"(.*)\"\s\"(.*)\"\s\"(.*?)\"\s(.*)\s(.*)\s(.*)$`

修改docker-compose.yml文件，找到akka-instream并添加

    volumes:
    - 你本地日志所在目录:/opt/akka/data/

数据展示

本项目未封装数据展示组件，可使用Grafana或接入其他可视化工具。

使用Grafana步骤如下：

下载Grafana镜像
```
docker pull grafana/grafana
```
下载并解压Grafana初始化数据（实例日志）到/tmp目录（该目录可根据业务实际情况进行自定义，注意相应修改下一步骤中的挂载目录/tmp/grafana:/var/lib/grafana）

执行命令

docker run -d -v /tmp/grafana:/var/lib/grafana --publish 3000:3000 grafana/grafana

登陆访问数据展示界面

http://DOCKER_HOST:3000/login ---（默认账号密码：admin/admin）
或直接访问数据展示界面

http://DOCKER_HOST:3000/dashboard/db/data_statics?refresh=5s&orgId=1

更新计划

CODE 完善数据展示界面
CODE 完善集群部署支持

社群贡献

QQ群: 614186010
参与贡献
联系我们

云框架系列主题，遵循APACHE LICENSE 2.0协议发布。

Name		Name	Last commit message	Last commit date
Latest commit History 53 Commits
READMORE		READMORE
example		example
image		image
source		source
ABOUT.md		ABOUT.md
CHANGELOG.md		CHANGELOG.md
CONTRIBUTING.md		CONTRIBUTING.md
CONTRIBUTORS.md		CONTRIBUTORS.md
LICENSE.md		LICENSE.md
QA.md		QA.md
README.md		README.md
docker-compose.yml		docker-compose.yml
docker-compose_ACP.yml		docker-compose_ACP.yml

License

cloudframeworks-smack/user-guide-smack

Folders and files

Latest commit

History

Repository files navigation

[云框架]SMACK大数据架构

内容概览

快速部署

一键部署

本地部署

框架说明-业务

框架说明-组件

SMACK

数据接入

数据展示

更新计划

社群贡献

About

Resources

License

Stars

Watchers

Forks

Languages