文本描述
星星 环环 科科 技技
大数据云的数据交换共享平台架构探索
星环信息科技(上海)有限公司
李光跃
guangyue.li@transwarp.io
近十年数据分析技术的发展历程 星星 环环 科科 技技
新一代的大数据技术软件栈 星星 环环 科科 技技
短时任务资源管理框架
YARN
资源隔离/调度/管理框架
Kubernetes
批处理框架
MapReduce
高性能处理框架
Spark
向量处理框架
TensorFlow
分布式文件系统
HDFS
搜索引擎
Elastic Search
分布式大表
HBase
分布式缓存
Redis
消息队列
Kafka
分布式协作服务
Zookeeper
离线批处理交互式分析联机数据库机器学习 深度学习图分析引擎流处理引擎
数据装载
与加工
数据工作流
开发
数据资产
管理
统计挖掘
开发
运维与
监控
机器学习
建模
可视化
报表
低延时流处理框架
Flink
大数据行业发展的概况 星星 环环 科科 技技
Big Data 2.0
Big Data 3.0
Big Data 1.0
Admin
Development
星星 环环 科科 技技
大数据云化是下一阶段技术发展的趋势
云的特性 星星 环环 科科 技技
u按需使用
u云用户有自助使用IT资源的自由
u用户对资源或服务可以自助配置并自动化使用
u广泛接入
u云服务被广泛访问的能力
u支持多种设备、协议、接口和安全技术
u多租户和资源管理
u一个软件程序的实例支持多个用户或租户
u租户隔离
u资源池化
u弹性
u根据需求自动透明的扩展IT资源
u降低投资成本和时间成本
u用量可度量
u平台精确记录资源的使用情况
u对用户的实际使用或被授予IT资源的时间段来计费
u可恢复性
u通过冗余给用户提供故障恢复能力
u服务本身高可用和自愈设计
数据孤岛问题 星星 环环 科科 技技
u不同团队各自建设,各个应用内数据没有打通
u想要数据的人找不到合适的数据
u提供数据的人不知道如何输出
u分析数据的人不知道数据的质量如何
u有价值的数据不能够沉淀
u同一份数据在多个业务系统内保存,并且存在不一致问题
u早期淘宝的商品表存在于20多个业务系统内,并且都不一致,只能人工校验和甄别
u不同的业务的加工和处理方式不一致,无法从上层统一,只能依赖DBA的繁重的手工校对
u无法做数据管控和质量提升,缺少统一的数据标准
u数据管理是一个管理问题,同时也需要有个可操作的技术方案
u不同的技术定义、缺乏数据管理流程、没有可靠的数据管理工具
u依赖人与人之间的沟通来做数据沟通,出现数据问题后无法有效追溯并修正
烟囱开发问题 星星 环环 科科 技技
u不同团队独立建设、独立开发
u时间:建设周期长,初次获取成本高
u人才:各个团队技术架构不同,需要多个技术团队建设,总投入成本高,建设时间长
u互通:不同的开发模式,各个应用和服务之间无法打通
u管理:研发管理的梦魇,内部五花八门无法形成统一的研发管控和质量提升
u成本:每种开发模式都涉及到各自的安全、运维、升级、部署等通用功能的重复开发和投入
u行业趋势
u厚平台、薄应用
u单体应用 -> SOA服务 -> 微服务体系
技术门槛问题 星星 环环 科科 技技
u大数据和AI很昂贵
u平台建设
u团队建设
u业务探索
u技术门槛高
u数据科学家,5~8年经验,Java/R/Python/Spark/Hadoop/Tensorflow/etc
u数据分析师,报表工具/SQL/ETL工具/Java/Python/etc
u开发人员,HIVE/MySQL/Oracle/Spark/Java/Python/etc
u如何降低技术门槛
u数据服务化 – 所有用户可用
u数据资产化 – 技术开发和业务分析师可用
u数据在线化 – 技术开发和数据科学家可用
大数据业务演进路线 星星 环环 科科 技技
?数据集中处理
?统一的元数据
?统一的计算平台
数据统一化
?数据整合
?数据质量管理
?资产化与计量
数据资产化
?数据化运营
?智能应用
?在线数据服务
数据业务化
?数据域业务闭环
?运营数据
?服务和应用共享
数据生态化
TDC – 大数据云的产品形态 星星 环环 科科 技技
企
业
应
用
市
场
Transwarp Operating System (Full Edition)
原生云平台
安
装
、
部
署
、
运
维
、
在
线
升
级
OLTP DB
PaaS
数
据
资
产
目
录
数
据
模
型
市
场
服
务
发
布
与
治
理
平
台
数据仓库
PaaS
数据分析
PaaS
AI
PaaS
数据集市
PaaS
实时处理
PaaS
搜索引擎
PaaS
Transwarp Cloud Console 云管理控制台
Big Data & Machine Learning Services
Transwarp Cloud Portal 云平台门户
应用资源管理
Universal Service Management Framework
统一的安全体系 多租户管理体系 计费系统 API网关