聚焦百度的下一代离线存储计算系统 - 企业动态_存储频道 - 企业网D1Net - 企业IT 第1门户

聚焦百度的下一代离线存储计算系统

责任编辑：王李通

2013-04-18 19:24:06

摘自： it168网站

2013年4月18-20日，第四届中国数据库技术大会（DTCC 2013）在北京福朋喜来登酒店拉开序幕。

2013年4月18-20日，第四届中国数据库技术大会（DTCC 2013）在北京福朋喜来登酒店拉开序幕。在为期三天的会议中，大会将围绕大数据应用、数据架构、数据管理（数据治理）、传统数据库软件等技术领域展开深入探讨，并将邀请一批国内顶尖的技术专家来进行分享。

本届大会将在保留数据库软件应用实践这一传统主题的基础上，向大数据、数据结构、数据治理与分析、商业智能等领域进行拓展，以满足于广大从业人士和行业用户的迫切需要。

▲第四届中国数据库技术大会

自2010年以来，国内领先的IT专业网站IT168联合旗下ITPUB、ChinaUnix技术社区已经连续举办了三届数据库技术大会，每届大会超过千人规模，云集了国内技术水平最高的数据架构师、DBA、数据库开发工程师、研发总监、IT经理等，是目前国内最受欢迎的数据库技术盛会。下面进行演讲的嘉宾是百度基础架构部高级工程师王猛先生，他演讲的主题是“百度的下一代离线存储计算系统”。

▲百度基础架构部高级工程师王猛先生

百度Hadoop分布式系统揭秘：4000节点集群

百度的高性能计算系统（主要是后端数据训练和计算）目前有4000节点，超过10个的集群，最大的集群规模在1000个节点以上。每个节点由8核CPU以及16G内存以及12TB硬盘组成，每天的数据生成量在3PB以上。规划当中的架构将有超过1万个节点，每天的数据生成量在10PB以上。

王猛：百度的下一代离线存储计算系统

底层的计算资源管理层采用了Agent调度不同类型的计算分别给MPI结构的算法和Map-Reduce和DAG算法应用等。而通过调度的分配，可以让HPC高性能计算集群和大规模分布式集群各得其所的计算相应数据。

2008年始于社区 0.18~0.19 之间的trunk版本300台机器，2个集群

2013年总机器 4.8w+ 单集群最大规模 1w+ CPU利用率70%+ 日均作业数日均输入数据量总inode数使用磁盘空间。

　　百度存储hdfs2全面上线

王猛：百度的下一代离线存储计算系统

需求

10000 * 12 * 2T * 3压缩比 / 256M / 3副本 = 9.8亿

问题

内存 : 9.8亿文件（file:block = 1:1）占用内存 380G

负载 : 吞吐有限，latency 增加

稳定性 :GC影响

可用性 : 2 亿 inode重启一次花费 1小时左右

存储 – hdfs3 – 社区方案未来

王猛：百度的下一代离线存储计算系统

计算 – mr2全面上线 – 收益

王猛：百度的下一代离线存储计算系统

可扩展性：计算模型和资源管理分开；单集群1w+,并发运行task 16w

热升级：MR计算模型升级，更新系统hdfs上abaci包；资源管理升级，可以正常查看提交作业

资源利用率提升：（ cpu, mem, disk, net）多维资源描述；Over-commit调度

计算 – mr执行优化 – 方案

王猛：百度的下一代离线存储计算系统

Shuffle独立：尽量减少map/reduce之间的barrier;同时充分利用资源，减少资源浪费；IO密集作业加速20%作业，资源利用提升6%.

Map sort优化：优化map sort/spill过程，结合MAPREDUCE-64;并行sort,加速sort,减少block time;简单统计类应用map加速 30%。

科技驱动创新行业智行千里

《2022联想智能化转型行业白皮书》重磅发布

引领AI发展极速计算引擎

NVIDIA和慧与新华三人工智能平台

优算智选——HPE ProLiant服务器

是全球最值得信赖的服务器，全球有超过100万客户使用。IDC的市场份额数据显示，HPE在全球服务器总收入中排名第一，连续83个季度保持领先。

国药国际CIO冯伟：数字化转型要打破信息化建系统的固有思维

中国国际医药卫生有限公司数智化中心总经理冯伟在接受企业网D1Net专访时提到：“回过头来看，数智化建设最难的是转思维，必须打破信息化总想去建系统的固有思维，要以平台化思维、站在运营和业务的角度思考问题。思维转变后，很多问题将迎刃而解。”

创维集团信息总监宁江：数据治理是数字化转型的必由之路

创维集团信息总监宁江在接受企业网D1Net采访时提到：“如今，站在数字化转型的全局之下回顾过去几十年的信息化建设，似乎建了很多烟囱，系统之间、流程之间不能共享数据，孤岛林立。不同时期有不同时期的特征，都有其合理性和必要性，如今再来解决这些问题为时未晚。

海尔智家技术总监高丽：云原生加速企业数字化转型

海尔智家全球数字化平台用到了哪些云原生技术产品?如何实现降本增效?在云原生技术应用方面有哪些实践和探索?云原生技术发挥了哪些价值?在本期“云原生降本增效大咖说”中，企业网D1Net采访了海尔智家全球数字化平台技术总监高丽。

热文推荐

相关文章

链接已复制，快去分享吧

企业网版权所有©2010-2025 京ICP备09108050号-6 京公网安备 11010502049343号