敦煌网(DHgate)成立于 2004 年,是领先的 B2B 跨境电子商务交易平台,在品牌、技术、运营、用户四大维度上已建立起竞争优势,为来自 225 个国家和地区超过 5960 万名注册买家提供服务,将他们与超过 254 万卖家连接。平台每年有超过 3400 万个在线商品,拥有 100 多条物流线路和 10 多个海外仓,71 个币种支付能力,在北美、拉美、欧洲等地设有全球业务办事机构。面对敦煌网的大数据战略需求,亚马逊云科技助其构建起端到端的一站式数据分析平台,完成了 Apache Hudi on Amazon Elastic MapReduce (Amazon EMR) 900 张表入湖,并支持每天 5TB 增量数据入湖,最终实现 IT 维护成本降低 30%,开发效率提升 40%,成功帮助客户打造了数据驱动型企业。目前,敦煌网使用的亚马逊云科技服务包括:Amazon Simple Storage Service (Amazon S3)、Amazon EMR、Amazon Redshift、Amazon OpenSearch Service 等。
机会 | 建设大数据云底座,加速企业数据洞察
如今,在各种不确定因素影响下,跨境电商是否依然是一片蓝海?对此,敦煌网集团技术中心副总裁刘文涛给予肯定答复,他表示:“各垂直类跨境电商所关注领域并不同,且国家政策鼓励将中国制造输出海外,此外,社交电商赛道的蓬勃发展,也激发了跨境电商更多可能性。”
值得敦煌网挖掘的空间还非常大,也充满想象力,刘文涛认为首要一点,是从企业内部出发,对敦煌网沉淀了近 20 年的大数据资产进行深度挖掘、洞察和使用。随着平台业务日趋成熟,经营范围持续扩大,品类和渠道的增加,以及 AIGC 等行业新技术在运营提效场景下的广泛应用,敦煌网迫切需要打造集数据集成、开发、资产管理和服务等功能为一体的一站式大数据平台,对多年积累的海量数据进行分析挖掘,激活数据价值,带动服务水平和业务反应速度的提升。
敦煌网之前采用的是传统 IDC 大数据集群,维护成本高,计算存储耦合,算力瓶颈无法实现弹性伸缩,技术架构相对保守封闭。因此,敦煌网亟需构建一套现代化的智能湖仓架构,作为大数据平台的云底座,确保数据无缝流转,并通过精细化运营和成本优化,实现资源能够随业务灵活扩缩,达成数据驱动决策,算法增长业务的目标。
为了实现大数据战略,敦煌网通过前期调研,对离线集群、数据仓库引擎、对象存储等进行多个维度、多家厂商及开源方案深入评估测试后,最终选择亚马逊云科技为其建设大数据云技术底座。选择亚马逊云科技的原因有两点:第一、亚马逊云科技生于零售,拥有强大的电商创新经验,与敦煌网的业务模式非常契合,为电商行业专门构建的产品和服务经过自身多年检验,从架构兼容性、算力、维护成本、开放性、扩展性等角度都能够很好满足敦煌网的需求。此外,安全合规已成为各国政府持续监管重点,亚马逊云科技满足全球范围内严苛的合规标准,能够有效保障敦煌网全球范围的数据安全和隐私保护。
通过使用像 Amazon EMR,Amazon Redshift 这样的云原生数据分析组件,我们构建了‘更准、更全、更快、更稳’的端到端数据分析平台,使大数据的 IT 维护成本降低 30%,开发效率提升 40%,解决了算力瓶颈,让我们可以把更多精力和资源投入到提升数据化运营能力和增长洞察上。”
刘文涛,敦煌网集团技术中心副总裁
解决方案 | 智能湖仓架构 + 大数据平台,实现数据价值可持续释放
借助亚马逊云科技,敦煌网完成了从 Apache Impala + Apache Kudu 存算耦合架构向 Apache Spark on Amazon EMR + Hudi + Amazon S3 智能湖仓架构的升级改造,实现海量数据的入湖,并与合作伙伴滴普科技共同构建了符合敦煌网当前业务需求和未来发展的新一代端到端大数据分析平台,确保其数据和应用准确无误地云上迁移。
智能湖仓架构替换存算耦合架构,数据无缝流转
智能湖仓以 Amazon S3 作为中心数据湖,实现数据的集中存储和管理,并针对不同的场景,选择最具性价比的计算引擎,使数据能够在湖仓和计算引擎之间无缝流转,而在入湖方式上则采用基于 Hudi 实现 CDC (Change Data Capture 变更数据获取) 数据入湖。在构建智能湖仓过程中还进行了多项优化调整,包括:
敦煌网基于亚马逊云科技的架构示意图
“快、准、全、稳” 的端到端数据分析平台,响应业务快速发展
为了更好地分析数据并获取洞察,亚马逊云科技为敦煌网建设大数据云底座的同时,也协调滴普科技共同打造匹配跨境电商体系的端到端数据分析平台,以解决电商数据源多样、数据量大、数据类型多的管理难题,并在云上借助 Amazon S3 统一数据湖与 Amazon EMR 统一的数据框架服务,完成数据的快速采集、存储、安全管理与大数据处理,“快、准、全、稳 ” 地帮助敦煌网全面整合从数据源到数据分析以及数据价值实现的完整链路。
日夜攻关突破,完成 1000 + 作业、PB 级全量数据迁移上云
伴随组件生产环境、大数据平台部署与调配完成,数据入湖和云上迁移提上日程。根据规划,敦煌网需要将源表 8 万张合并到 Hudi 900 张表,并且实现每天增量 5TB 数据入湖;此外,还要完成 PB 级全量数据、3000 余张数据表、1000 多个计划任务以及 400 多个业务报表的上云迁移,这在整个业界都是无经验可循的复杂业务场景。
亚马逊云科技团队与敦煌网和滴普科技的工程师们日夜攻关突破,最终成功实现数据入湖的目标,并在 3 个月内完成数据和应用的准确无误上云迁移。
驾驭云支出,实现精确的成本管控
敦煌网对成本控制非常严格,亚马逊云科技多次为其提供系统性的成本优化培训服务,敦煌网也在借助 CFM (云上财务管理) 产品有效观察产品使用率,通过合理配置 RI、Saving Plan 进行最佳成本控制,并且从数据层面完善自动化的生命周期管理,在计算层面规划数据任务调度分布。如,利用 Amazon EMR 实现业务高峰期生产环境资源的扩展,并可在集群空闲时自动实现缩放节点和关闭集群,将此前高昂的基础设施成本转化为更灵活的业务运营成本。
业务成果 | 数据驱动业务,实现 T+0 近实时分析,提升 40% 开发效率
“通过使用像 Amazon EMR、Amazon Redshift 这样的云原生数据分析组件,我们构建了‘更准、更全、更快、更稳’的端到端数据分析平台,使大数据的 IT 维护成本降低 30%,开发效率提升 40%,解决了算力瓶颈,让我们可以把更多精力和资源投入到提升数据化运营能力和增长洞察上。” 刘文涛如是说。
搭建智能湖仓架构后,敦煌网数据集群的运行硬件和维护成本降低了 30%,解决了 IDC 大数据集群无法通过扩展节点来增加算力、存储和网络流量的瓶颈问题。
电商是一种季节性很强的业务,如黑五、双十一流量会暴涨,潮汐效应明显。此前,为了满足欧美市场商家 “圣诞季 “的采购需求,敦煌网每年 8 月底就提前部署设备应对流量洪峰,之后则会变成冗余资源。同时,电商也是深度数据驱动行业,多种 BI 处理、数据分析需求高度依赖数仓查询。Amazon EMR 一次性集群和 Amazon Redshift 的定时、分钟、秒级多种动态弹性扩缩容方式,能够很好满足业务负载的周期起伏,提高数据查询效率达到 100%。
敦煌网的数据架构完成云原生的改造和升级后,实现了数据实时入湖、存算分离架构,能够支撑未来更多实时和离线业务场景需求,如 AIGC、实时用户画像搜索推荐等。而端到端数据分析平台的上线,使数据开发、测试、发布、运维流程规范化,提高了 40% 的开发效率,数据资产管理的数据地图、数据血缘等功能提高了数据探查效率,有效降低了数据使用沟通成本。此外,东西向隔离、表级别权限细分这些线下管理难以实现的安全功能,通过亚马逊云科技解决方案,敦煌网也将权限管理细化到了极致。
未来,敦煌网希望继续与亚马逊云科技合作,比如,利用专为电商行业构建的个性化推荐服务 Amazon Personalize 实现千人千面的产品推荐,使用 Amazon Interactive Video Service(Amazon IVS)试水数字人直播业务,并尝试 AI 一键选品、AI 一键生成直播话术、个性直播间装修、直播间选品等功能,为客户提供更灵活的购物服务。