实时即未来,大数据项目车联网之原始数据实时ELT流式任务流程总结【七】
admin
2024-02-23 17:30:04

文章目录

      • 1 原始数据实时ETL任务分析结果落地
        • 1 Json解析hdfs数据映射hive表(建议)
        • 2 自定义Sink数据写入hive表(不建议)
    • 总结

1 原始数据实时ETL任务分析结果落地

1 Json解析hdfs数据映射hive表(建议)

l 用StreamingFileSink方法将正确数据和错误数据写入到对应的HDFS目录中后,需要创建对应的hive表,并关联hdfs数据到hive表中,以实现原始数据实时ETL结果数据落地Hive需求。

l 实现步骤:

  • 启动 Hive 并启动 Hive 对应的服务

n hive脚本:分别创建外部分区表:正常数据分区表和错误数据分区表。

外部表:删除表时,不会删除表对应的原始数据

分区表: 便于后期使用分区进行数据查询;便于hdfs分目录存放数据与hive分区数据对应,便于数据存放管理

相关内容

热门资讯

穿越天山遇见四季童话:新疆深度... 穿越天山遇见四季童话:新疆深度旅行指南与秘境故事 序章:一封来自西域的情书 每年六月,当伊犁河谷的薰...
从戈壁到花海:一位新疆本地向导... 从戈壁到花海:一位新疆本地向导的四季旅行手记 在新疆生活了近二十年,我依然记得第一次被这片土地震撼的...
穿越军 - 穿越中国亲子挑战赛... 以前总带孩子去各地旅游,打卡景点、吃美食,回来之后孩子除了照片,什么都没留下,直到带他参加穿越军亲子...
2026最新山东旅行社综合实力... 随着 2026 年旅游市场持续升温,山东凭借 "一山一水一圣人" 的独特魅力和丰富的文旅资源,成为国...
二十年,再赴大熊山 人间忽晚,山河已秋。一别大熊山,已是整整二十载。 那时我匆匆登临,步履轻快,眼里只有山川壮阔、林木葱...