【趣码乐园教育】生产逻辑

以滑窗统计为例,具体讲解下生产逻辑:

根据时间轴按照指定的粒度切分不同的分片

收到新的数据上报,根据 eventTime 合并到对应分片

根据配置的窗口大小,取出对应分片合并计算特征结果,同时注册下一次触发的定时器(分片滑出窗口的时间)

定时器触发按照 triggerTime 扫描出在窗口大小内的分片数据,进行合并计算

窗口的滑入滑出均以分片为单位,因为分片为特征的最小精度

今日霍州(www.jrhz.info)©️

混合状态存储架构

在实时特征生产场景中,Flink 任务常常需要处理大规模状态数据。生产环境中可能会遇到两个主要问题:

当状态数据量达到 TB 级别时,在保证数据不丢失、不重复的语义下,一旦发生故障需要恢复,恢复速度会很慢,导致业务中断时间较长,通常超过 10 分钟

目前 Flink SQL 的状态恢复机制较为严苛,在很多场景下,作业变更无法从原先状态恢复,对于新增特征的需求,希望能够在状态上直接进行更新,实现无损重启。

为了解决这些问题,框架实现了状态的冷热数据分离,热数据在 FlinkState 内,冷数据 (包含热数据) 存储在外部存储 (Redis,HBase)。

在任务执行过程中,会优先从 FlinkState 中读取数据。如果 FlinkState 中没有找到所需的数据,则会从外部存储系统中加载。每次执行 checkpoint 操作时,会将状态的变更部分同步到外部存储中,以此确保数据的一致性。这样的设计既保证了数据的高可用性,也提高了系统的容错能力。

今日霍州(www.jrhz.info)©️

任务恢复时,不再将全量数据同步拉取、同步加载。而是同步加载热数据,运行时按需查询冷数据。热数据加载完毕后,整个任务即可开始运行。

今日霍州(www.jrhz.info)©️

若要在现有状态中添加新特征,可以采用旁路离线任务的方式,将新特征作为额外的一列写入外部存储。一旦数据同步完成,只需对现有的任务逻辑进行相应的修改,即可实现新特征的无缝集成。

今日霍州(www.jrhz.info)©️

特别声明:[【趣码乐园教育】生产逻辑] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

2026年适合室内水培的水杉盆栽有哪些选择?

室内水培水杉不仅美化空间,还能有效净化空气。本文详解水杉水培的特点、养护要点和应用场景,助您挑选最适合的室内水杉盆栽,轻松打造绿色家居。

2026年适合室内水培的水杉盆栽有哪些选择?

海报丨年味儿渐浓(年味 海报)

来源:滚动播报 (来源:千龙网) 海报:郑悦 摄影:许昌亮 杜鹏辉 赵子硕 刘满仓 刘颖 王华斌 张爱林 策划:张善臣 周大庆 冯琦…

海报丨年味儿渐浓(年味 海报)

大S雕像完工,具俊晔两个举动透露去留,大S另一个遗愿即将实现(大s的神)

如今,她的纪念雕像几乎完成,而她的丈夫具俊晔,通过两个微小的举动,似乎已经悄然给出了答案:他将妻子的一切事宜妥善安排好后,或许真的该离开了。附近还放置了长椅,雕像旁藏着一个个小小的数字9,这样的细节让人感受到…

大S雕像完工,具俊晔两个举动透露去留,大S另一个遗愿即将实现(大s的神)

何超莲登知名『时尚杂志』封面,诠释自我多种可能(何超莲住所)

不少网友在看到这些照片后,纷纷留言,称何超莲不仅仅是一位豪门千金,更是一位真正懂得生活和自我展现的女性♀️。与某些豪门千金的傲慢不同,何超莲始终以一份平和和低调,去面对自己拥有的一切,也因此赢得了不少粉丝和网友的…

何超莲登知名『时尚杂志』封面,诠释自我多种可能(何超莲住所)

爱泼斯坦女友曾在信中称其纯洁 最后通话人身份曝光(爱泼斯坦女朋友)

美国司法部于2月4日公布了爱泼斯坦案的剩余文件,其中揭示了一名与爱泼斯坦共舞女子的身份。这名女子名叫卡琳娜·舒利亚克,36岁,来自白俄罗斯,目前居住在纽约。她是爱泼斯坦的女友,在他“自杀身亡”前,她是最后一个与他通话的人

爱泼斯坦女友曾在信中称其纯洁 最后通话人身份曝光(爱泼斯坦女朋友)