Flink内存管理: 内存数据结构

2022-02-19

内存段

内存段在 Flink 内部叫 MemorySegment，是 Flink 中最小的内存分配单元，默认大小32KB。Flink内存是区分堆内和堆外的,但是MemorySegment是最小单元,不区分堆内核堆外的.它即可以是堆上内存（Java的byte数组），也可以是堆外内存（基于Netty的DirectByteBuffer），同时提供了对二进制数据进行读取和写入的方法。

展开全文 >>

Flink内存管理: 内存模型

2022-02-19

目前，大数据计算引擎主要用 Java 或是基于 JVM 的编程语言实现的，例如 Apache Hadoop、Apache Spark、Apache Drill、Apache Flink等。Java语言的好处在于程序员不需要太关注底层内存资源的管理，但同样会面临一个问题，就是如何在内存中存储大量的数据（包括缓存和高效处理）。Flink使用自主的内存管理，来避免这个问题。

展开全文 >>

Flink源码分析: Flink on yarn 的 per-job-cluster模式及提交流程

2022-02-19

Flink on Yarn

Flink提供了两种在yarn上运行的模式，分别为Session-Cluster和Per-Job-Cluster模式.

Application就是我们的JobManager.

什么是Session-Cluster呢?

就是多个job或者多个application共享一份集群资源,共享一份yarn session的进程或者共用一个进程中的资源,那个进程叫yarn session
什么是Per-Job-Cluster呢?
每一个job对应一个yarn session

展开全文 >>

Flink SQL 案例代码: 使用连接器的方式读取Kafka的数据

2022-02-17

注意: 在将动态表转换为 DataStream 时，只支持 append 流和 retract 流。
只有当我们对接Hbase,ES等这些外部系统的时候才会有upsert模式.

展开全文 >>

Flink SQL 案例代码: 使用Connect方式读取文本数据

2022-02-17

注意: 在将动态表转换为 DataStream 时，只支持 append 流和 retract 流。
只有当我们对接Hbase,ES等这些外部系统的时候才会有upsert模式.

展开全文 >>

Flink SQL 案例代码: 将Stream流转化成Table聚合操作, 求总和,某个count或者sum将转为Stream打印

2022-02-17

表到流的转换:
 Append-only 流（追加流）
 Retract 流（撤回流，使用聚合操作，count，sum等）
 Upsert 流(更新流,直接更新)
注意: 在将动态表转换为 DataStream 时，只支持 append 流和 retract 流。
 		 只有当我们对接Hbase,ES等这些外部系统的时候才会有upsert模式.
 		 注意: 聚合操作需要使用撤回流,不能使用追加流