一.引言
使用spark很久第一次用到 distinct 算子,趁热打铁熟悉一下 distinct 的操作。 二.源码
distinct 算子会返回一个新的 RDD,这里的每一个元素都是唯一的不会有重复。 /*** Return a new RDD containing the distinct elements in this RDD.*/def…
在表中,可能会包含重复值。这并不成问题,不过,有时您也许希望仅仅列出不同(distinct)的值。关键词 distinct用于返回唯一不同的值。 表A: 表B: 1.作用于单列
select distinct name from A 执行后结果如下&…