问题描述 因为要设计一个数据库表,进行一个倒序去重的操作。 例如: id Name 1 B 2 A 3 A 4 C 5 C 6 B 场景:例如说我们需要得到一个用户的搜索记录,那么肯定不会仅仅根据时间倒序排序给出列表展示,因为这样会出现重复的…
一.引言
使用spark很久第一次用到 distinct 算子,趁热打铁熟悉一下 distinct 的操作。 二.源码
distinct 算子会返回一个新的 RDD,这里的每一个元素都是唯一的不会有重复。 /*** Return a new RDD containing the distinct elements in this RDD.*/def…
在表中,可能会包含重复值。这并不成问题,不过,有时您也许希望仅仅列出不同(distinct)的值。关键词 distinct用于返回唯一不同的值。 表A: 表B: 1.作用于单列
select distinct name from A 执行后结果如下&…