8wDlpd.png
8wDFp9.png
8wDEOx.png
8wDMfH.png
8wDKte.png

如果在 Spark 中块前后的值相同,如何替换连续值块?

Varun R 1月前

13 0

我是 Spark 新手,遇到了一个问题,我已经努力解决好几天了。我还没有找到解决方案。如果能用 Spark Java 或 Scala 回答,我将不胜感激。我的

我是 Spark 新手,遇到了一个问题,我已经努力解决好几天了。我还没有找到解决方案。如果能用 Spark Java 或 Scala 回答,我将不胜感激。我的数据集如下所示。

实例 时间 电源
Ⅰ1 2024-09-01-00:00:00
Ⅰ1 2024-09-01-00:15:00 错误
Ⅰ1 2024-09-01-00:30:00 错误
Ⅰ1 2024-09-01-00:45:00 错误
Ⅰ1 2024-09-01-01:00:00
Ⅰ1 2024-09-01-01:15:00 错误
Ⅰ1 2024-09-01-01:30:00 电池
Ⅰ1 2024-09-01-01:45:00 错误
Ⅰ1 2024-09-01-02:00:00 电池

现在,如果错误块下方和上方的值相同,那么我想用该值替换所有错误。此外,替换操作应通过对实例进行分区来完成。所以我的输出应该如下所示。

实例 时间 电源
Ⅰ1 2024-09-01-00:00:00
Ⅰ1 2024-09-01-00:15:00
Ⅰ1 2024-09-01-00:30:00
Ⅰ1 2024-09-01-00:45:00
Ⅰ1 2024-09-01-01:00:00
Ⅰ1 2024-09-01-01:15:00 错误<-- 高于和低于此的值不一样,因此没有被替换
Ⅰ1 2024-09-01-01:30:00 电池
Ⅰ1 2024-09-01-01:45:00 电池
Ⅰ1 2024-09-01-02:00:00 电池

然后我想找到每个实例的每个电源的总数、最大和最小连续计数。因此从上面的输出来看应该是:电力 -> 总计数:5,最大连续:5,最小连续:5电池 -> 总计数:3,最大连续:3,最小连续:3

我无法解决第一部分,但对于第二部分(查找计数),我计划在每个实例的列表中收集 power_source,然后将其传递给 UDF 以查找计数。

帖子版权声明 1、本帖标题:如果在 Spark 中块前后的值相同,如何替换连续值块?
    本站网址:http://xjnalaquan.com/
2、本网站的资源部分来源于网络,如有侵权,请联系站长进行删除处理。
3、会员发帖仅代表会员个人观点,并不代表本站赞同其观点和对其真实性负责。
4、本站一律禁止以任何方式发布或转载任何违法的相关信息,访客发现请向站长举报
5、站长邮箱:yeweds@126.com 除非注明,本帖由Varun R在本站《scala》版块原创发布, 转载请注明出处!
最新回复 (0)
  • 我能想到的一种方法是使用 groupby 和自定义函数对分组值进行操作。

    1. p1

    2. p2

    3. p3

    4. p4

    我知道这不是最好的方法,但根据我的经验,这应该可行。如果我想到其他方法,我会更新。

返回
作者最近主题: