人工智能2025-10-03 12:16:0047

如何从 Spark 的 DataFrame 中取出具体某一行？

如何从 Spark 的取出 DataFrame 中取出具体某一行?

根据阿里专家Spark的DataFrame不是真正的DataFrame-秦续业的文章-知乎[1]的文章：

DataFrame 应该有『保证顺序，行列对称』等规律因此「Spark DataFrame 和 Koalas 不是具体真正的 DataFrame」

确实可以运行，但却看到一句话，某行大意是取出数据会被放到一个分区来执行，这正是具体因为数据本身之间并不保证顺序，因此只能把数据收集到一起，某行排序，取出再调用 shift。具体这样就不再是某行一个分布式的程序了，甚至比 pandas 本身更慢。取出

我们可以明确一个前提：Spark 中 DataFrame 是具体 RDD 的扩展，限于其分布式与弹性内存特性，某行我们没法直接进行类似 df.iloc(r,取出 c) 的操作来取出其某一行。

但是具体现在我有个需求，源码库分箱，某行具体来讲，需要『排序后遍历每一行及其邻居比如 i 与 i+j』，因此，我们必须能够获取数据的某一行!

不知道有没有高手有好的方法?我只想到了以下几招!

collect 是将 DataFrame 转换为数组放到内存中来。但是 Spark 处理的数据一般都很大，直接转为数组，会爆内存。

因此不能直接 collect 。

要处理哪一列，就直接 select(列名) 取出这一列就好，再 collect 。我的数据有 2e5 * 2e4 这么多，因此 select 后只剩一列大小为 2e5 * 1 ，还是可以 collect 的。

这显然不是个好方法!因为无法处理真正的大数据，比如行很多时。

给 DataFrame 实例 .sort("列名") 后，用 SQL 语句查找：

select 列名 from df_table where 索引列名 = i

我对于 SQL 不是香港云服务器很了解，因此这个做法只是在构思阶段。

此外，我不清楚 SQL 的性能!我要调用很多次 df.iloc[i, 列] ，那这样会不会太慢了?

这个想法也只是停留在脑子里!因为会有些难度。

给每一行加索引列，从0开始计数，然后把矩阵转置，新的列名就用索引列来做。

之后再取第 i 个数，就 df(i.toString) 就行。

这个方法似乎靠谱。

附加方案：ml.feature.Bucketizer

import org.apache.spark.ml.feature.{ Bucketizer, QuantileDiscretizer}

spark中 Bucketizer 的作用和我实现的需求差不多(尽管细节不同)，我猜测其中也应该有相似逻辑。有能力和精力了应该去读读源码，看看官方怎么实现的。

[1]Spark的DataFrame不是真正的DataFrame-秦续业的文章-知乎:

https://zhuanlan.zhihu.com/p/135329592