Untyped Transformations-spark技术分享

Dataset API — Untyped Transformations

Untyped transformations are part of the Dataset API for transforming a Dataset to a DataFrame, a Column, a RelationalGroupedDataset, a DataFrameNaFunctions or a DataFrameStatFunctions (and hence untyped).

Note	Untyped transformations are the methods in the `Dataset` Scala class that are grouped in `untypedrel` group name, i.e. `@group untypedrel`.

Transformation Description

agg



agg(aggExpr: (String, String), aggExprs: (String, String)*): DataFrame
agg(expr: Column, exprs: Column*): DataFrame
agg(exprs: Map[String, String]): DataFrame

agg(aggExpr: (String, String), aggExprs: (String, String)*): DataFrame

agg(expr: Column, exprs: Column*): DataFrame

agg(exprs: Map[String, String]): DataFrame

apply

Selects a column based on the column name (i.e. maps a Dataset onto a Column)



apply(colName: String): Column

apply(colName: String): Column

col

Selects a column based on the column name (i.e. maps a Dataset onto a Column)



col(colName: String): Column

col(colName: String): Column

colRegex



colRegex(colName: String): Column

colRegex(colName: String): Column

Selects a column based on the column name specified as a regex (i.e. maps a Dataset onto a Column)

crossJoin



crossJoin(right: Dataset[_]): DataFrame

crossJoin(right: Dataset[_]): DataFrame

cube



cube(cols: Column*): RelationalGroupedDataset
cube(col1: String, cols: String*): RelationalGroupedDataset

cube(cols: Column*): RelationalGroupedDataset

cube(col1: String, cols: String*): RelationalGroupedDataset

drop



drop(colName: String): DataFrame
drop(colNames: String*): DataFrame
drop(col: Column): DataFrame

drop(colName: String): DataFrame

drop(colNames: String*): DataFrame

drop(col: Column): DataFrame

groupBy



groupBy(cols: Column*): RelationalGroupedDataset
groupBy(col1: String, cols: String*): RelationalGroupedDataset

groupBy(cols: Column*): RelationalGroupedDataset

groupBy(col1: String, cols: String*): RelationalGroupedDataset

join



join(right: Dataset[_]): DataFrame
join(right: Dataset[_], usingColumn: String): DataFrame
join(right: Dataset[_], usingColumns: Seq[String]): DataFrame
join(right: Dataset[_], usingColumns: Seq[String], joinType: String): DataFrame
join(right: Dataset[_], joinExprs: Column): DataFrame
join(right: Dataset[_], joinExprs: Column, joinType: String): DataFrame

join(right: Dataset[_]): DataFrame

join(right: Dataset[_], usingColumn: String): DataFrame

join(right: Dataset[_], usingColumns: Seq[String]): DataFrame

join(right: Dataset[_], usingColumns: Seq[String], joinType: String): DataFrame

join(right: Dataset[_], joinExprs: Column): DataFrame

join(right: Dataset[_], joinExprs: Column, joinType: String): DataFrame



na: DataFrameNaFunctions

na: DataFrameNaFunctions

rollup



rollup(cols: Column*): RelationalGroupedDataset
rollup(col1: String, cols: String*): RelationalGroupedDataset

rollup(cols: Column*): RelationalGroupedDataset

rollup(col1: String, cols: String*): RelationalGroupedDataset

select



select(cols: Column*): DataFrame
select(col: String, cols: String*): DataFrame

select(cols: Column*): DataFrame

select(col: String, cols: String*): DataFrame

selectExpr



selectExpr(exprs: String*): DataFrame

selectExpr(exprs: String*): DataFrame

stat



stat: DataFrameStatFunctions

stat: DataFrameStatFunctions

withColumn



withColumn(colName: String, col: Column): DataFrame

withColumn(colName: String, col: Column): DataFrame

withColumnRenamed



withColumnRenamed(existingName: String, newName: String): DataFrame

withColumnRenamed(existingName: String, newName: String): DataFrame

`agg` Untyped Transformation



agg(aggExpr: (String, String), aggExprs: (String, String)*): DataFrame
agg(expr: Column, exprs: Column*): DataFrame
agg(exprs: Map[String, String]): DataFrame

agg(aggExpr: (String, String), aggExprs: (String, String)*): DataFrame

agg(expr: Column, exprs: Column*): DataFrame

agg(exprs: Map[String, String]): DataFrame

agg…FIXME

`apply` Untyped Transformation



apply(colName: String): Column

apply(colName: String): Column

apply selects a column based on the column name (i.e. maps a Dataset onto a Column).

`col` Untyped Transformation



col(colName: String): Column

col(colName: String): Column

col selects a column based on the column name (i.e. maps a Dataset onto a Column).

Internally, col branches off per the input column name.

If the column name is * (a star), col simply creates a Column with ResolvedStar expression (with the schema output attributes of the analyzed logical plan of the QueryExecution).

Otherwise, col uses colRegex untyped transformation when spark.sql.parser.quotedRegexColumnNames configuration property is enabled.

In the case when the column name is not * and spark.sql.parser.quotedRegexColumnNames configuration property is disabled, col creates a Column with the column name resolved (as a NamedExpression).

`colRegex` Untyped Transformation



colRegex(colName: String): Column

colRegex(colName: String): Column

colRegex selects a column based on the column name specified as a regex (i.e. maps a Dataset onto a Column).

Note	`colRegex` is used in col when spark.sql.parser.quotedRegexColumnNames configuration property is enabled (and the column name is not `*`).

Internally, colRegex matches the input column name to different regular expressions (in the order):

For column names with quotes without a qualifier, colRegex simply creates a Column with a UnresolvedRegex (with no table)
For column names with quotes with a qualifier, colRegex simply creates a Column with a UnresolvedRegex (with a table specified)
For other column names, colRegex (behaves like col and) creates a Column with the column name resolved (as a NamedExpression)

`crossJoin` Untyped Transformation



crossJoin(right: Dataset[_]): DataFrame

crossJoin(right: Dataset[_]): DataFrame

crossJoin…FIXME

`cube` Untyped Transformation



cube(cols: Column*): RelationalGroupedDataset
cube(col1: String, cols: String*): RelationalGroupedDataset

cube(cols: Column*): RelationalGroupedDataset

cube(col1: String, cols: String*): RelationalGroupedDataset

cube…FIXME

Dropping One or More Columns — `drop` Untyped Transformation



drop(colName: String): DataFrame
drop(colNames: String*): DataFrame
drop(col: Column): DataFrame

drop(colName: String): DataFrame

drop(colNames: String*): DataFrame

drop(col: Column): DataFrame

drop…FIXME

`groupBy` Untyped Transformation



groupBy(cols: Column*): RelationalGroupedDataset
groupBy(col1: String, cols: String*): RelationalGroupedDataset

groupBy(cols: Column*): RelationalGroupedDataset

groupBy(col1: String, cols: String*): RelationalGroupedDataset

groupBy…FIXME

`join` Untyped Transformation



join(right: Dataset[_]): DataFrame
join(right: Dataset[_], usingColumn: String): DataFrame
join(right: Dataset[_], usingColumns: Seq[String]): DataFrame
join(right: Dataset[_], usingColumns: Seq[String], joinType: String): DataFrame
join(right: Dataset[_], joinExprs: Column): DataFrame
join(right: Dataset[_], joinExprs: Column, joinType: String): DataFrame

join(right: Dataset[_]): DataFrame

join(right: Dataset[_], usingColumn: String): DataFrame

join(right: Dataset[_], usingColumns: Seq[String]): DataFrame

join(right: Dataset[_], usingColumns: Seq[String], joinType: String): DataFrame

join(right: Dataset[_], joinExprs: Column): DataFrame

join(right: Dataset[_], joinExprs: Column, joinType: String): DataFrame

join…FIXME

`na` Untyped Transformation



na: DataFrameNaFunctions

na: DataFrameNaFunctions

na simply creates a DataFrameNaFunctions to work with missing data.

`rollup` Untyped Transformation



rollup(cols: Column*): RelationalGroupedDataset
rollup(col1: String, cols: String*): RelationalGroupedDataset

rollup(cols: Column*): RelationalGroupedDataset

rollup(col1: String, cols: String*): RelationalGroupedDataset

rollup…FIXME

`select` Untyped Transformation



select(cols: Column*): DataFrame
select(col: String, cols: String*): DataFrame

select(cols: Column*): DataFrame

select(col: String, cols: String*): DataFrame

select…FIXME

Projecting Columns using SQL Statements — `selectExpr` Untyped Transformation



selectExpr(exprs: String*): DataFrame

selectExpr(exprs: String*): DataFrame

selectExpr is like select, but accepts SQL statements.



val ds = spark.range(5)

scala> ds.selectExpr("rand() as random").show
16/04/14 23:16:06 INFO HiveSqlParser: Parsing command: rand() as random
+-------------------+
|             random|
+-------------------+
|  0.887675894185651|
|0.36766085091074086|
| 0.2700020856675186|
| 0.1489033635529543|
| 0.5862990791950973|
+-------------------+

val ds = spark.range(5)

scala> ds.selectExpr("rand() as random").show

16/04/14 23:16:06 INFO HiveSqlParser: Parsing command: rand() as random

+-------------------+

| random|

+-------------------+

| 0.887675894185651|

|0.36766085091074086|

| 0.2700020856675186|

| 0.1489033635529543|

| 0.5862990791950973|

+-------------------+

Internally, it executes select with every expression in exprs mapped to Column (using SparkSqlParser.parseExpression).



scala> ds.select(expr("rand() as random")).show
+------------------+
|            random|
+------------------+
|0.5514319279894851|
|0.2876221510433741|
|0.4599999092045741|
|0.5708558868374893|
|0.6223314406247136|
+------------------+

scala> ds.select(expr("rand() as random")).show

+------------------+

| random|

+------------------+

|0.5514319279894851|

|0.2876221510433741|

|0.4599999092045741|

|0.5708558868374893|

|0.6223314406247136|

+------------------+

`stat` Untyped Transformation



stat: DataFrameStatFunctions

stat: DataFrameStatFunctions

stat simply creates a DataFrameStatFunctions to work with statistic functions.

`withColumn` Untyped Transformation



withColumn(colName: String, col: Column): DataFrame

withColumn(colName: String, col: Column): DataFrame

withColumn…FIXME

`withColumnRenamed` Untyped Transformation



withColumnRenamed(existingName: String, newName: String): DataFrame

withColumnRenamed(existingName: String, newName: String): DataFrame

withColumnRenamed…FIXME

Untyped Transformations

Dataset API — Untyped Transformations

`agg` Untyped Transformation

`apply` Untyped Transformation

`col` Untyped Transformation

`colRegex` Untyped Transformation

`crossJoin` Untyped Transformation

`cube` Untyped Transformation

Dropping One or More Columns — `drop` Untyped Transformation

`groupBy` Untyped Transformation

`join` Untyped Transformation

`na` Untyped Transformation

`rollup` Untyped Transformation

`select` Untyped Transformation

Projecting Columns using SQL Statements — `selectExpr` Untyped Transformation

`stat` Untyped Transformation

`withColumn` Untyped Transformation

`withColumnRenamed` Untyped Transformation

相关推荐

欢迎关注：spark技术分享

热门标签

近期文章

分类目录

关注公众号：spark技术分享

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

QQ咨询

回顶部

Dataset API — Untyped Transformations

agg Untyped Transformation

apply Untyped Transformation

col Untyped Transformation

colRegex Untyped Transformation

crossJoin Untyped Transformation

cube Untyped Transformation

Dropping One or More Columns — drop Untyped Transformation

groupBy Untyped Transformation

join Untyped Transformation

na Untyped Transformation

rollup Untyped Transformation

select Untyped Transformation

Projecting Columns using SQL Statements — selectExpr Untyped Transformation

stat Untyped Transformation

withColumn Untyped Transformation

withColumnRenamed Untyped Transformation

相关推荐

欢迎关注：spark技术分享

热门标签

近期文章

分类目录

关注公众号：spark技术分享

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

QQ咨询

回顶部

`agg` Untyped Transformation

`apply` Untyped Transformation

`col` Untyped Transformation

`colRegex` Untyped Transformation

`crossJoin` Untyped Transformation

`cube` Untyped Transformation

Dropping One or More Columns — `drop` Untyped Transformation

`groupBy` Untyped Transformation

`join` Untyped Transformation

`na` Untyped Transformation

`rollup` Untyped Transformation

`select` Untyped Transformation

Projecting Columns using SQL Statements — `selectExpr` Untyped Transformation

`stat` Untyped Transformation

`withColumn` Untyped Transformation

`withColumnRenamed` Untyped Transformation