apache-spark

Tarea no serializable: java. io. NotSerializableException al llamar a la función fuera del cierre solo en clases no objetos

Obtener un comportamiento extraño al llamar a una función fuera de un cierre: cuando la función está en un objeto todo es ... t.map(someFunc(_)) //this will crash (spark lazy) after.collect().map(println(_)) } def someFunc(a:Int) = a+1 }

Diferencia entre DataFrame (en Spark 2.0 es decir, Conjunto de datos [Fila]) y RDD en Spark

Me pregunto cuál es la diferencia entre un RDD y DataFrame (Spark 2.0.0 DataFrame es un mero alias de tipo para Dataset[Row]) ¿en Apache Spark? ¿Se puede convertir uno a otro?

apache-spark spark-dataframe rdd apache-spark-dataset

¿Cuál es la diferencia entre Apache Spark y Apache Flink? [cerrado]

¿cuáles son las diferencias entre Apache Spark y Apache Flink? Will Apache Flinkreplace Hadoop?

apache-spark hadoop apache-flink

Apache Spark vs Apache Storm [cerrado]

¿cuáles son las diferencias entre Apache Spark y Apache Storm? ¿Cuáles son los casos de uso adecuados para cada uno?

bigdata apache-spark apache-storm

Cómo imprimir el contenido de RDD?

Estoy intentando imprimir el contenido de una colección en la consola de Spark. Tengo un tipo: linesWithSessionId: org.apac ... appedRDD [4] at map at: 19 ¿Cómo puedo escribir el RDD en la consola o guardarlo en el disco para poder ver su contenido?

scala apache-spark

Cómo convertir un objeto rdd a dataframe en spark

Cómo puedo convertir un RDD (org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) a un Dataframe org.apache.spark.sql.DataFrame. Convertí un dataframe a rdd usando .rdd. Después de procesarlo, lo quiero de vuelta en dataframe. ¿Cómo puedo hacer esto ?

scala apache-spark spark-dataframe rdd

¿Cómo desactivar el registro de INFORMACIÓN en Spark?

Instalé Spark usando la guía AWS EC2 y puedo iniciar el programa bien usando el script bin/pyspark para llegar al prompt de s ... x=y") # - SPARK_PUBLIC_DNS, to set the public dns name of the master or workers export SPARK_SUBMIT_CLASSPATH="$FWDIR/conf"

python apache-spark hadoop pyspark yarn

¿Qué son workers, executors, cores en Spark Standalone cluster?

He leído Cluster Mode Overviewy todavía no puedo entender los diferentes procesos en el Spark Standalone cluster y el paral ... r? Cuántos núcleos? Cómo se decide el número de ejecutores por aplicación. Es siempre el mismo que el número de trabajadores?

apache-spark distributed-computing

¿Cuál es la diferencia entre mapa y mapa plano y un buen caso de uso para cada uno?

¿Puede alguien explicarme la diferencia entre mapa y mapa plano y cuál es un buen caso de uso para cada uno? ¿Qué significa "aplanar los resultados"? ¿Para qué sirve?

apache-spark

Cómo seleccionar la primera fila de cada grupo?

Tengo un DataFrame generado de la siguiente manera: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") ... -------+ Podría ser útil poder seleccionar las N filas superiores de cada grupo también. Cualquier ayuda es muy apreciada.

scala apache-spark spark-dataframe apache-spark-sql

importar pyspark en python shell

Esta es una copia de la pregunta de otra persona en otro foro que nunca fue contestada, así que pensé en volver a preguntar a ... park/, ¿qué rutas de pyspark necesito incluir? ¿O los programas pyspark solo se pueden ejecutar desde el intérprete pyspark?

python apache-spark pyspark

Spark-cargar archivo CSV como DataFrame?

Me gustaría leer un CSV en spark y convertirlo como DataFrame y almacenarlo en HDFS con df.registerTempTable("table_name") ... run(ForkJoinWorkerThread.java:107) ¿Cuál es el comando correcto para cargar un archivo CSV como DataFrame en Apache Spark?

scala apache-spark hadoop hdfs apache-spark-sql

¿Cómo almacenar objetos personalizados en Dataset?

De acuerdo con La introducción de conjuntos de datos Spark : Mientras esperamos Spark 2.0, planeamos algunas mejoras in ... entrada para una respuesta Wiki de la Comunidad. Siéntase libre de actualizar / mejorar tanto la pregunta como la respuesta.

scala apache-spark apache-spark-dataset

Apache Spark: map vs mapPartitions?

¿Cuál es la diferencia entre un RDD map y mapPartitions método? ¿Y flatMap se comporta como map o como mapPartitions? Graci ... A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = { rdd.map(fn) }

performance scala apache-spark rdd

Cómo definir la partición de DataFrame?

He empezado a usar Spark SQL y DataFrames en Spark 1.4.0. Quiero definir un particionador personalizado en DataFrames, en Sc ... lguna manera de hacer que Spark particione este DataFrame para que todos los datos de una Cuenta estén en la misma partición?

dataframe scala apache-spark apache-spark-sql partitioning

¿Cómo mostrar el contenido completo de la columna en un Dataframe de Spark?

Estoy usando spark-csv para cargar datos en un DataFrame. Quiero hacer una simple consulta y mostrar el contenido: val df = ... .| |2015-11-16 07:21:...| |2015-11-16 07:21:...| +--------------------+ ¿Cómo muestro el contenido completo de la columna?

dataframe apache-spark output-formatting spark-csv

Cómo configurar la memoria del ejecutor de Apache Spark

¿Cómo puedo aumentar la memoria disponible para los nodos ejecutores de Apache spark? Tengo un archivo de 2 GB que es adecu ... na idea clara de dónde debo cambiar la configuración. Estoy ejecutando mi código de forma interactiva desde el spark-shell

apache-spark memory

Cómo configurar Spark en Windows?

Estoy intentando configurar Apache Spark en Windows. Después de buscar un poco, entiendo que el modo independiente es lo que ... en la página de descarga de spark. No tengo referencias en la web a esto. Una guía paso a paso para esto es muy apreciada.

windows apache-spark

¿Cómo agrego una nueva columna a un DataFrame de Spark (usando PySpark)?

Tengo un DataFrame de Spark (usando PySpark 1.5.1) y me gustaría agregar una nueva columna. He intentado lo siguiente sin ni ... andomed_hours)) Entonces, ¿cómo agrego una nueva columna (basada en el vector Python) a un DataFrame existente con PySpark?

python apache-spark spark-dataframe pyspark apache-spark-sql

Cambiar el nombre de las columnas de un DataFrame en Spark Scala

Estoy tratando de convertir todos los encabezados / nombres de columna de un DataFrame en Spark-Scala. a partir de ahora se m ... for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }

dataframe scala apache-spark apache-spark-sql