apache-spark

Tarea no serializable: java. io. NotSerializableException al llamar a la función fuera del cierre solo en clases no objetos

Obtener un comportamiento extraño al llamar a una función fuera de un cierre: cuando la función está en un objeto todo es ... t.map(someFunc(_)) //this will crash (spark lazy) after.collect().map(println(_)) } def someFunc(a:Int) = a+1 }

Diferencia entre DataFrame (en Spark 2.0 es decir, Conjunto de datos [Fila]) y RDD en Spark

Me pregunto cuál es la diferencia entre un RDD y DataFrame (Spark 2.0.0 DataFrame es un mero alias de tipo para Dataset[Row]) ¿en Apache Spark? ¿Se puede convertir uno a otro?

¿Cuál es la diferencia entre Apache Spark y Apache Flink? [cerrado]

¿cuáles son las diferencias entre Apache Spark y Apache Flink? Will Apache Flinkreplace Hadoop?

Apache Spark vs Apache Storm [cerrado]

¿cuáles son las diferencias entre Apache Spark y Apache Storm? ¿Cuáles son los casos de uso adecuados para cada uno?

Cómo imprimir el contenido de RDD?

Estoy intentando imprimir el contenido de una colección en la consola de Spark. Tengo un tipo: linesWithSessionId: org.apac ... appedRDD [4] at map at: 19 ¿Cómo puedo escribir el RDD en la consola o guardarlo en el disco para poder ver su contenido?

Cómo convertir un objeto rdd a dataframe en spark

Cómo puedo convertir un RDD (org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) a un Dataframe org.apache.spark.sql.DataFrame. Convertí un dataframe a rdd usando .rdd. Después de procesarlo, lo quiero de vuelta en dataframe. ¿Cómo puedo hacer esto ?

¿Cómo desactivar el registro de INFORMACIÓN en Spark?

Instalé Spark usando la guía AWS EC2 y puedo iniciar el programa bien usando el script bin/pyspark para llegar al prompt de s ... x=y") # - SPARK_PUBLIC_DNS, to set the public dns name of the master or workers export SPARK_SUBMIT_CLASSPATH="$FWDIR/conf"

¿Qué son workers, executors, cores en Spark Standalone cluster?

He leído Cluster Mode Overviewy todavía no puedo entender los diferentes procesos en el Spark Standalone cluster y el paral ... r? Cuántos núcleos? Cómo se decide el número de ejecutores por aplicación. Es siempre el mismo que el número de trabajadores?

¿Cuál es la diferencia entre mapa y mapa plano y un buen caso de uso para cada uno?

¿Puede alguien explicarme la diferencia entre mapa y mapa plano y cuál es un buen caso de uso para cada uno? ¿Qué significa "aplanar los resultados"? ¿Para qué sirve?

Cómo seleccionar la primera fila de cada grupo?

Tengo un DataFrame generado de la siguiente manera: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") ... -------+ Podría ser útil poder seleccionar las N filas superiores de cada grupo también. Cualquier ayuda es muy apreciada.

importar pyspark en python shell

Esta es una copia de la pregunta de otra persona en otro foro que nunca fue contestada, así que pensé en volver a preguntar a ... park/, ¿qué rutas de pyspark necesito incluir? ¿O los programas pyspark solo se pueden ejecutar desde el intérprete pyspark?

Spark-cargar archivo CSV como DataFrame?

Me gustaría leer un CSV en spark y convertirlo como DataFrame y almacenarlo en HDFS con df.registerTempTable("table_name") ... run(ForkJoinWorkerThread.java:107) ¿Cuál es el comando correcto para cargar un archivo CSV como DataFrame en Apache Spark?

¿Cómo almacenar objetos personalizados en Dataset?

De acuerdo con La introducción de conjuntos de datos Spark : Mientras esperamos Spark 2.0, planeamos algunas mejoras in ... entrada para una respuesta Wiki de la Comunidad. Siéntase libre de actualizar / mejorar tanto la pregunta como la respuesta.

Apache Spark: map vs mapPartitions?

¿Cuál es la diferencia entre un RDD map y mapPartitions método? ¿Y flatMap se comporta como map o como mapPartitions? Graci ... A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = { rdd.map(fn) }

Cómo definir la partición de DataFrame?

He empezado a usar Spark SQL y DataFrames en Spark 1.4.0. Quiero definir un particionador personalizado en DataFrames, en Sc ... lguna manera de hacer que Spark particione este DataFrame para que todos los datos de una Cuenta estén en la misma partición?

¿Cómo mostrar el contenido completo de la columna en un Dataframe de Spark?

Estoy usando spark-csv para cargar datos en un DataFrame. Quiero hacer una simple consulta y mostrar el contenido: val df = ... .| |2015-11-16 07:21:...| |2015-11-16 07:21:...| +--------------------+ ¿Cómo muestro el contenido completo de la columna?

Cómo configurar la memoria del ejecutor de Apache Spark

¿Cómo puedo aumentar la memoria disponible para los nodos ejecutores de Apache spark? Tengo un archivo de 2 GB que es adecu ... na idea clara de dónde debo cambiar la configuración. Estoy ejecutando mi código de forma interactiva desde el spark-shell

Cómo configurar Spark en Windows?

Estoy intentando configurar Apache Spark en Windows. Después de buscar un poco, entiendo que el modo independiente es lo que ... en la página de descarga de spark. No tengo referencias en la web a esto. Una guía paso a paso para esto es muy apreciada.

¿Cómo agrego una nueva columna a un DataFrame de Spark (usando PySpark)?

Tengo un DataFrame de Spark (usando PySpark 1.5.1) y me gustaría agregar una nueva columna. He intentado lo siguiente sin ni ... andomed_hours)) Entonces, ¿cómo agrego una nueva columna (basada en el vector Python) a un DataFrame existente con PySpark?

Cambiar el nombre de las columnas de un DataFrame en Spark Scala

Estoy tratando de convertir todos los encabezados / nombres de columna de un DataFrame en Spark-Scala. a partir de ahora se m ... for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }