bigdata

Consulta de Elasticsearch para devolver todos los registros

Tengo una pequeña base de datos en Elasticsearch y para fines de prueba me gustaría recuperar todos los registros. Estoy int ... t:9200/foo/_search?pretty=true&q={'matchAll':{''}} ¿Puede alguien darme la URL que usaría para lograr esto, por favor?

Apache Spark vs Apache Storm [cerrado]

¿cuáles son las diferencias entre Apache Spark y Apache Storm? ¿Cuáles son los casos de uso adecuados para cada uno?

¿Cómo envío los resultados de una consulta HiveQL a CSV?

Nos gustaría poner los resultados de una consulta Hive en un archivo CSV. Pensé que el comando debería verse así: insert ov ... ca puedo encontrar el archivo. ¿Cómo puedo encontrar este archivo o debo extraer los datos de una manera diferente? Gracias!

Apache Spark vs Akka

Podría por favor decirme la diferencia entre Apache Spark y AKKA, sé que ambos frameworks significaban programar cómputos dis ... o veo el vínculo o la diferencia entre ellos. Además, me gustaría obtener los casos de uso adecuados para cada uno de ellos.

Cómo comenzar con el análisis de Big Data [cerrado]

He sido usuario de R durante mucho tiempo y recientemente he comenzado a trabajar con Python. Usando sistemas RDBMS convencio ... por la naturaleza genérica de esta consulta, pero estoy buscando obtener más perspectiva con respecto a este tema. Harsh

Paquete recomendado para procesamiento de conjuntos de datos muy grandes y aprendizaje automático en R

Parece que R está realmente diseñado para manejar conjuntos de datos que puede tirar completamente a la memoria. ¿Qué paquete ... s sugerencias gratuitas robustas (por ejemplo, scipy si hay alguna forma agradable de manejar conjuntos de datos muy grandes)

Cómo comprobar la versión Spark [cerrado]

Quiero comprobar la versión de spark en cdh 5.7.0. He buscado en Internet pero no puedo entender. Por favor, ayuda. Gracias

¿Cómo puedo saber cuándo mi conjunto de datos en R va a ser demasiado grande?

Voy a llevar a cabo algunos análisis de archivos de registro en R (a menos que no pueda hacerlo en R), y entiendo que mis dat ... huir antes de que sea demasiado tarde y hacer algo en algún otro idioma / ambiente (sugerencias bienvenidas...!). ¡Gracias!

hay alguna manera de importar un archivo json(contiene 100 documentos) en elasticsearch server.?

¿Hay alguna forma de importar un archivo JSON (contiene 100 documentos) en elasticsearch server? Quiero importar un archivo json grande a es-server..

importancia de la PCA o SVD en el aprendizaje automático

Todo este tiempo (especialmente en el concurso de Netflix), siempre me encuentro con este blog (o foro de clasificación) dond ... guna versión del sistema de recomendación (digamos filtrado colaborativo): 1) Without SVD 2) With SVD Cómo ayuda Gracias

¿Por qué Spark SQL considera que el soporte de índices no es importante?

Citando los DataFrames de Spark, Conjuntos de datos y manual SQL : Un puñado de optimizaciones de Hive aún no están inc ... eda proporcionar los beneficios de la indexación sin recurrir a la implementación de algo equivalente de forma independiente?

Trabajando con big data en python y numpy, no hay suficiente ram, ¿cómo guardar resultados parciales en el disco?

Estoy tratando de implementar algoritmos para datos de 1000 dimensiones con más de 200k puntos de datos en python. Quiero usa ... es a todos mis puntos, etc ¿Es esto factible? ¿Y cómo lo haría? ¿En qué puedo empezar a leer? Saludos cordiales // Mesmer

¿La mejor solución para encontrar 1 x 1 millón de intersección establecida? Redis, Mongo, otros

Hola a todos y gracias de antemano. Soy nuevo en el juego NoSQL, pero mi lugar de empleo actual me ha encargado establecer co ... las etiquetas se almacenan en un árbol. He comenzado a mirar Mongodb como una posible solución como bien. Gracias de nuevo

¿Cómo uso varios consumidores en Kafka?

Soy un nuevo estudiante que estudia Kafka y me he encontrado con algunos problemas fundamentales con la comprensión de múltip ... ado alrededor y la gente me está diciendo que debería usar un consumidor multi-hilo can ¿puede alguien arrojar luz sobre eso?

¿MapReduce o Spark? [cerrado]

He probado hadoop y mapreduce con cloudera y me pareció bastante genial, pensé que era la solución BigData más reciente y rel ... educe ? ¿O hay algo más que MapReduce puede hacer, o MapReduce puede ser más eficiente que Spark en un contexto determinado ?

cuáles son las opciones para hadoop en scala

Estamos comenzando un proyecto analítico basado en big data y estamos considerando adoptar scala (typesafe stack). Me gustaría saber los diversos API de scala / proyectos que están disponibles para hacer hadoop, map reduce programas.

mapa de hadoop reducir la ordenación secundaria

¿Puede alguien explicarme cómo funciona la clasificación secundaria en hadoop ? ¿Por qué se debe usar GroupingComparator y c ... me cómo funciona el comparador de agrupación? Http://www.bigdataspeak.com/2013/02/hadoop-how-to-do-secondary-sort-on_25.html