Trazar dos histogramas al mismo tiempo con matplotlib

He creado un gráfico de histograma utilizando datos de un archivo y no hay problema. Ahora quería superponer datos de otro archivo en el mismo histograma, así que hago algo como

n,bins,patchs = ax.hist(mydata1,100)
n,bins,patchs = ax.hist(mydata2,100)

Pero el problema es que para cada intervalo, solo aparece la barra con el valor más alto, y la otra está oculta. Me pregunto cómo podría trazar ambos histogramas al mismo tiempo con diferentes colores.

Author: Mark Amery, 2011-07-29

7 answers

Aquí tienes un ejemplo de trabajo:

import random
import numpy
from matplotlib import pyplot

x = [random.gauss(3,1) for _ in range(400)]
y = [random.gauss(4,2) for _ in range(400)]

bins = numpy.linspace(-10, 10, 100)

pyplot.hist(x, bins, alpha=0.5, label='x')
pyplot.hist(y, bins, alpha=0.5, label='y')
pyplot.legend(loc='upper right')

introduzca la descripción de la imagen aquí

Author: joaquin,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ on line 61
2014-05-23 06:35:59

Las respuestas aceptadas dan el código para un histograma con barras superpuestas, pero en caso de que desee que cada barra esté lado a lado (como lo hice), pruebe la siguiente variación:

import numpy as np
import matplotlib.pyplot as plt'seaborn-deep')

x = np.random.normal(1, 2, 5000)
y = np.random.normal(-1, 3, 2000)
bins = np.linspace(-10, 10, 30)

plt.hist([x, y], bins, label=['x', 'y'])
plt.legend(loc='upper right')

introduzca la descripción de la imagen aquí


EDITAR [2018/03/16]: Actualizado para permitir el trazado de matrices de diferentes tamaños, como sugiere @stochastic_zeitgeist

Author: Gustavo Bezerra,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ on line 61
2018-03-16 05:27:01

En el caso de que tenga diferentes tamaños de muestra, puede ser difícil comparar las distribuciones con un solo eje y. Por ejemplo:

import numpy as np
import matplotlib.pyplot as plt

#makes the data
y1 = np.random.normal(-2, 2, 1000)
y2 = np.random.normal(2, 2, 5000)
colors = ['b','g']

#plots the histogram
fig, ax1 = plt.subplots()


En este caso, puede trazar sus dos conjuntos de datos en ejes diferentes. Para ello, puede obtener los datos de su histograma utilizando matplotlib, borrar el eje y luego volver a trazarlo en dos ejes separados (desplazando los bordes de la bandeja para que no se superpongan):

#sets up the axis and gets histogram data
fig, ax1 = plt.subplots()
ax2 = ax1.twinx()
ax1.hist([y1, y2], color=colors)
n, bins, patches = ax1.hist([y1,y2])
ax1.cla() #clear the axis

#plots the histogram data
width = (bins[1] - bins[0]) * 0.4
bins_shifted = bins + width[:-1], n[0], width, align='edge', color=colors[0])[:-1], n[1], width, align='edge', color=colors[1])

#finishes the plot
ax1.set_ylabel("Count", color=colors[0])
ax2.set_ylabel("Count", color=colors[1])
ax1.tick_params('y', colors=colors[0])
ax2.tick_params('y', colors=colors[1])


Author: Andrew,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ on line 61
2017-12-11 10:05:59

Aquí hay un método simple para trazar dos histogramas, con sus barras uno al lado del otro, en la misma gráfica cuando los datos tienen diferentes tamaños:

def plotHistogram(p, o):
    p and o are iterables with the values you want to 
    plot the histogram of
    plt.hist([p, o], color=['g','r'], alpha=0.8, bins=50)
Author: stochastic_zeitgeist,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ on line 61
2018-01-30 06:48:42
Author: carl,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ on line 61
2011-07-29 09:50:25

En caso de que tengas pandas (import pandas as pd) o estés de acuerdo con usarlo:

test = pd.DataFrame([[random.gauss(3,1) for _ in range(400)], 
                     [random.gauss(4,2) for _ in range(400)]])
Author: serv-inc,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ on line 61
2017-06-16 12:35:46

Debe usar los valores de retorno bins de hist:

import numpy as np
import matplotlib.pyplot as plt

foo = np.random.normal(loc=1, size=100) # a normal distribution
bar = np.random.normal(loc=-1, size=10000) # a normal distribution

_, bins, _ = plt.hist(foo, bins=50, range=[-6, 6], normed=True)
_ = plt.hist(bar, bins=bins, alpha=0.5, normed=True)

Dos histogramas matplotlib con el mismo binning

Author: Adrien Renaud,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ on line 61
2018-07-31 14:48:37