Как построить два столбца кадра данных pandas с помощью точек?

У меня есть кадр данных pandas и хотел бы построить значения из одного столбца в сравнении с значениями из другого столбца. К счастью, существует метод plot, связанный с кадром данных, который, кажется, делает то, что мне нужно:

df.plot(x='col_name_1', y='col_name_2')

К сожалению, это похоже на стили сюжета (здесь здесь после параметра kind) нет точек. Я могу использовать строки или столбцы или даже плотность, но не точки. Есть ли работа, которая может помочь решить эту проблему.

Ответы

Ответ 1

Вы можете указать style нарисованной линии при вызове df.plot:

df.plot(x='col_name_1', y='col_name_2', style='o')

Аргумент style также может быть dict или list, например:

import numpy as np
import pandas as pd

d = {'one' : np.random.rand(10),
     'two' : np.random.rand(10)}

df = pd.DataFrame(d)

df.plot(style=['o','rx'])

Все принятые форматы стилей перечислены в документации matplotlib.pyplot.plot.

Ответ 2

Для этого (и большинства графиков) я не буду полагаться на обертки Pandas на matplotlib. Вместо этого просто используйте matplotlib напрямую:

import matplotlib.pyplot as plt
plt.scatter(df['col_name_1'], df['col_name_2'])
plt.show() # Depending on whether you use IPython or interactive mode, etc.

и помните, что вы можете получить доступ к массиву NumPy значений столбца с помощью df.col_name_1.values, например.

Я столкнулся с трудностями при использовании этого с построением по умолчанию Pandas по умолчанию в столбце значений временной отметки с точностью до миллисекунды. При попытке конвертировать объекты в тип datetime64 я также обнаружил неприятную проблему: < Pandas дает неверный результат при запросе, если значения столбца Timestamp имеют attr astype > .

Ответ 3

Pandas использует matplotlib в качестве библиотеки для основных сюжетов. Самым простым способом в вашем случае будет использование следующего:

import pandas as pd
import numpy as np

#creating sample data 
sample_data={'col_name_1':np.random.rand(20),
      'col_name_2': np.random.rand(20)}
df= pd.DataFrame(sample_data)
df.plot(x='col_name_1', y='col_name_2', style='o')

Тем не менее, я бы порекомендовал использовать seaborn в качестве альтернативного решения, если вы хотите иметь больше настраиваемых графиков, не переходя на базовый уровень matplotlib. В этом случае у вас будет следующее решение:

import pandas as pd
import seaborn as sns
import numpy as np

#creating sample data 
sample_data={'col_name_1':np.random.rand(20),
      'col_name_2': np.random.rand(20)}
df= pd.DataFrame(sample_data)
sns.scatterplot(x="col_name_1", y="col_name_2", data=df)

Ответ 4

Теперь в последних пандах вы можете напрямую использовать функцию df.plot.scatter

df = pd.DataFrame([[5.1, 3.5, 0], [4.9, 3.0, 0], [7.0, 3.2, 1],
                   [6.4, 3.2, 1], [5.9, 3.0, 2]],
                  columns=['length', 'width', 'species'])
ax1 = df.plot.scatter(x='length',
                      y='width',
                      c='DarkBlue')

https://pandas.pydata.org/pandas-docs/version/0.23/generated/pandas.DataFrame.plot.scatter.html