Объединение 2 файлов csv - программирование

OK Я прочитал несколько потоков здесь, когда переполнение стека. Я думал, что это будет довольно легко для меня, но я нахожу, что я до сих пор не очень хорошо разбираюсь в python. Я попробовал пример, расположенный в Как объединить 2 CSV файла с общим значением столбца, но оба файла имеют разное количество строк, и это было полезно, но у меня все еще нет результаты, которые я надеялся достичь.

По существу у меня есть 2 файла csv с общим первым столбцом. Я хотел бы объединить 2. i.e.

output.csv(не тот, который я получаю, но то, что хочу)

output.csv(результат, который я действительно получил)

Ответы

Ответ 1

Когда я работаю с файлами csv, я часто использую библиотеку pandas. Это упрощает такие вещи. Например:

import pandas as pd

a = pd.read_csv("filea.csv")
b = pd.read_csv("fileb.csv")
b = b.dropna(axis=1)
merged = a.merge(b, on='title')
merged.to_csv("output.csv", index=False)

Ниже приводятся некоторые объяснения. Сначала мы читаем в файлах csv:

>>> a = pd.read_csv("filea.csv")
>>> b = pd.read_csv("fileb.csv")
>>> a
   title  stage    jan    feb
0   darn  3.001  0.421  0.532
1     ok  2.829  1.036  0.751
2  three  1.115  1.146  2.921
>>> b
   title    mar    apr    may       jun  Unnamed: 5
0   darn  0.631  1.321  0.951    1.7510         NaN
1     ok  1.001  0.247  2.456    0.3216         NaN
2  three  0.285  1.283  0.924  956.0000         NaN

и мы видим там дополнительный столбец данных (обратите внимание, что первая строка fileb.csv - title,mar,apr,may,jun, - имеет в конце дополнительную запятую). Мы можем избавиться от этого достаточно легко:

>>> b = b.dropna(axis=1)
>>> b
   title    mar    apr    may       jun
0   darn  0.631  1.321  0.951    1.7510
1     ok  1.001  0.247  2.456    0.3216
2  three  0.285  1.283  0.924  956.0000

Теперь мы можем объединить a и b в столбце заголовка:

>>> merged = a.merge(b, on='title')
>>> merged
   title  stage    jan    feb    mar    apr    may       jun
0   darn  3.001  0.421  0.532  0.631  1.321  0.951    1.7510
1     ok  2.829  1.036  0.751  1.001  0.247  2.456    0.3216
2  three  1.115  1.146  2.921  0.285  1.283  0.924  956.0000

и, наконец, напишите это:

>>> merged.to_csv("output.csv", index=False)

производства:

title,stage,jan,feb,mar,apr,may,jun
darn,3.001,0.421,0.532,0.631,1.321,0.951,1.751
ok,2.829,1.036,0.751,1.001,0.247,2.456,0.3216
three,1.115,1.146,2.921,0.285,1.283,0.924,956.0

Ответ 2

Вам нужно сохранить все дополнительные строки в файлах в словаре, а не только один из них:

dict1 = {row[0]: row[1:] for row in r}
...
dict2 = {row[0]: row[1:] for row in r}

Затем, поскольку значения в словарях являются списками, вам нужно просто объединить списки вместе:

w.writerows([[key] + dict1.get(key, []) + dict2.get(key, []) for key in keys])