Pandas применяется, но только для строк, где выполняется условие

Я хотел бы использовать Pandas df.apply, но только для определенных строк

В качестве примера, я хочу сделать что-то подобное, но моя фактическая проблема немного сложнее:

import pandas as pd
import math
z = pd.DataFrame({'a':[4.0,5.0,6.0,7.0,8.0],'b':[6.0,0,5.0,0,1.0]})
z.where(z['b'] != 0, z['a'] / z['b'].apply(lambda l: math.log(l)), 0)

В этом примере я хочу указать значение в 'a', деленное на журнал значения в 'b' для каждой строки, а для строк, где 'b' равно 0, я просто хочу вернуть 0.

Ответы

Ответ 1

Другие ответы превосходны, но я думал, что добавлю еще один подход, который может быть быстрее в некоторых случаях - с помощью трансляции и маскировки для достижения того же результата:

import numpy as np

mask = (z['b'] != 0)
z_valid = z[mask]

z['c'] = 0
z.loc[mask, 'c'] = z_valid['a'] / np.log(z_valid['b'])

Особенно с очень большими кадрами данных этот подход будет, как правило, быстрее, чем решения на основе apply().

Ответ 2

Вы можете просто использовать оператор if в лямбда-функции.

z['c'] = z.apply(lambda row: 0 if row['b'] in (0,1) else row['a'] / math.log(row['b']), axis=1)

Я также исключил 1, так как log (1) равен нулю.

Вывод:

   a  b         c
0  4  6  2.232443
1  5  0  0.000000
2  6  5  3.728010
3  7  0  0.000000
4  8  1  0.000000

Ответ 3

Вы можете использовать лямбда с условием для возврата 0, если входное значение равно 0 и пропустить целое предложение where:

z['c'] = z.apply(lambda x: math.log(x.b) if x.b > 0 else 0, axis=1)

Вам также нужно присвоить результаты новому столбцу (z['c']).

Ответ 4

Надеюсь, это поможет. Это легко и легко читается

df['c']=df['b'].apply(lambda x: 0 if x ==0 else math.log(x))