Как заставить нулевой перехват в линейной регрессии?

Я немного извиняюсь, так что извиняюсь, если на этот вопрос уже был дан ответ, я посмотрел и не смог найти конкретно то, что искал.

У меня есть некоторые более или менее линейные данные формы

Я использую scipy.optimize.leastsq, чтобы соответствовать линейной регрессии:

И он работает красиво (хотя я не уверен, что scipy.optimize - это правильная вещь для использования здесь, это может быть немного выше)?

Однако из-за того, что точки данных лежат, он не дает мне перехват оси y в 0. Я действительно знаю, что в этом случае он должен быть равен нулю, if x = 0 than y = 0.

Ответы

Ответ 1

Я не разбираюсь в этих модулях, но у меня есть некоторый опыт в статистике, поэтому вот что я вижу. Вам нужно изменить функцию соответствия из

fitfunc = lambda params, x: params[0] * x + params[1]

fitfunc = lambda params, x: params[0] * x

Также удалите строку:

init_b = min(y)

И измените следующую строку на:

init_p = numpy.array((init_a))

Это должно избавиться от второго параметра, который производит y-перехват и передает установленную линию через начало координат. Возможно, вам понадобится еще несколько незначительных изменений, которые вы могли бы сделать для этого в остальной части вашего кода.

Но да, я не уверен, будет ли этот модуль работать, если вы просто вырвите второй параметр, как это. Это зависит от внутренней работы модуля относительно того, может ли он принять эту модификацию. Например, я не знаю, где params, список параметров инициализируется, поэтому я не знаю, будет ли это делать только его изменение.

И как в сторону, так как вы упомянули, это я на самом деле считаю немного более сложным, чтобы оптимизировать только наклон. Вы можете немного прочитать линейную регрессию и написать небольшой код, чтобы сделать это самостоятельно после некоторого исчисления конверта. Это довольно просто и понятно. Фактически, я просто сделал некоторые вычисления, и я думаю, что оптимизированный наклон будет просто <xy>/<x^2>, т.е. Среднее от x * y продуктов, деленное на среднее значение x ^ 2.

Ответ 2

Как упоминалось в @AbhranilDas, просто используйте линейный метод. Нет необходимости в нелинейном решателе, таком как scipy.optimize.lstsq.

Как правило, вы должны использовать numpy.polyfit для привязки строки к вашим данным, но в этом случае вам нужно будет напрямую использовать numpy.linalg.lstsq, так как вы хотите установить перехват на нуль.

В качестве быстрого примера:

import numpy as np
import matplotlib.pyplot as plt

x = np.array([0.1, 0.2, 0.4, 0.6, 0.8, 1.0, 2.0, 4.0, 6.0, 8.0, 10.0, 
              20.0, 40.0, 60.0, 80.0])

y = np.array([0.50505332505407008, 1.1207373784533172, 2.1981844719020001,
              3.1746209003398689, 4.2905482471260044, 6.2816226678076958,
              11.073788414382639, 23.248479770546009, 32.120462301367183, 
              44.036117671229206, 54.009003143831116, 102.7077685684846, 
              185.72880217806673, 256.12183145545811, 301.97120103079675])

# Our model is y = a * x, so things are quite simple, in this case...
# x needs to be a column vector instead of a 1D vector for this, however.
x = x[:,np.newaxis]
a, _, _, _ = np.linalg.lstsq(x, y)

plt.plot(x, y, 'bo')
plt.plot(x, a*x, 'r-')
plt.show()