Python- pandas и базы данных, такие как mysql
Документация для Pandas содержит множество примеров лучших практик для работы с данными, хранящимися в различных форматах.
Однако я не могу найти хороших примеров для работы с базами данных, например, MySQL.
Может кто-нибудь указать мне ссылки или дать некоторые фрагменты кода о том, как эффективно преобразовать результаты запроса с использованием mysql-python во фреймы данных в Pandas?
Ответы
Ответ 1
Как говорит Уэс, io/sql read_sql сделает это, как только вы получите соединение с базой данных, используя библиотеку, совместимую с DBI. Мы можем посмотреть два коротких примера, используя библиотеки MySQLdb
и cx_Oracle
для подключения к Oracle и MySQL и запросить их словари данных. Вот пример для cx_Oracle
:
import pandas as pd
import cx_Oracle
ora_conn = cx_Oracle.connect('your_connection_string')
df_ora = pd.read_sql('select * from user_objects', con=ora_conn)
print 'loaded dataframe from Oracle. # Records: ', len(df_ora)
ora_conn.close()
И вот эквивалентный пример для MySQLdb
:
import MySQLdb
mysql_cn= MySQLdb.connect(host='myhost',
port=3306,user='myusername', passwd='mypassword',
db='information_schema')
df_mysql = pd.read_sql('select * from VIEWS;', con=mysql_cn)
print 'loaded dataframe from MySQL. records:', len(df_mysql)
mysql_cn.close()
Ответ 2
Для недавних читателей этого вопроса: pandas имеют следующее предупреждение в своих docs для версии 14.0:
Предупреждение. Некоторые из существующих функций или псевдонимов функций были устарел и будет удален в будущих версиях. Это включает: tquery, uquery, read_frame, frame_query, write_frame.
и
Предупреждение. Поддержка атрибута mysql при использовании объектов подключения DBAPI устарели. MySQL будет поддерживаться SQLAlchemy двигатели (GH6900).
Это делает многие из ответов здесь устаревшими. Вы должны использовать sqlalchemy
:
from sqlalchemy import create_engine
import pandas as pd
engine = create_engine('dialect://user:[email protected]:port/schema', echo=False)
f = pd.read_sql_query('SELECT * FROM mytable', engine, index_col = 'ID')
Ответ 3
Для записи здесь приведен пример использования базы данных sqlite:
import pandas as pd
import sqlite3
with sqlite3.connect("whatever.sqlite") as con:
sql = "SELECT * FROM table_name"
df = pd.read_sql_query(sql, con)
print df.shape
Ответ 4
Я предпочитаю создавать запросы с SQLAlchemy, а затем создавать из них DataFrame. SQLAlchemy упрощает объединение условий SQL Pythonically, если вы собираетесь смешивать и сопоставлять вещи снова и снова.
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy import Table
from sqlalchemy import create_engine
from sqlalchemy.orm import sessionmaker
from pandas import DataFrame
import datetime
# We are connecting to an existing service
engine = create_engine('dialect://user:[email protected]:port/db', echo=False)
Session = sessionmaker(bind=engine)
session = Session()
Base = declarative_base()
# And we want to query an existing table
tablename = Table('tablename',
Base.metadata,
autoload=True,
autoload_with=engine,
schema='ownername')
# These are the "Where" parameters, but I could as easily
# create joins and limit results
us = tablename.c.country_code.in_(['US','MX'])
dc = tablename.c.locn_name.like('%DC%')
dt = tablename.c.arr_date >= datetime.date.today() # Give me convenience or...
q = session.query(tablename).\
filter(us & dc & dt) # That where the magic happens!!!
def querydb(query):
"""
Function to execute query and return DataFrame.
"""
df = DataFrame(query.all());
df.columns = [x['name'] for x in query.column_descriptions]
return df
querydb(q)
Ответ 5
Пример MySQL:
import MySQLdb as db
from pandas import DataFrame
from pandas.io.sql import frame_query
database = db.connect('localhost','username','password','database')
data = frame_query("SELECT * FROM data", database)
Ответ 6
Такой же синтаксис работает и для Ms SQL-сервера, используя podbc.
import pyodbc
import pandas.io.sql as psql
cnxn = pyodbc.connect('DRIVER={SQL Server};SERVER=servername;DATABASE=mydb;UID=username;PWD=password')
cursor = cnxn.cursor()
sql = ("""select * from mytable""")
df = psql.frame_query(sql, cnxn)
cnxn.close()
Ответ 7
И вот как вы подключаетесь к PostgreSQL с помощью драйвера psycopg2 (установите с помощью "apt-get install python-psycopg2", если вы работаете с операционной системой Debian Linux).
import pandas.io.sql as psql
import psycopg2
conn = psycopg2.connect("dbname='datawarehouse' user='user1' host='localhost' password='uberdba'")
q = """select month_idx, sum(payment) from bi_some_table"""
df3 = psql.frame_query(q, conn)
Ответ 8
Для Sybase следующие работы (с http://python-sybase.sourceforge.net)
import pandas.io.sql as psql
import Sybase
df = psql.frame_query("<Query>", con=Sybase.connect("<dsn>", "<user>", "<pwd>"))
Ответ 9
pandas.io.sql.frame_query
устарел. Вместо этого используйте pandas.read_sql
.
Ответ 10
импортировать модуль
import pandas as pd
import oursql
CONNECT
conn=oursql.connect(host="localhost",user="me",passwd="mypassword",db="classicmodels")
sql="Select customerName, city,country from customers order by customerName,country,city"
df_mysql = pd.read_sql(sql,conn)
print df_mysql
Это работает отлично и с помощью pandas.io.sql frame_works (с предупреждением об устаревании). Используемая база данных - это пример базы данных из учебника mysql.
Ответ 11
Это должно работать нормально.
import MySQLdb as mdb
import pandas as pd
con = mdb.connect(‘127.0.0.1’, ‘root’, ‘password’, ‘database_name’);
with con:
cur = con.cursor()
cur.execute("select random_number_one, random_number_two, random_number_three from randomness.a_random_table")
rows = cur.fetchall()
df = pd.DataFrame( [[ij for ij in i] for i in rows] )
df.rename(columns={0: ‘Random Number One’, 1: ‘Random Number Two’, 2: ‘Random Number Three’}, inplace=True);
print(df.head(20))
Ответ 12
Это помогло мне подключиться к AWS MYSQL (RDS) из лямбда-функции на основе python 3.x и загрузить в панду DataFrame
import json
import boto3
import pymysql
import pandas as pd
user = 'username'
password = 'XXXXXXX'
client = boto3.client('rds')
def lambda_handler(event, context):
conn = pymysql.connect(host='xxx.xxxxus-west-2.rds.amazonaws.com', port=3306, user=user, passwd=password, db='database name', connect_timeout=5)
df= pd.read_sql('select * from TableName limit 10',con=conn)
print(df)
# TODO implement
#return {
# 'statusCode': 200,
# 'df': df
#}