PySpark 1.5 & MSSQL jdbc - программирование

Я использую PySpark на Spark 1.5 на Cloudera YARN, используя Python 3.3 на Centos 6 Machines. Экземпляр SQL Server - это SQL Server Enterprise 64 бит. Драйвер SQL Server указан ниже; sqljdbc4.jar; и я добавил к своему .bashrc

И я вижу подтверждение при запуске Spark, который

У меня есть dataframe, который выглядит как эта схема

Я создал пустую таблицу уже на моем сервере MS SQL с именем "dbo.shaping", где три столбца временной метки будут datetime2 (7), а остальные nvarchar (50).

Я пытаюсь экспортировать dataframe из PySpark, используя этот

Являются ли мои методы хотя бы правильными, и, возможно, эта ошибка связана с записью определенного типа данных, т.е. у меня проблема с конструкцией данных, а не с моим кодом?

Ответы

Ответ 1

Вы не можете использовать dict как значение для options. options метод ожидает только str аргументов (Scala docs и PySpark) и расширяется для разделения вызовов на Java option.

В текущей версии версии Spark значение автоматически преобразуется в строку, поэтому ваш код будет терпеть неудачу, но это не так в 1.5.

Так как properties специфичны для драйвера JDBC, вы должны использовать метод jdbc:

properties = {
    "user": "<username>", "password": "<password>", "driver": 
    "com.microsoft.sqlserver.jdbc.SQLServerDriver"}

df.write.jdbc(
    url='<IP>:1433/<dbname>',
    table='dbo.shaping',
    properties=properties)

хотя свойства распаковки должны также работать:

.options(
    url='<IP>:1433/<dbname>',
    dbtable='dbo.shaping',
    driver="com.microsoft.sqlserver.jdbc.SQLServerDriver",
    **properties)

В общем, когда вы видите:

py4j.Py4JException: Method ... does not exist

он обычно сигнализирует о несоответствии между локальными типами Python и типами, ожидаемыми при использовании метода JVM.