Shell script для разделения CSV на XML-запрос?

У меня есть список цитат в csv file, который я хотел бы использовать, чтобы заполнить форму запроса на основе XML в CrossRef

CrossRef предоставляет шаблон XML (ниже, удаленные неиспользуемые поля), и я хотел бы проанализировать столбцы файла csv, чтобы заполнить повторяющиеся поля в теге query:

Другие вопросы помогут вам сделать это в С# и Java

Ответы

Ответ 1

#!/usr/bin/awk -f
# XML Attributes Must be Quoted. Attribute values must always be quoted. Either single or double quotes can be used.

BEGIN{
    FS=","
    print "<?xml version = '1.0' encoding='UTF-8'?>"
    print "<query_batch xmlns:xsi='http://www.w3.org/2001/XMLSchema-instance' version='2.0' xmlns='http://www.crossref.org/qschema/2.0'"
    print "  xsi:schemaLocation='http://www.crossref.org/qschema/2.0 http://www.crossref.org/qschema/crossref_query_input2.0.xsd'>"
    print "<head>"
    print "   <email_address>[email protected]</email_address>"
    print "   <doi_batch_id>test</doi_batch_id>"
    print "</head>"
    print "<body>"
}

NR>1{
    print "  <query enable-multiple-hits='true'"
    print "            list-components='false'"
    print "            expanded-results='false' key='key'>"
    print "    <article_title match='fuzzy'>" $3 "</article_title>"
    print "    <author search-all-authors='false'>" $1 "</author>"
    print "    <volume>" $5 "</volume>"
    print "    <year>" $2 "</year>"
    print "    <first_page>" $6 "</first_page>"
    print "    <journal_title>" $4 "</journal_title>"
    print "  </query>"
}

END{
    print "</body>"
    print "</query_batch>"
}

$ awk -f script.awk input.csv

Ответ 2

В отличие от подходов, использующих замену текста (например, awk), гарантируется, что он всегда будет генерировать хорошо сформированный XML-документ, при этом содержимое будет правильно экранировано. Это уродливо, но это гораздо правильнее. Обратите внимание, что для этого требуется сторонний инструмент; ничто, включенное в оболочку, не способно безопасно редактировать XML.

Сначала поставьте документ без body в template.xml:

<query_batch xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" version="2.0" xmlns="http://www.crossref.org/qschema/2.0"
  xsi:schemaLocation="http://www.crossref.org/qschema/2.0 http://www.crossref.org/qschema/crossref_query_input2.0.xsd">
<head>
   <email_address>[email protected]</email_address>
   <doi_batch_id>test</doi_batch_id>
</head>
<body/>
</query_batch>

Во-вторых, создайте строку XMLStarlet, описывающую желаемые изменения, и вызовите его:

#!/bin/bash
xmlstarlet_command=( )
read_header=0
while IFS=, read author year article_title journal_title volume first_page; do
  if (( read_header == 0 )); then read_header=1; continue; fi
  xmlstarlet_command+=( -s /qs:query_batch/qs:body -t elem -n query -v '' )
  xmlstarlet_command+=( -i '/qs:query_batch/qs:body/*[last()]' -t attr -n enable-multiple-hits -v true )
  xmlstarlet_command+=( -i '/qs:query_batch/qs:body/*[last()]' -t attr -n list-components -v false )
  xmlstarlet_command+=( -i '/qs:query_batch/qs:body/*[last()]' -t attr -n expanded-results -v false )
  xmlstarlet_command+=( -i '/qs:query_batch/qs:body/*[last()]' -t attr -n key -v key )
  xmlstarlet_command+=( -i '/qs:query_batch/qs:body/*[last()]' -t attr -n enable-multiple-hits -v true )
  xmlstarlet_command+=( -i '/qs:query_batch/qs:body/*[last()]' -t elem -n article_title -v "$article_title" )
  xmlstarlet_command+=( -i '/qs:query_batch/qs:body/*[last()]/article-title' -t attr -n match -v fuzzy )
  xmlstarlet_command+=( -i '/qs:query_batch/qs:body/*[last()]' -t elem -n author -v "$author" )
  xmlstarlet_command+=( -i '/qs:query_batch/qs:body/*[last()]/author' -t attr -n search-all-authors -v false )
  xmlstarlet_command+=( -i '/qs:query_batch/qs:body/*[last()]' -t elem -n volume -v "$volume" )
  xmlstarlet_command+=( -i '/qs:query_batch/qs:body/*[last()]' -t elem -n year -v "$year" )
  xmlstarlet_command+=( -i '/qs:query_batch/qs:body/*[last()]' -t elem -n first_page -v "$first_page" )
  xmlstarlet_command+=( -i '/qs:query_batch/qs:body/*[last()]' -t elem -n journal_title -v "$journal_title" )
done <in.csv
xmlstarlet ed -N qs=http://www.crossref.org/qschema/2.0 "${xmlstarlet_command[@]}" <template.xml

Обратите внимание, что, как и другие приведенные здесь решения, это не снимает двойные кавычки с начала и конца элементов CSV; как и другие аспекты расширенного анализа CSV, это лучше оставить чему-то вроде Python CSV-модуля, который на самом деле знает, как распознать экранированные кавычки, текстовые поля, содержащие новые строки, и все другие маленькие странности, которые могут произойти внутри действительных файлов CSV.

В стороне - имейте в виду, что более старые версии XMLStarlet имеют ограничение на количество операций на вызов, зафиксированное в последней версии. У меня есть обходное решение для этого (что также позволяет редактировать списки дольше, чем ~ 32K или около того максимальной длины командной строки), но, вероятно, он заслуживает того, чтобы быть его собственным вопросом.