Ответ 1
Я знаю, что это старый вопрос, но я обнаружил, что пытался сделать это на днях и не нашел ничего полезного, пока не нашел Pandoc. Он также может преобразовывать нагрузки других форматов разметки - он довольно блестящий.
Я соскабливаю статический html-сайт и перемещаю содержимое в CMS с поддержкой базы данных. Я бы хотел использовать Textile в CMS.
Есть ли инструмент, который преобразует HTML в Textile, поэтому я могу очистить существующий сайт, преобразовать HTML в Textile и вставить эти данные в базу данных?
Я знаю, что это старый вопрос, но я обнаружил, что пытался сделать это на днях и не нашел ничего полезного, пока не нашел Pandoc. Он также может преобразовывать нагрузки других форматов разметки - он довольно блестящий.
Вот С# lib, конвертирующий html 2 textile. Хотя это текстиль с их дополнениями. Не чистый текстиль.
Поскольку не было реализации javascript, я написал один: https://github.com/cmroanirgo/to-textile
Это немного примитивный момент, так как это слепой порт эквивалента "to-markdown", но должен выполнить свою работу.
попробуйте этот простой код Java, надеюсь, он сработает для вас
import java.net.*;
import java.io.*;
class Crawle
{
public static void main(String ar[])throws Exception
{
URL url = new URL("https://www.google.co.in/#q=i+am+happy");
InputStream io = url.openStream();
BufferedReader br = new BufferedReader(new InputStreamReader(io));
FileOutputStream fio = new FileOutputStream("crawler/file.txt");
PrintWriter pr = new PrintWriter(fio,true);
String data = "";
while((data=br.readLine())!=null)
{
pr.println(data);
System.out.println(data);
}
}
}
}
Это простая замена разметки, ничего хорошего регулярное выражение не может исправить.
Я рекомендую Perl, LWP:: Simple и некоторые регулярные выражения, чтобы сделать все это (spidering, desipping design and menus, преобразование в текстиль, а затем публикацию в базу данных.)