Ответ 1
Для этого вы можете использовать объект XMLHttpRequest. Здесь простой пример
var req = new XMLHttpRequest();
req.open('GET', 'http://www.mydomain.com/', false);
req.send(null);
if(req.status == 200)
dump(req.responseText);
После загрузки вы можете выполнить ваш синтаксический анализ/очистку, используя регулярные выражения javascript в члене req.responseText.
Подробнее...
На практике вам нужно сделать немного больше, чтобы получить объект XMLHttpRequest в кросс-платформенном режиме, например:
var ua = navigator.userAgent.toLowerCase();
if (!window.ActiveXObject)
req = new XMLHttpRequest();
else if (ua.indexOf('msie 5') == -1)
req = new ActiveXObject("Msxml2.XMLHTTP");
else
req = new ActiveXObject("Microsoft.XMLHTTP");
Или используйте библиотеку...
В качестве альтернативы, вы можете сэкономить все усилия и просто использовать библиотеку, например jQuery или Prototype, чтобы позаботиться об этом для вас.
Политика одного и того же происхождения может укусить вас, хотя...
Обратите внимание, что из-за политики одного и того же происхождения запрашиваемая страница должна быть от того же домена, что и страница, задающая запрос. Если вы хотите запросить удаленную страницу, вам потребуется прокси-сервер, который с сервера script.
Другим возможным обходным путем является использование Flash для запроса, что позволяет междоменные запросы, если целевой сайт предоставляет разрешение с соответствующим образом сконфигурированным файлом crossdomain.xml.
Вот хорошая статья о политике того же происхождения: