Как извлечь данные из Google Analytics и создать хранилище данных (веб-сайт)?
У меня есть данные потока кликов, такие как ссылка на URL, верхние целевые страницы, верхние страницы выхода и такие показатели, как просмотры страниц, количество посещений, отскакивание всех в Google Analytics. Пока нет базы данных, где вся эта информация может быть сохранена. Я должен создать хранилище данных с нуля (который, как я полагаю, известен как веб-дом) из этих данных. Поэтому мне необходимо извлечь данные из Google Analytics и загрузить их на склад ежедневно. Мои вопросы: -
1) Возможно ли это? Ежедневно данные возрастают (некоторые с точки зрения показателей или мер, таких как посещения, а некоторые с точки зрения новых ссылочных сайтов), как будет происходить процесс загрузки хранилища?
2) Какой инструмент ETL поможет мне в этом? Pentaho Я считаю, что есть способ вытащить данные из Google Analytics, кто-нибудь использовал его? Как проходит этот процесс?
Любые ссылки, ссылки будут оценены помимо ответов.
Ответы
Ответ 1
Как всегда, знание структуры базовых данных транзакции - атомных компонентов, используемых для построения DW - это первый и самый большой шаг.
Существуют, по существу, два варианта, основанные на том, как вы извлекаете данные. Один из них, уже упоминавшийся в предыдущем ответе на этот вопрос, - это доступ к вашим данным GA через API GA. Это довольно близко к форме, которую данные отображаются в отчете GA, а не о транзакционных данных. Преимущество использования этого в качестве источника данных заключается в том, что ваш "ETL" очень прост, просто анализ данных из контейнера XML - это все, что нужно.
Второй вариант включает захват данных, намного ближе к источнику.
Ничего сложного, тем не менее, несколько строк фона, возможно, полезны здесь.
-
Панель инструментов GA Web создана
разбор/фильтрация журнала транзакций GA
(контейнер
который содержит данные GA, которые
соответствует одному профилю в одном
Счет).
-
Каждая строка в этом журнале представляет собой
разовая транзакция и доставляется
на сервер GA в виде
HTTP-запрос от клиента.
-
Прилагается к этому запросу (который
номинально для однопиксельного GIF)
одна строка, содержащая все
данные, возвращенные из этого
_TrackPageview вызов функции плюс данные из DOM клиента, файлы cookie Google
для этого клиента, и
содержимое местоположения браузера
bar (http://www....).
-
Хотя этот запрос из
клиент, он вызывается GA
script (который находится на клиенте)
сразу после выполнения GA первичного
функция сбора данных
(_trackPageview).
Таким образом, работа с данными транзакций, возможно, является наиболее естественным способом создания хранилища данных; еще одно преимущество заключается в том, что вы избегаете дополнительных издержек промежуточного API).
Отдельные строки журнала GA обычно не распространяются на пользователей GA. Тем не менее, их просто получить. Эти два шага должны быть достаточными:
-
измените код отслеживания GA на каждой странице вашего сайта, чтобы он
отправляет копию каждого запроса GIF
(одна строка в файле журнала GA) на ваш
собственный сервер,
неимоверно до вызова
_trackPageview(), добавьте эту строку:
pageTracker._setLocalRemoteServerMode();
-
Далее, просто установите однопиксельный gif
изображение в корневом каталоге документа и вызов
это "__utm.gif" .
Итак, теперь ваш журнал активности сервера будет содержать эти отдельные линии трансляции, снова построенные из строки, добавленной к HTTP-запросу для пикселя отслеживания GA, а также из других данных в запросе (например, строки User Agent). Эта бывшая строка представляет собой просто сцепление пар ключ-значение, каждый ключ начинается с букв "utm" (возможно, для "трекинг-трекера" ). Не каждый параметр utm появляется в каждом запросе GIF, некоторые из них, например, используются только для транзакций электронной торговли - это зависит от транзакции.
Здесь настоящий GIF-запрос (идентификатор учетной записи был дезинфицирован, в противном случае он не поврежден):
http://www.google-analytics.com/__utm.gif?utmwv=1&utmn=1669045322&utmcs=UTF-8&utmsr=1280x800&utmsc=24-bit&utmul=en-us&utmje=1&utmfl=10.0%20r45&utmcn=1&utmdt=Position%20Listings%20%7C%20Linden%20Lab&utmhn=lindenlab.hrmdirect.com&utmr=http://lindenlab.com/employment&utmp=/employment/openings.php?sort=da&&utmac=UA-XXXXXX-X&utmcc=__utma%3D87045125.1669045322.1274256051.1274256051.1274256051.1%3B%2B__utmb%3D87045125%3B%2B__utmc%3D87045125%3B%2B__utmz%3D87045125.1274256051.1.1.utmccn%3D(referral)%7Cutmcsr%3Dlindenlab.com%7Cutmcct%3D%2Femployment%7Cutmcmd%3Dreferral%3B%2B
Как вы можете видеть, эта строка состоит из набора пар ключ-значение, каждый из которых разделен символом "&". Всего два тривиальных шага: (i) разделение этой строки на амперсанде; и (ii) заменяя каждый параметр gif (ключ) короткой описательной фразой, сделать это намного проще для чтения:
gatc_version 1
GIF_req_unique_id 1669045322
language_encoding UTF-8
screen_resolution 1280x800
screen_color_depth 24-разрядный
browser_language ru-us
java_enabled 1
flash_version 10.0 %20r45
campaign_session_new 1
page_title Позиция %20Listings %20% 7C %20Linden %20Lab
имя_хоста lindenlab.hrmdirect.com
referral_url http://lindenlab.com/employment
page_request/employment/openings.php?sort=da
account_stringUA-XXXXXX-X
cookie __utma% 3D87045125.1669045322.1274256051.1274256051.1274256051.1% 3B% 2B__utmb% 3D87045125% 3B% 2B__utmc% 3D87045125% 3B% 2B__utmz% 3D87045125.1274256051.1.1.utmccn% 3D (реферал)% 7Cutmcsr% 3Dlindenlab.com% 7Cutmcct% 3D% 2Femployment% 7Cutmcmd% 3Dreferral% 3B% 2B
Файлы cookie также просто разбираются (см. краткое описание Google здесь): например,
-
__ utma - cookie с уникальным посетителем,
-
__ utmb, __utmc - файлы cookie сеанса и
-
__ utmz - тип реферала.
Файлы cookie GA хранят большую часть данных, которые записывают каждое взаимодействие пользователя (например, нажав на ссылку с тегами по ссылке, нажав ссылку на другую страницу на Сайте, последующий визит на следующий день и т.д.). Так, например, cookie __utma состоит из групп целых чисел, каждая группа разделяется символом "."; последняя группа - это количество посещений для этого пользователя (в этом случае "1" ).
Ответ 2
Вы можете использовать API экспорта данных из Google или такую услугу, как та, которую мы создали специально для ваших нужд: www. analyticspros.com/products/analytics-data-warehouse.html.
Бест,
-Caleb Whitmore
www.analyticspros.com/www.analyticsformarketers.com
Ответ 3
Вы можете извлекать данные GA (Google Analytics) в любое время через свой API и создавать свой собственный хранилище данных (DW). Прежде чем начать, вы можете захотеть посидеть с бизнес-пользователем и получить четкое представление о бизнес-требованиях. В среде DW чрезвычайно важно иметь четкие цели и понимание требований бизнес-пользователей из-за того, что вы будете поддерживать историю транзакций, которые живут долгое время и часто используются.
Предполагая, что бизнес-пользователь определяет KPI (ключевые показатели эффективности), показатели, размеры, степень детализации, необходимые для продолжения, вы можете проверить различные измерения и показатели, которые доступны через API GA на code.google.com/apis/analytics/документы/. Тогда просто нужно сделать правильный вызов API и получить то, что вам нужно. Деятельность DW включает в себя очистку данных, извлечение, трансформацию и загрузку (ETL) или ELT вместе с обобщением фактов в разных измерениях. Поскольку данные намного чище, чем в разрозненных системах (из веб-журналов, внешних поставщиков, Excel или файлов и т.д.), Вы можете просто загрузить данные через любые инструменты ETL (например, Talend, Pentaho, SSIS и т.д. ) или по вашему выбору (Perl, Java, Ruby, С# и т.д.).
Для ежедневной загрузки вам необходимо разработать процесс инкрементной загрузки во время низкого пользовательского трафика (ночные нагрузки), вытягивать только последние данные, обнулять любые дубликаты, очищать любые несоответствующие данные, обрабатывать ошибочные строки и т.д.
Я предоставил образец приложения API GA для http://www.hiregion.com/2009/10/google-analytics-data-retriever-api-sem_25.html, и он предоставит вам базовую информацию для начала работы.
Ответ 4
Как сказал Шива, вы всегда можете извлекать данные GA через API Google и самостоятельно складировать их. Однако, если вы ищете экономичный инструмент для складирования, попробуйте Google Analytics Canvas @http://www.analyticscanvas.com/
Вы также можете проверить галерею Google App для инструментов, связанных с Google Analytics:
http://www.google.com/analytics/apps/
Ответ 5
Существует два важных правила загрузки данных в хранилище данных
- Начальная загрузка
- Инкрементная загрузка данных
При разработке с использованием GA api вам необходимо загрузить исходные исторические данные за определенный диапазон дат. У этого есть свои сложности, так как вы можете столкнуться с проблемами сегментации, потерей данных и т.д. Вам нужно обрабатывать разбиение на страницы и т.д.
Как только начальная загрузка данных будет завершена, вы запустите ее в инкрементном режиме, когда вы просто принесете только новые данные. Эти данные добавляются в те же таблицы хранилища данных и не вызывают дублирование с перекрывающимися датами.
В дополнение к этому GA часто меняет свой API, поэтому вам тоже нужно быть наверху.
Учитывая вышеизложенное, мы выпустили полностью упакованный хранилище данных с Google Analytics и соединителями данных Salesforce. Вы можете проверить детали и получить идеи о том, как вы хотите настроить свой собственный datawarehouse http://www.infocaptor.com/google-analytics-datawarehouse
Минимум, который вам нужно будет спроектировать, - это какой-то фоновый демон, который работает каждый день или на некоторой частоте. Вам понадобятся таблицы рабочих мест для отслеживания успеха и сбоя выписок, чтобы он мог возобновиться с того места, где произошла ошибка.
Некоторые из других соображений
1. Что произойдет, если вы запустите извлечение для того же диапазона данных
2. Что делать, если задание не выполняется на определенные даты.
Важно установить первичные ключи для ваших целевых таблиц DW. В MySQL, используя инструкцию insert с предложением duplicate, убедитесь, что в случае перезагрузки данных нет дубликатов записей.
Еще одна вещь, которую нужно создать, - это ваш промежуточный уровень. Вы извлекаете данные из GA и сбрасываете в Staging. Таким образом, если есть ошибка загрузки в Target, вы можете просто перезагрузить его. Таким образом, вы не обременяете свои ограничения API API и не уменьшаете пропускную способность.
Вы можете увидеть наш полный дизайн в этом месте
http://www.infocaptor.com/help/social_analytics___datawarehouse.htm
Все самое лучшее с вашими усилиями DW.
Ответ 6
Мы можем экспортировать данные из Google Analytics в любой другой хранилище данных (или) RDBMS (или) Hadoop, используя Инструмент интеграции данных Pentaho, pdi kettle. Pentaho также имеет бесплатный Pentaho Community Edition для использования.
Просто выполните этот шаг, чтобы преобразовать данные из Google Analytics
http://wiki.pentaho.com/display/EAI/Google+Analytics
Этот инструмент хорош по удобству для пользователя, стоимости и производительности. Спасибо.