вторник, 20 августа 2013 г.

Статья на Хабре "HP Vertica, первый запущенный проект в РФ, опыт полтора года реальной эксплуатации"

Всем привет.

Наконец то я написал и выложил на ресурсе Хабрахабр статью по результатам полутора-годовалой эксплуатации Vertica в компаниим Yota Neyworks. Статья будет полезна архитекторам хранилищ данных, разработчикам ETL/BI решений, системным интеграторам и руководителям ИТ подразделений. В блог статью дублировать не буду, просто дам ссылку на нее:

Удачи  и до связи!

пятница, 9 августа 2013 г.

Подготовка GETL к первому стабильному релизу

Всем привет.

Хорошая новость - работы по созданию базовой функциональности ETL на базе Groovy близятся к завершению. GETL уже достаточно оброс требуемой для ETL функциональностью, избавился от багов и имеет устойчивую архитектуру классов и компонент, что позволило мне начать работы по подготовке к первому релизу prodaction версии на SourceForge.net.

В релиз войдет следующая функциональность:

  • Чтение и запись в следующие источники данных: CSV, JSON, XML, JDBC;
  • Создание, удаление и очистка таблиц для JDBC источников;
  • Отдельные коннекторы для источников РСУБД: H2 Database, MSSQL, MySQL, Oracle, Vertica;
  • Организация потоков копирования данных между источниками с автомаппированием по именам полей и автоматическим приведением типов полей источников и приемников
  • Фильтрация и репликация данных на множество приемников данных;
  • Агрегация данных источника в приемник с возможностью задания правил агрегации;
  • Сортировка данных из источника в приемник;
  • Организация поточного параллельного выполнения логики задач;
  • Работа с конфигурациями в формате JSON, автоматическая загрузка параметров из конфигураций для источников данных и управления потоками;
  • Сбор статистики работы задач;
  • Хранилище промежуточных данных;
  • Ведение лога работы задач;
  • Библиотека функций работы с текстами, датами, файлами, списками, картами и трансформацией данных;
  • Копирование файлов по заданным правилам с хранилищ файлов (локальные диски и FTP);
  • Поддержка собственного языка хранимых процедур для выполнения SQL скриптов с поддержкой переменных, курсоров и условий.
На текущий момент я заморозил дальнейшее развитие GETL с тем, чтобы написать краткое руководство пользователя для быстрого обучения и началу работы с продуктом и выложить его стабильный релиз. После того, как эти работы будут сделаны, работы над GETL продолжатся.

Есть и плохая новость. С учетом моей текущей загрузки, документация по GETL будет писаться только на русском языке. На английском будут писаться только краткие аннотации и новости. 

Релиз планируется выпустить уже в сентябре. О его выходе я дополнительно сообщу в своем блоге.

Всем удачи!