- Серія контенту:
- Цей контент є частиною серії: Розширення сховища даних
- Традиційні сховища даних
- Склад системи управління даними
- Малюнок 1. Стандартна архітектура традиційного сховища даних
- Малюнок 2. Позиціонування продуктів в стандартній архітектурі
- Перехід до технологій великих даних
- InfoSphere BigInsights Quick Start Edition
- IBM PureData Appliance для Hadoop
- висновок
- Ресурси для скачування
Розширення сховища даних
Серія контенту:
Цей контент є частиною # з серії # статей: Розширення сховища даних
https://www.ibm.com/developerworks/ru/views/global/libraryview.jsp?series_title_by=Расширение+хранилища+данных
Слідкуйте за виходом нових статей цієї серії.
Цей контент є частиною серії: Розширення сховища даних
Слідкуйте за виходом нових статей цієї серії.
Ця стаття присвячена технології великих даних, заснованої на системі Hadoop, яку можна використовувати для розширення існуючих сховищ даних. Традиційні сховища даних будуються головним чином на реляційних базах даних, які аналізують дані з точки зору бізнес-процесів.
Перша частина цієї серії статей присвячена поточному стану справ в сфері сховищ даних, їх складу, технології та архітектури. У ній визначені технічні та економічні мотиви руху в напрямку технологій великих даних і наводяться приклади розширення існуючих сховищ даних за допомогою технологій великих даних.
Коли організації намагаються витягти економічний ефект з маси неструктурованих даних, вони стикаються з проблемою аналізу складних даних. Поскільки на бізнес-рішення впливають багато факторів, моделі аналізу беруть до уваги всі нові аспекти і стають все складніше.
Традиційна ІТ-інфраструктура не дозволяє вводити, адмініструвати та обробляти великі дані в розумні терміни. Вона просто не здатна вмістити дані в обсязі від декількох десятків терабайт до багатьох петабайт.
Традиційні сховища даних
Традиційно сховища даних аналізують структуровані транзакційні дані, що містяться в реляційних базах даних. У них застосовуються ключові показники ефективності і засновані на моделях архітектури.
Склад системи управління даними
До недавнього часу склад системи управління даними, який ілюструється на малюнку 1, був досить простим.
- Системи оперативної обробки транзакцій (OLTP) підтримують бізнес-процеси підприємства.
- Оперативні сховища даних (ODS), накопичують бізнес-транзакції для підтримки оперативної звітності.
- Корпоративні сховища даних (EDW), які накопичують і перетворюють бізнес-транзакції для підтримки як оперативних, так і стратегічних рішень.
Зазвичай підприємства аналізують структурні джерела даних, що створюються в рамках організації.
Малюнок 1. Стандартна архітектура традиційного сховища даних
Кожен рівень виконує певну функцію.
- Рівень збору даних: складається з компонентів для отримання даних від систем-джерел, таких як відділ кадрів, фінансовий відділ і бухгалтерія.
- Рівень інтеграції даних: складається з компонентів інтеграції для передачі даних від джерел на рівень сховища даних в рамках архітектури.
- Рівень сховища даних: зберігає дані з використанням реляційної моделі для підвищення продуктивності і інтенсифікації обробки запитів.
- Аналітичний рівень: зберігає дані в форматі куба для спрощення аналізу гіпотетичних варіантів користувачами.
- Рівень представлення: додатки або портали, що надають доступ іншому набору користувачів. Додатки та портали споживають дані за допомогою веб-сторінок і портлетів, визначених у інструменті звітності, або за допомогою веб-сервісів.
Сучасна стандартна архітектура BI, показана на малюнку 2, підтримується багатьма продуктами.
- Програмне забезпечення IBM®InfoSphere® : Набір інструментів для інтеграції і управління інформацією.
- IBM InfoSphere Metadata Workbench : Інструменти, процеси і середовище, що дозволяють організаціям легко і надійно передавати, знаходити і отримувати інформацію з цих систем.
- IBM InfoSphere QualityStage® : Допомагає створювати і підтримувати узгоджені уявлення основних груп і об'єктів, включаючи клієнтів, постачальників, місця розташування і продукти. Використовується для дослідження даних, їх очищення та управління ними.
- IBM® PureData ™ System for Analytics : Спрощує і оптимізує продуктивність складних аналітичних систем, дозволяючи виконувати складні алгоритми за хвилини, а не годинник.
- IBM® DB2® : СУБД з кращими в галузі характеристиками надійності, продуктивності і масштабованості на платформах Linux, UNIX і Windows для z / OS. Дізнайтеся, як клієнти перетворять свій центр обробки даних за допомогою DB2.
- IBM SPSS: дозволяє впевнено прогнозувати подальший хід подій, що дає можливість приймати обгрунтовані рішення, вирішувати проблеми і підвищувати доходи.
- IBM® Cognos® Business Intelligence : Надає звіти, результати аналізу, інформаційні панелі і табло, допомагаючи думати і працювати тим, хто аналізує ефективність бізнесу.
Малюнок 2. Позиціонування продуктів в стандартній архітектурі
Зміни в області обробки даних
Зміни в попиті на аналіз даних ведуть до необхідності реалізації технології для задоволення нових вимог. Як приклади нових вимог можна привести:
- потреба організації в аналізі даних для ретельного вивчення покупців, моделей їх поведінки і ланцюжків поставок;
- бізнес-середовище, всі більш оснащена засобами вимірювання і створює гігантські обсяги неструктурованих даних;
- дані, що проходять через систему у великих обсягах;
- технічні питання, пов'язані зі складністю обробки даних;
- попит на ресурсомісткі обчислення.
Перехід до технологій великих даних
Організації створюють сховища даних, щоб аналізувати ділову активність і генерувати ідеї, що дозволяють керівництву приймати рішення і покращувати показники бізнесу і ефективність операцій. Незважаючи на зрілість ринку, технології бізнес-аналізу (BI) продовжують залишатися головним напрямком інвестицій в ІТ. Створюється все більше даних, і досягнення в області технології аналізу реляційних баз даних сприяють поліпшенню програмного забезпечення BI.
Підприємства змушені впроваджувати технології великих даних з багатьох причин:
- необхідність аналізувати дані з нових джерел;
- підвищення складності даних:
- різноманітність типів даних;
- обсяги даних;
- швидкість створення даних;
- достовірність даних, що надходять з декількох джерел;
- ускладнення завдань аналізу;
- зростаюча доступність економічно ефективних обчислювальних засобів і систем зберігання даних.
Щоб оцінити потребу комерційної організації в технології великих даних, керівники можуть задати собі наступні питання:
- Чи великі поточні набори даних? Чи обмежує вас існуюча платформа або середовище, не дозволяючи обробляти стільки даних, скільки хотілося б?
- Чи служить існуюче середовище сховища даних вмістилищем всіх даних, які створюються або надходять?
- Чи багато у вас «холодних» - мало використовуваних даних, які не потрібні для аналізу і осмислення бізнес-інформації?
- Чи потрібна вам можливість аналізувати неоперативні дані?
- Чи хочете ви використовувати свої дані для аналізу традиційними і новими методами?
- Ви не в змозі аналізувати дані з нових джерел, оскільки вони не вписуються в певні схемою рядки і стовпці таблиці без шкоди для точності або корисності цих даних?
- Чи потрібно вам «заковтувати» дані якомога швидше? Чи потребує ваша середовище створення схеми в процесі виконання?
- Чи шукаєте ви способи зниження загальних витрат на аналіз даних?
Проблеми, які характеризуються цими питаннями, можна вирішити, доповнивши існуючу середу сховища даних з технологією великих даних.
Для багатьох організацій першим кроком до реалізації аналізу великих даних стає Apache Hadoop. Це програмне забезпечення з відкритим вихідним кодом дозволяє виконувати розподілену обробку великих наборів даних на кластерах стандартних серверів.
InfoSphere BigInsights Quick Start Edition
InfoSphere BigInsights Quick Start Edition - це безкоштовна доступна для завантаження версія InfoSphere BigInsights, заснованого на Hadoop пропозиції IBM. За допомогою Quick Start Edition можна познайомитися з тими можливостями, які IBM пропонує для підвищення ефективності системи з відкритим вихідним кодом Hadoop, такими як Big SQL, аналіз текстів і BigSheets. Структуроване навчання, що включає в себе покрокові керівництва по самостійному навчанню і відеоінструкції, допомагає зробити освоєння максимально гладким і як можна швидше почати отримувати вигоду з Hadoop. Відсутність обмежень за часом або обсягу даних дозволяє експериментувати з великими обсягами даних, коли вам це зручно. дивіться відеоінструкції , вивчайте керівництва (PDF) і завантажте BigInsights Quick Start Edition прямо зараз .
IBM InfoSphere BigInsights з'єднує Apache Hadoop (включаючи середовище MapReduce і HadoopDistributed File Systems) з унікальними технологіями та можливостями корпоративного рівня для всіх платформ IBM, такими як Big SQL, вбудовані аналітичні функції, візуалізація, BigSheets і засоби забезпечення безпеки. InfoSphere BigInsights - це єдина платформа для управління всіма даними. InfoSphere BigInsights пропонує безліч переваг:
- гнучка підтримка корпоративного класу для обробки великих обсягів даних з використанням потоків і операцій MapReduce;
- можливість створення додатків, здатних економічно ефективно і з високим ступенем паралелізму працювати з тисячами вузлів і петабайт даних;
- передові аналітичні інструменти для вирішення довільних завдань аналізу в їхньому природному стані;
- можливість інтеграції з корпоративним програмним забезпеченням.
IBM PureData Appliance для Hadoop
Для реалізації Hadoop вам буде потрібно посібник з побудови, налаштування, адміністрування та управління великими кластерами Hadoop виробничого рівня (потенційно більше 1000 вузлів). IBM® PureData ™ для Hadoop, інтегрована платформа для реалізації Hadoop, надає доступ до інформації та ресурсів, допомагаючи подолати труднощі впровадження. PureData для Hadoop пропонує:
- вбудовану базу знань:
- розгортається у вісім разів швидше, ніж спеціалізовані рішення;
- вбудована візуалізація допомагає прискорити розуміння результатів;
- готові аналітичні додатки прискорюють аналіз соціальних даних, машинних даних і текстів;
- простоту роботи:
- єдина консоль для адміністрування всієї системи;
- швидке оновлення системи з автоматизацією;
- SQL-середовище, що дає спрощений доступ до неструктурованих даних;
- природну інтеграцію:
- можливості двостороннього архівування та відновлення;
- надійні засоби безпеки;
- архітектура високої готовності;
- інтеграція з платформою InfoSphere BigInsights;
- здатність приймати дані зі швидкістю до 14 ТБ / год.
Для дослідження і реалізації проекту великих даних можна розширити існуючу середу сховища даних, додавши в міру необхідності одну або більше з таких конфігурацій одночасно. Цей підхід дозволяє організаціям діяти гнучко, знизити експлуатаційні витрати і прискорити випуск готової продукції при підвищеній економічної ефективності та конкурентоспроможності.
Розгляньте наступні варіанти застосування технології великих даних:
- варіант 1: для збору вихідних даних;
- варіант 2: для історичних даних в сховищі;
- варіант 3: для дослідницького аналізу.
висновок
У минулому неадекватні інструменти і технології обробки великих обсягів даних змушували організації створювати аналітичні рішення, засновані на структурованих даних. В результаті існуючі механізми обробки даних і рішення для зберігання даних мають низьку пропускну здатність, недостатню для обсягів і різноманітності сьогоднішніх великих даних.
Стикаючись з розширенням екосистеми аналізу даних, архітекторам BI доводиться приймати різні рішення щодо вибору технології. Можливо, найважче - це вибір системи обробки даних для тих чи інших аналітичних додатків.
Нові технології, такі як Hadoop, дозволили організаціям економічно ефективно вводити і аналізувати великі обсяги слабоструктурованих даних. Технологія великих даних доповнює традиційні методи доставки даних «зверху вниз» більш гнучкими підходами «знизу вгору», що допомагають виконувати нестандартні дослідження і швидку розробку додатків.
У другій частині цієї серії статей описується варіант 1: використання технологій великих даних для збору даних підприємства. У ній також пояснюється, як підприємство може багаторазово використовувати необроблені дані (структуровані і неструктуровані) для підтримки нестандартизованого аналізу і аналізу в реальному часі.
Ресурси для скачування
Схожі теми
Підпишіть мене на повідомлення до коментарів
Jsp?Чи обмежує вас існуюча платформа або середовище, не дозволяючи обробляти стільки даних, скільки хотілося б?
Чи багато у вас «холодних» - мало використовуваних даних, які не потрібні для аналізу і осмислення бізнес-інформації?
Чи потрібна вам можливість аналізувати неоперативні дані?
Чи хочете ви використовувати свої дані для аналізу традиційними і новими методами?
Ви не в змозі аналізувати дані з нових джерел, оскільки вони не вписуються в певні схемою рядки і стовпці таблиці без шкоди для точності або корисності цих даних?
Чи потрібно вам «заковтувати» дані якомога швидше?
Чи потребує ваша середовище створення схеми в процесі виконання?
Чи шукаєте ви способи зниження загальних витрат на аналіз даних?