Learn first
For the latest KMBS events and news, visit KMBS Live at the top right corner of the screen
Open kmbs live[EN] Автор: Рональд Хайсман, професор Erasmus School of Economics [Нідерланди], викладач kmbs, партнер компанії Modex Analytics Існує загальноприйняте визначення великих даних, яке було запропоноване дуже давно компанією IBM. Відповідно до нього big data описується чотирма параметрами (4V): - обсяг (volume): ці дані генеруються постійно, - швидкість (velocity): обробляти їх потрібно швидко, - різноманіття (variety): використовується багато джерел та типів даних, - точність (veracity): дані мають бути якісними. Це визначення не втратило своєї актуальності й зараз, хоча змінилося чимало: комп’ютери можуть обробляти дані значно швидше, а самі дані тепер можна збирати з безлічі пристроїв (бо ми ставимо сенсори усюди, де тільки можливо). У минулому дані були переважно числовими, а тепер вони набагато різноманітніші: зображення, звуки, тексти тощо. Що ж стосується якості, то дані сьогодні нерідко втрачаються чи бувають розмитими, тому їх складно інтерпретувати. Багато компаній думають, що їхні дані – хороші вже такі, які є. Це упередження виникає з переконання, що big data – це про технології. Насправді ж так звана очистка даних займає дуже багато часу, і тільки після цього їх можна використовувати, «заганяючи» в алгоритми. Скажімо, обробка даних якимось алгоритмом може зайняти хвилини, а попередня очистка – тижні. Ще одна помилка компаній – починати з впровадження технологічних рішень. Нерідко вони витрачають мільйони й роки, щоб формувати звіти не в Excel, а в просунутій IT-програмі, але зрештою отримують результат, який не задовольняє їхні потреби. Наприклад, одна нідерландська компанія, яка володіє кемпінгами, впровадила дороге IT-рішення. Але коли з’явилася необхідність дізнатися - скільки німецьких туристів відвідують її локації, система не змогла дати відповідь, бо не була розрахована на такі запитання. Проблема полягала у тому, що компанія сфокусувалася на технологіях, не маючи розуміння – навіщо їй взагалі потрібна аналітика даних.
Аналітика даних дає набагато точніші результати у фізиці, аніж у соціальних науках. А бізнес та економіка - теж соціальні науки
Управлінцю потрібно починати з головних запитань та ключових бізнес-цілей. Чого я хочу досягти? Що отримати? І тільки після цього думати: як дані можуть мені в цьому допомогти? Аналітика даних має являти собою перевернуту піраміду (див. малюнок). Якщо перед управлінцем постав бізнес-виклик (скажімо, збільшити ринкову частку), то, перш за все, він має поміркувати: яка мудрість допоможе нам впоратися із завданням? Потім – які знання потрібні, щоб отримати цю мудрість? Яка інформація забезпечить ці знання? І лише потім варто запитати себе: з яких даних можна отримати цю інформацію? Таке мислення може не підходити IT-менеджерам, проте воно необхідне управлінцям. Керівники не повинні розмірковувати: що ми можемо зробити з даними, які у нас є? Так неможливо досягти максимального ефекту від своїх дій. Найкращий результат виникає, коли управлінець рухається від мудрості до даних – а не навпаки. Загалом алгоритм дій має виглядати так: 1. З'ясувати, який бізнес-виклик зараз має бізнес. (Наприклад, обрати найкраще місце для нового магазину або знизити витрати на обслуговування обладнання.) 2. Сформувати гіпотезу. 3. Зібрати відповідні дані. 4. Проаналізувати дані. 5. Зробити висновки. 6. Скласти перелік рекомендованих дій. 7. Відслідкувати виконання й визначити результати. Використовуючи дані, варто також розуміти певні обмеження. По-перше, нерідко для повноцінної аналітики недостатньо даних, які може зібрати сама компанія. Потрібні ще й зовнішні дані. Наприклад, авіакомпанія KLM отримує дані від аеропорту Схіпгол, щоб прийняти рішення – скільки працівників вона має залучити для обслуговування клієнтів на стійках реєстрації. По-друге, аналітика даних дає набагато точніші результати у фізиці, аніж у соціальних науках. Адже у першому випадку усі змінні відомі, вони підпорядковуються відомим законам – тому їхню поведінку можна передбачити й розрахувати. Використання законів фізики не змінює систему. А в соціальних науках наявна величезна кількість взаємодій між людьми, виміряти усі змінні неможливо, а коли ми використовуємо дані, то цим впливаємо на систему та змінюємо її.
Управлінцю потрібно починати з головних запитань та ключових бізнес-цілей: чого я хочу досягти? що отримати? І тільки після цього думати: як дані можуть мені в цьому допомогти?
Бізнес та економіка – це теж соціальні науки. Це не означає, що в бізнесі не варто використовувати великі дані. Але потрібно бути дуже обережними із тим, як ми це робимо. Якщо ви користуєтеся алгоритмами машинного навчання для аналізу великих даних, то можете побачити кореляції, які не відповідають дійсності. Наприклад, подібний алгоритм, аналізуючи дані про американців за 2000-2009 роки, знайшов чітку кореляцію між обсягом споживання сиру й імовірністю померти у власному ліжку, заплутавшись у простирадлі. Ми розуміємо, що ці змінні не пов’язані між собою, але алгоритм може зробити висновок про причинно-наслідковий зв’язок і почати будувати прогнози. Як свідчить практика, коли ми маємо великий набір випадкових даних, патерни в них знаходяться дуже легко. Але навряд чи варто базувати свої висновки на таких патернах – інакше ми вирішимо, що варто заборонити споживати сир, аби уникнути смерті у ліжку. Як і будь-яка інновація, великі дані проходять певний життєвий цикл. Зараз очікування від big data знаходяться на піку. Управлінці думають, що великі дані можуть трансформувати їхній бізнес, люди – що великі дані змінять їхні життя й світ в цілому. Скоріше за все, ці очікування не виправдаються, і через певний час ми побачимо розчарування у big data. А згодом великі дані знайдуть шлях для того, щоб дійсно змінити наші бізнеси. Проте не так радикально, як нам здається зараз. Стаття була вперше опублікована на nv.ua