CRISP-DM

Cross-industry standard process for data mining, популярен с абревиатурата си CRISP-DM (в превод: „Индустриален стандартен процес за извличане на знания от данни“), е модел на процеса на извличане на знания от данни (data mining), който описва обичайни подходи, които експертите в областта използват за решаването на определени проблеми. Проучвания, провеждани през 2002, 2004, 2007 и 2014 показват, че CRISP-DM е водещата методология, използвана за нуждите на индустрията.^[1]^[2]^[3]^[4] Критичен обзор на моделите на процесите на data mining през 2009 определя CRISP-DM като „де факто стандарт за разработка на проекти по откриване на знания и извличане на знания от данни“. През 2015 година, IBM публикува нова методология, наречена Analytics Solutions Unified Method for Data Mining/Predictive Analytics^[5] (also known as ASUM-DM) which refines and extends CRISP-DM. ^[6]

История

CRISP-DM е замислен през 1996 година. През 1997 година е реализиран като проект с финансиране на Европейския съюз по програма ESPRIT. Проектът е воден от пет компании: SPSS, Teradata, Daimler AG, NCR Corporation и застрахователната компания OHRA. Този консорциум влиза в проекта с различен опит и компетенции по извличането на знания от големи масиви от данни.

Първата версия на методологията е представена в Брюксел през март 1999 и по-късно същата година е публикувано постъпково ръководство за извличане на знания от данни.^[7]^[8]

Между 2006 и 2008 година е сформирана специална група по интереси, която дискутира ъпдейтването на процесния модел на CRISP-DM. Понастоящем не е публично известно групата да е излязла със становище, а оригиналният сайт на методологията, crisp-dm.org, цитиран в обзорите, не са активни.

Въпреки че методологията се ползва и от много несвързани с IBM практици на извличането на знания от данни, основната корпорация, която застава зад CRISP-DM е IBM, която предоставя достъп за сваляне на документи, свързани с методологията и я е инкорпорирала в софтуерния си продукт SPSS Modeler.

Основни фази

CRISP-DM разделя процеса по data mining в шест основни фази.^[9] Последователността на фазите не е строга и се налага да се цикли между някои от тях. Стрелките в илюстрацията сочат най-важните и често проявяващи се зависимости между фазите. Външният кръг в диаграмата символизира цикличната природа на самия процес data mining, който продължава и след като бъде открито решение. Шестте фази на CRISP-DM са:

Диаграма на процеса, показваща връзките между отделните фази на CRISP-DM

Разбиране на проблемната област (Business understanding): това е началният етап, който се фокусира върху дефинирането на целите на изследванията и съответните изисквания от гледната точка на бизнеса. След завършването на етапа тези знания трябва да бъдат превърнати в дефиниции на задачи за сондиране на данни и да се състави предварителен план как тези цели могат да бъдат постигнати.
Разбиране на данните (Data understanding): Етапът започва с първоначално събиране на данни и продължава с дейности, целящи задълбочаване на знанията на изследователя за естеството на данните. На този етап е необходимо да бъдат идентифицирани проблеми, свързани с качеството на данните, да бъде получено първоначално мнение за характера на данните, да бъдат намерени интересните подмножества на данните, за да бъдат формирани първоначални хипотези за скритата в данните информация.
Подготовката на данните (Data preparation): Етапът покрива всички дейности по създаване от първоначални „сурови“ данни на крайното множество от данни (т.е. данни, които ще бъдат използвани от моделиращите средства). Етапът на подготовката на данни често се налага да бъде изпълняван многократно и по различно време. Задачите по подготовката на данни включват в себе си избор на таблиците с данни, техни атрибути и отделни записи, както и трансформация и изчистване на данни.
Моделиране (Modeling): Този етап се състои от избор и прилагане на различни техники за моделиране, целящи извличане на закономерности от данните. Параметрите на моделите се калибрират до свои оптимални стойности. Тъй като някои модели имат свои специфични изисквания към форма̀та на данните, на този етап често се налага връщането към етапа за подготовката на данни.
Оценка на модела (Model evaluation): Етапът се състои във внимателно преглеждане на всички стъпки, изпълнени при създаването на конкретния модел, за да се осигури, че те постигат поставените цели. В края на този етап се приема решение за използване на получените в процеса на сондиране резултати.
Експлоатация на модела (Deployment): Експлоатацията е свързана с необходимостта от наблюдение и стратегия за експлоатация. На този етап следва да се определи дали и кога да се поднови процедурата по извличане на знания от данни и при какви условия.

Източници

↑ Gregory Piatetsky-Shapiro (2002); KDnuggets Methodology Poll
↑ Gregory Piatetsky-Shapiro (2004); KDnuggets Methodology Poll
↑ Gregory Piatetsky-Shapiro (2007); KDnuggets Methodology Poll
↑ Gregory Piatetsky-Shapiro (2014); KDnuggets Methodology Poll
↑ Have you seen ASUM-DM?, By Jason Haffar, 16 октомври 2015, SPSS Predictive Analytics, IBM
↑ Óscar Marbán, Gonzalo Mariscal and Javier Segovia (2009); A Data Mining & Knowledge Discovery Process Model. In Data Mining and Knowledge Discovery in Real Life Applications, Book edited by: Julio Ponce and Adem Karahoca, ISBN 978-3-902613-53-0, pp. 438 – 453, February 2009, I-Tech, Vienna, Austria.
↑ Pete Chapman (1999); The CRISP-DM User Guide.
↑ Pete Chapman, Julian Clinton, Randy Kerber, Thomas Khabaza, Thomas Reinartz, Colin Shearer, and Rüdiger Wirth (2000); CRISP-DM 1.0 Step-by-step data mining guides^{[неработеща препратка]}.
↑ Harper, Gavin и др. Methods for mining HTS data // Drug Discovery Today 11 (15 – 16). August 2006. DOI:10.1016/j.drudis.2006.06.006. с. 694 – 699.

Тази страница частично или изцяло представлява превод на страницата Cross-industry standard process for data mining в Уикипедия на английски. Оригиналният текст, както и този превод, са защитени от Лиценза „Криейтив Комънс – Признание – Споделяне на споделеното“, а за съдържание, създадено преди юни 2009 година – от Лиценза за свободна документация на ГНУ. Прегледайте историята на редакциите на оригиналната страница, както и на преводната страница, за да видите списъка на съавторите.

ВАЖНО: Този шаблон се отнася единствено до авторските права върху съдържанието на статията. Добавянето му не отменя изискването да се посочват конкретни източници на твърденията, които да бъдат благонадеждни.

[KDnug2002-1] Gregory Piatetsky-Shapiro (2002); KDnuggets Methodology Poll

[KDnug2004-2] Gregory Piatetsky-Shapiro (2004); KDnuggets Methodology Poll

[KDnug2007-3] Gregory Piatetsky-Shapiro (2007); KDnuggets Methodology Poll

[KDnug2014-4] Gregory Piatetsky-Shapiro (2014); KDnuggets Methodology Poll

[5] Have you seen ASUM-DM?, By Jason Haffar, 16 октомври 2015, SPSS Predictive Analytics, IBM

[Marban-6] Óscar Marbán, Gonzalo Mariscal and Javier Segovia (2009); A Data Mining & Knowledge Discovery Process Model. In Data Mining and Knowledge Discovery in Real Life Applications, Book edited by: Julio Ponce and Adem Karahoca, ISBN 978-3-902613-53-0, pp. 438 – 453, February 2009, I-Tech, Vienna, Austria.

[crispDMbrussels-7] Pete Chapman (1999); The CRISP-DM User Guide.

[crispDMguide-8] Pete Chapman, Julian Clinton, Randy Kerber, Thomas Khabaza, Thomas Reinartz, Colin Shearer, and Rüdiger Wirth (2000); CRISP-DM 1.0 Step-by-step data mining guides^{[неработеща препратка]}.

[Harper06-9] Harper, Gavin и др. Methods for mining HTS data // Drug Discovery Today 11 (15 – 16). August 2006. DOI:10.1016/j.drudis.2006.06.006. с. 694 – 699.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]