Data Mining – бұл Тұжырымдама, алгоритмдік талдау, мақсат және қолдану

Мазмұны:

Data Mining – бұл Тұжырымдама, алгоритмдік талдау, мақсат және қолдану
Data Mining – бұл Тұжырымдама, алгоритмдік талдау, мақсат және қолдану
Anonim

Ақпараттық технологияның дамуы практикалық нәтиже береді. Бірақ ақпаратты табу, талдау және пайдалану сияқты міндеттер әлі де тиімді жоғары сапалы құрал алған жоқ. Аналитика және сандық құралдар бар, олар шынымен де жұмыс істейді. Бірақ ақпаратты пайдалануда сапалы төңкеріс әлі болған жоқ.

Компьютерлік технология пайда болғанға дейін көп уақыт бұрын адамға үлкен көлемдегі ақпаратты өңдеу қажет болды және оны өзінің тәжірибесі мен қолда бар техникалық мүмкіндіктеріне қарай жеңе алды.

Білім мен дағдыларды дамыту әрқашан нақты қажеттіліктерді қанағаттандырды және ағымдағы міндеттерге сәйкес келеді. Деректерді іздеу - адам қызметінің әртүрлі салаларында шешім қабылдау үшін қажетті деректердегі бұрын белгісіз, тривиальды емес, практикалық пайдалы және қолжетімді білімді ашу әдістерінің жиынтығына сілтеме жасау үшін қолданылатын жиынтық атау.

Адам, интеллект, бағдарламалау

Адам кез келген жағдайда қалай әрекет ету керектігін біледі. Білмеу немесе бейтаныс жағдай оның шешім қабылдауына кедергі болмайды. Кез келген адам шешімінің объективтілігі мен негізділігіне күмән келтіруге болады, бірақ ол қабылданады.

Интеллект негізделген: тұқым қуалайтын «механизм», алынған, белсенді білім. Білім адамның алдында туындаған мәселелерді шешу үшін қолданылады.

  1. Интеллект білім мен дағдылардың бірегей жиынтығы: адам өмірі мен жұмысының мүмкіндіктері мен негізі.
  2. Интеллект үнемі дамып отырады және адам әрекеттері басқа адамдарға әсер етеді.

Бағдарламалау - бұл мәліметтерді көрсетуді және алгоритмдерді құру процесін ресімдеудің алғашқы әрекеті.

Адам, интеллект, бағдарламалау
Адам, интеллект, бағдарламалау

Жасанды интеллект (AI) уақыт пен ресурстарды ысырап етеді, бірақ АИ саласындағы өткен ғасырдағы сәтсіз әрекеттердің нәтижелері жадта қалды, әртүрлі сараптамалық (интеллектуалды) жүйелерде қолданылды және өзгертілді, атап айтқанда, алгоритмдер (ережелер) және математикалық (логикалық) деректерді талдау және деректерді өңдеу.

Ақпарат және шешімді әдеттегі іздеу

Қарапайым кітапхана – білім қоймасы, ал баспа сөз бен графика компьютерлік технологияның қолынан әлі келген жоқ. Физика, химия, теориялық механика, дизайн, жаратылыстану тарихы, философия, жаратылыстану, ботаника, оқулықтар, монографиялар, ғалымдардың еңбектері, конференция материалдары, өңдеу жұмыстары туралы есептер және т.б. кітаптар әрқашан өзекті және сенімді.

Кітапхана - әр түрлі көздерматериалды көрсету формасы, шығу тегі, құрылымы, мазмұны, көрсету стилі және т.б.

Кітапхана: кітаптар, журналдар және басқа да баспа өнімдері
Кітапхана: кітаптар, журналдар және басқа да баспа өнімдері

Сыртынан бәрі түсіну және пайдалану үшін көрінеді (оқылатын, қолжетімді). Сіз кез келген мәселені шеше аласыз, тапсырманы дұрыс қоя аласыз, шешімді негіздей аласыз, эссе немесе курстық жұмыс жаза аласыз, дипломға материал таңдай аласыз, диссертация немесе ғылыми-аналитикалық есеп тақырыбы бойынша дереккөздерді талдай аласыз.

Кез келген ақпарат мәселесін шешуге болады. Тиісті табандылық пен шеберлікпен дәл және сенімді нәтиже алынады. Бұл тұрғыда Data Mining - бұл мүлдем басқа тәсіл.

Нәтижеден басқа, адам мақсатқа жету барысында қаралған барлық нәрсеге «белсенді сілтемелер» алады. Мәселені шешуде ол пайдаланған дереккөздерге сілтеме жасауға болады және дереккөздің бар екендігі туралы ешкім дауламайды. Бұл түпнұсқалықтың кепілі емес, бірақ бұл түпнұсқалық үшін жауапкершілік кімге «жазылудан бас тартылғанының» сенімді дәлелі. Осы тұрғыдан алғанда, Data Mining сенімділік пен "белсенді" сілтемелердің жоқтығына үлкен күмән тудырады.

Бірнеше есептерді шешу арқылы адам нәтижеге қол жеткізіп, өзінің интеллектуалдық мүмкіндіктерін көптеген «белсенді сілтемелерге» кеңейтеді. Жаңа тапсырма бұрыннан бар сілтемені «белсендендіру» болса, адам оны шешу жолын біледі: қайта ештеңе іздеудің қажеті жоқ.

"Белсенді сілтеме" - тұрақты байланыс: нақты жағдайда қалай және не істеу керек. Адам миы өзіне қызықты, пайдалы болып көрінетін нәрсені автоматты түрде есте сақтайды.немесе болашақта қажет болуы мүмкін. Көптеген жолдармен бұл подсознание деңгейінде орын алады, бірақ «белсенді сілтемемен» байланысты болуы мүмкін тапсырма пайда болғаннан кейін ол бірден санада пайда болады және ақпаратты қосымша іздеусіз шешім алынады. Data Mining әрқашан іздеу алгоритмінің қайталануы болып табылады және бұл алгоритм өзгермейді.

Үнемі іздеу: "көркем" мәселелер

Математикалық кітапхана және ондағы ақпаратты іздеу салыстырмалы түрде әлсіз тапсырма. Интегралды шешудің, матрицаны құрудың немесе екі ойша санды қосу операциясын орындаудың бір немесе басқа әдісін табу көп еңбекті қажет етеді, бірақ қарапайым. Көбісі белгілі бір тілде жазылған бірнеше кітаптарды сұрыптап, дұрыс мәтінді тауып, оны зерттеп, қажетті шешімді алу керек.

Уақыт өте келе санау таныс болады және жинақталған тәжірибе кітапхана ақпараты мен басқа да математикалық есептерді шарлауға мүмкіндік береді. Бұл сұрақтар мен жауаптардың шектеулі ақпараттық кеңістігі. Сипаттама: ақпаратты мұндай іздеу ұқсас мәселелерді шешуге арналған білімді жинақтайды. Адамның ақпаратты іздеуі оның жадында басқа мәселелердің ықтимал шешімдері туралы іздер («белсенді сілтемелер») қалдырады.

Көркем әдебиеттен «1248 жылы қаңтарда адамдар қалай өмір сүрді?» деген сұраққа жауап табыңыз. өте қиын. Дүкен сөрелерінде не болды, азық-түлік саудасы қалай ұйымдастырылды деген сауалдарға жауап беру одан да қиын. Бұл туралы қайсыбір жазушы өз романында анық және тікелей жазған болса да, бұл жазушының есімі табылса, күмән тудырады.алынған мәліметтердің сенімділігі сақталады. Сенімділік ақпараттың кез келген көлемінің маңызды сипаттамасы болып табылады. Нәтиженің жалғандығын жоққа шығаратын дереккөз, автор және дәлелдер маңызды.

Нақты жағдайдың объективті жағдайлары

Адам көреді, естиді, сезінеді. Кейбір мамандар ерекше сезімді - интуицияны жақсы біледі. Есептің қойылуы ақпаратты талап етеді, мәселені шешу процесі көбінесе мәселенің қойылымын нақтылаумен бірге жүреді. Бұл компьютерлік жүйенің ішкі жүйесіне ақпаратты тасымалдау кезінде туындайтын азырақ қиындық.

Виртуалды кеңістіктегі ақпарат
Виртуалды кеңістіктегі ақпарат

Кітапхана және жұмыстағы әріптестер шешім қабылдау процесінің жанама қатысушылары болып табылады. Кітаптың (дереккөздің) дизайны, мәтіндегі графика, ақпаратты тақырыптарға бөлу ерекшеліктері, фразалар бойынша түсіндірмелер, пәндік көрсеткіш, бастапқы дереккөздердің тізімі - бәрі адамда шешу процесіне жанама әсер ететін ассоциацияларды тудырады. мәселе.

Мәселені шешу уақыты мен орны маңызды. Адамның реттелгені сонша, ол мәселені шешу барысында оны қоршаған барлық нәрсеге еріксіз назар аударады. Бұл алаңдатуы мүмкін немесе ынталандыруы мүмкін. Data Mining ешқашан "түсінбейді".

Виртуалды кеңістіктегі ақпарат

Адамды әрқашан оқиға, құбылыс, объект туралы сенімді ақпарат, мәселені шешу алгоритмі ғана қызықтырды. Адам әрқашан қалаған мақсатына қалай жетуге болатынын дәл елестетеді.

Компьютер мен ақпараттық жүйелердің пайда болуы адамның өмірін жеңілдету керек еді, бірақ бәрі қиындай түсті. Ақпарат компьютерлік жүйелердің ішектеріне көшіп, көзден ғайып болды. Қажетті деректерді таңдау үшін сізге дұрыс алгоритм жасау немесе дерекқорға сұрауды құрастыру қажет.

Ақпараттық жүйенің ішіндегі деректер
Ақпараттық жүйенің ішіндегі деректер

Сұрақ дұрыс болуы керек. Сонда ғана жауап ала аласыз. Бірақ оның шынайылығына күмән бар. Осы тұрғыдан алғанда, Data Mining шынымен «қазбалар», бұл «ақпарат алу». Бұл сөз тіркесін осылай аудару сәнге айналған. Орыс нұсқасы - деректерді өңдеу немесе деректерді өңдеу технологиясы.

Беделді мамандардың еңбектерінде Data Mining міндеттері келесідей көрсетілген:

  • жіктеу;
  • кластерлеу;
  • ассоциация;
  • тізбегі;
  • болжау.

Адамды ақпаратты қолмен өңдеуге бағыттайтын тәжірибе тұрғысынан алғанда, бұл ұстанымдардың барлығы дау туғызады. Кез келген жағдайда адам ақпаратты автоматты түрде өңдейді және деректерді жіктеу, объектілердің тақырыптық топтарын құрастыру (кластерлеу), уақытша үлгілерді іздеу (тізбегі) немесе нәтижені болжау туралы ойламайды.

Адам санасындағы осы позициялардың барлығы белсенді біліммен ұсынылған, олар көбірек позицияларды қамтиды және бастапқы деректерді өңдеу логикасын динамикалық түрде пайдаланады. Адамның сана-сезімі, әсіресе ол белгілі бір білім саласының маманы болған кезде маңызды рөл атқарады.

Мысалы: компьютерлік жабдықты көтерме сату

Тапсырма қарапайым. Бірнеше барондаған компьютерлік техника мен перифериялық құрылғыларды жеткізушілер. Олардың әрқайсысында xls пішіміндегі бағалар тізімі бар (Excel файлы), оны жеткізушінің ресми сайтынан жүктеп алуға болады. Excel файлдарын оқитын, оларды дерекқор кестелеріне түрлендіретін және тұтынушыларға қажетті өнімдерді ең төмен бағамен таңдауға мүмкіндік беретін веб-ресурс жасау қажет.

Проблемалар бірден пайда болады. Әрбір жеткізуші xls файлының құрылымы мен мазмұнының өз нұсқасын ұсынады. Файлды жеткізушінің веб-сайтынан жүктеп алу, электронды пошта арқылы тапсырыс беру немесе жеке кабинет арқылы жүктеу сілтемесін алу, яғни жеткізушіде ресми тіркелу арқылы алуға болады.

Виртуалды компьютерлер дүкені
Виртуалды компьютерлер дүкені

Мәселенің шешімі (ең басында) технологиялық тұрғыдан қарапайым. Файлдарды жүктеу (бастапқы деректер), әрбір жеткізуші үшін файлды тану алгоритмі жазылады және деректер бастапқы деректердің бір үлкен кестесіне орналастырылады. Барлық деректер алынғаннан кейін, жаңа деректерді үздіксіз ауыстыру механизмі (күнделікті, апта сайын немесе өзгерген кезде) орнатылғаннан кейін:

  • ассортиментті өзгерту;
  • баға өзгерістері;
  • қоймадағы санын нақтылау;
  • кепілдік шарттарын, спецификацияларды және т.б. түзету

Нағыз мәселелер осыдан басталады. Мәселе мынада, жеткізуші мынаны жаза алады:

  • ноутбук Acer;
  • Notbook Asus;
  • Dell ноутбугы.

Біз бір өнім туралы айтып отырмыз, бірақ әртүрлі өндірушілерден. Ноутбук=ноутбукты қалай сәйкестендіруге болады немесе Acer, Asus және Dell өнімдерін өнім желісінен қалай жоюға болады?

үшінадам проблема емес, бірақ алгоритм Acer, Asus, Dell, Samsung, LG, HP, Sony сауда белгілері немесе жеткізушілер екенін қалай «түсінеді»? "Принтер" мен принтерді, "сканер" мен "MFP", "көшірме" және "MFP", "құлақаспаптарды" "гарнитурамен", "аксессуарларды" "аксессуарлармен" қалай сәйкестендіруге болады?

Бастапқы деректерге (бастапқы файлдар) негізделген санаттар ағашын құру барлығын автоматты түрде орнату қажет болғанда мәселе болып табылады.

Деректерді іріктеу: «жаңа құйылған» қазбалар

Компьютерлік техниканы жеткізушілердің мәліметтер базасын құру міндеті шешілді. Санаттар ағашы жасалды, барлық жеткізушілердің ұсыныстары бар ортақ кесте жұмыс істейді.

Мына мысал контекстіндегі әдеттегі деректерді іздеу тапсырмалары:

  • ең төмен бағамен өнімді табыңыз;
  • жеткізу құны мен бағасы ең төмен тауарды таңдаңыз;
  • өнімді талдау: критерийлер бойынша сипаттамалар мен бағалар.

Бірнеше ондаған жеткізушілердің деректерін пайдаланатын менеджердің нақты жұмысында бұл тапсырмалардың көптеген нұсқалары және одан да көп нақты жағдайлар болады.

Мысалы, ASUS VivoBook S15 сататын «A» жеткізушісі бар: алдын ала төлем, ақшаны нақты алғаннан кейін 5 күннен кейін жеткізу. Дәл сол үлгідегі өнімнің «В» жеткізушісі бар: төлемді алған кезде, бір күн ішінде келісім-шарт жасалғаннан кейін жеткізу, бағасы бір жарым есе жоғары.

Data Mining басталады - "қазбалар". Бейнелі өрнектер: «қазбалар» немесе «деректерді өндіру» синонимдер. Бұл шешім қабылдауға себеп табу туралы.

«A» және «B» жеткізушілерінің жеткізу тарихы бар. Бағабірінші жағдайда алдын ала төлем екінші жағдайда түбіртек бойынша төлемге қарсы, екінші жағдайда жеткізудің сәтсіздігі 65% жоғары екенін ескере отырып. Клиенттен айыппұл салу қаупі жоғары/төмен. Қалай және нені анықтау және қандай шешім қабылдау керек?

Екінші жағынан: дерекқорды бағдарламашы мен менеджер жасаған. Бағдарламашы мен менеджер өзгерген болса, деректер қорының ағымдағы күйін қалай анықтауға және оны дұрыс пайдалануды үйренуге болады? Сондай-ақ деректерді өндіруді орындауға тура келеді. Data Mining қандай деректердің зерттелетініне мән бермейтін әртүрлі математикалық және логикалық әдістерді ұсынады. Бұл кейбір жағдайларда дұрыс шешімді береді, бірақ барлығында емес.

Виртуалдылыққа көшу және мағына табу

Деректерді іздеу әдістері ақпарат дерекқорға жазылғаннан кейін және «көру өрісінен» жойылғаннан кейін мағыналы болады. Компьютерлік техниканың саудасы қызықты міндет, бірақ бұл жай ғана бизнес. Оның компанияда қаншалықты дұрыс ұйымдастырылғаны оның табыстылығына байланысты.

Планетадағы климаттық өзгерістер және белгілі бір қаладағы ауа-райы тек кәсіби климат сарапшылары емес, барлығын қызықтырады. Мыңдаған сенсорлар желді, ылғалдылықты, қысымды, Жердің жасанды серіктерінен алынған деректерді алады және деректердің жылдар мен ғасырлар тарихы бар.

Ауа-райы деректері жұмысқа қолшатыр әкелу немесе әкелмеу туралы шешім қабылдау ғана емес. Data Mining технологиялары – бұл әуе лайнерінің қауіпсіз ұшуы, тас жолдың тұрақты жұмысы және мұнай өнімдерін теңіз арқылы сенімді жеткізу.

Ақпаратқа "шикі" деректер жіберіледіжүйесі. Data Mining міндеттері оларды кестелердің жүйеленген жүйесіне айналдыру, сілтемелер орнату, біртекті деректер топтарын бөлектеу және үлгілерді анықтау болып табылады.

Климат, ауа райы және бастапқы деректер
Климат, ауа райы және бастапқы деректер

Математикалық және логикалық әдістер OLAP (On-line Analytical Processing) сандық аналитикасы пайда болған кезден бастап өзінің практикалық екендігін көрсетті. Мұнда технология компьютерлік техниканы сату мысалындағыдай мағынаны жоғалтпай, табуға мүмкіндік береді.

Сонымен қатар, жаһандық тапсырмаларда:

  • трансұлттық бизнес;
  • әуе көлігін басқару;
  • жер қойнауын немесе әлеуметтік мәселелерді зерттеу (мемлекеттік деңгейде);
  • дәрілердің тірі ағзаға әсерін зерттеу;
  • өнеркәсіптік кәсіпорын құрылысының салдарын болжау, т.б.

Data Mine технологиялары және «мағынасыз» деректерді объективті шешім қабылдауға мүмкіндік беретін нақты деректерге айналдыру - жалғыз нұсқа.

Адамның мүмкіндіктері шикі ақпарат көп болған жерде аяқталады. Деректерді іздеу жүйелері ақпаратты көру, түсіну және сезіну қажет болған жағдайда пайдалылығын жоғалтады.

Функциялардың ақылға қонымды таралуы және объективтілік

Адам мен компьютер бірін-бірі толықтыруы керек - бұл аксиома. Диссертация жазу адам үшін басымдық, ал ақпараттық жүйе – көмекші. Мұнда Data Mining технологиясының деректері эвристика, ережелер, алгоритмдер болып табылады.

Апталық ауа райы болжамын дайындау ақпараттық жүйенің басымдығы болып табылады. Адам деректерді басқарады, бірақ өз шешімдерін жүйенің есептеулерінің нәтижелеріне негіздейді. Ол Data Mining әдістерін, мамандардың деректер классификациясын, алгоритмдерді қолдануды қолмен басқаруды, өткен деректерді автоматты түрде салыстыруды, математикалық болжауды және ақпараттық жүйені қолданумен айналысатын нақты адамдардың көптеген білімдері мен дағдыларын біріктіреді.

Адам және компьютер
Адам және компьютер

Ықтималдықтар теориясы мен математикалық статистика білімнің ең «сүйікті» және түсінікті саласы емес. Көптеген мамандар олардан өте алыс, бірақ осы салаларда жасалған әдістер 100% дерлік дұрыс нәтиже береді. Data Mining идеяларына, әдістеріне және алгоритмдеріне негізделген жүйелерді қолдану арқылы шешімдерді объективті және сенімді алуға болады. Әйтпесе, шешім табу мүмкін емес.

Перғауындар мен өткен ғасырлардағы құпиялар

Тарих мерзімді түрде қайта жазылды:

  • мемлекеттер - өздерінің стратегиялық мүдделері үшін;
  • беделді ғалымдар - субъективті сенімдері үшін.

Ненің рас, ненің өтірік екенін айыру қиын. Data Mining қолдану бұл мәселені шешуге мүмкіндік береді. Мысалы, пирамидаларды салу технологиясын әр ғасырда жылнамашылар айтып, ғалымдар зерттеген. Интернетте барлық материалдар жоқ, мұнда бәрі бірегей емес және көптеген деректер болмауы мүмкін:

  • сипатталған уақыт нүктесі;
  • сипаттаманы жазу уақыты;
  • сипаттама негізделген күндер;
  • автор(лар), пікірлер (сілтемелер) ескерілді;
  • объективтілікті растау.

Бкітапханалардан, храмдардан және «күтпеген жерден» сіз әртүрлі ғасырлардағы қолжазбалар мен өткеннің материалдық дәлелдерін таба аласыз.

Қызықты мақсат: бәрін біріктіріп, «шындықты» ашу. Мәселенің ерекшелігі: перғауындар өмір сүрген кездегі, бұл мәселені көптеген ғалымдар заманауи әдістермен шешкен қазіргі ғасырға дейінгі жылнамашының бірінші сипаттамасынан ақпаратты алуға болады.

Data Mining пайдаланудың негіздемесі: қол еңбегі мүмкін емес. Мөлшер тым көп:

  • ақпарат көздері;
  • көрсету тілдері;
  • бір нәрсені әртүрлі тәсілдермен сипаттайтын зерттеушілер;
  • күндер, оқиғалар және шарттар;
  • терминдік корреляция мәселелері;
  • уақыт бойынша деректер топтары бойынша статистиканы талдау әр түрлі болуы мүмкін, т.б.

Өткен ғасырдың аяғында, жасанды интеллект идеясының кезекті фиаскосы қарапайым адамға ғана емес, сонымен қатар күрделі маманға да түсінікті болған кезде: «тұлғаны қайта құру» идеясы пайда болды.

Мысалы, Пушкин, Гоголь, Чехов еңбектері бойынша белгілі бір ережелер жүйесі, мінез-құлық логикасы қалыптасады және белгілі бір сұрақтарға адам жауап беретіндей ақпараттық жүйе жасалады: Пушкин, Гоголь немесе Чехов. Теориялық тұрғыдан мұндай тапсырма қызықты, бірақ іс жүзінде оны жүзеге асыру өте қиын.

Алайда мұндай тапсырма идеясы өте практикалық идеяны ұсынады: «ақпараттық іздеуді қалай құру керек». Интернет - көптеген дамып келе жатқан ресурстар, үлкен деректер базасы және бұл Data Mining-ті адаммен бірге қолданудың тамаша мүмкіндігі.бірлескен даму форматындағы логика.

Машина мен адам бірге
Машина мен адам бірге

Машина мен адам жұптастырылған – бұл «ақпараттық археология» саласындағы тамаша тапсырма және сөзсіз жетістік, деректер мен нәтижелердегі жоғары сапалы қазбалар, бұл бірдеңені күмән тудыратын, бірақ сөзсіз сізге мүмкіндік береді. жаңа білім алып, қоғамда сұранысқа ие болады.

Ұсынылған: