Ақпараттық энтропия: ұғымның, қасиеттердің, жүйенің анықтамасы

Мазмұны:

Ақпараттық энтропия: ұғымның, қасиеттердің, жүйенің анықтамасы
Ақпараттық энтропия: ұғымның, қасиеттердің, жүйенің анықтамасы
Anonim

Ақпараттық энтропия түсінігі мән үшін ықтималдық массасы функциясының теріс логарифмін білдіреді. Осылайша, деректер көзінің ықтималдығы төмен мәнге ие болған кезде (яғни, ықтималдығы төмен оқиға орын алғанда), бастапқы деректердің ықтималдығы жоғары мәнге ие болғанға қарағанда, оқиға көбірек «ақпарат» («тосын») тасымалдайды..

Осылайша анықталған әрбір оқиға арқылы берілетін ақпарат көлемі күтілетін мәні ақпараттық энтропия болатын кездейсоқ шамаға айналады. Жалпы, энтропия тәртіпсіздікті немесе белгісіздікті білдіреді және оның ақпарат теориясында қолданылатын анықтамасы статистикалық термодинамикада қолданылатын анықтамаға тікелей ұқсас. IE түсінігін Клод Шеннон 1948 жылы «Коммуникацияның математикалық теориясы» атты мақаласында енгізді. «Шеннонның ақпараттық энтропиясы» термині осы жерден шыққан.

Ақпараттық энтропия графигі
Ақпараттық энтропия графигі

Анықтама және жүйе

Деректерді тасымалдау жүйесінің негізгі моделі үш элементтен тұрады: деректер көзі, байланыс арнасы және қабылдағыш,және, Шеннон айтқандай, «байланыстың негізгі мәселесі» қабылдағыш арна арқылы алатын сигнал негізінде қайнар көзден қандай деректерді жасағанын анықтай алуы болып табылады. Энтропия қысылған бастапқы деректердің ең қысқа орташа жоғалтпай кодтау ұзындығына абсолютті шектеуді қамтамасыз етеді. Егер көздің энтропиясы байланыс арнасының өткізу қабілетінен аз болса, ол жасаған деректер қабылдағышқа сенімді түрде берілуі мүмкін (кем дегенде теориялық тұрғыдан, мүмкін деректерді беру үшін қажетті жүйенің күрделілігі сияқты кейбір практикалық ойларды елемеу) және деректерді жіберуге кететін уақыт мөлшері).

Ақпараттық энтропия әдетте биттермен (балама «шаннондар» деп аталады) немесе кейде «табиғи бірліктермен» (nats) немесе ондық таңбалармен («dits», «bans» немесе «hartleys» деп аталады) өлшенеді. Өлшем бірлігі энтропияны анықтау үшін қолданылатын логарифм негізіне байланысты.

Ақпарат сапасы
Ақпарат сапасы

Қасиеттер және логарифм

Тәуелсіз көздер үшін қосымша болып табылатындықтан, журнал ықтималдылығының таралуы энтропия өлшемі ретінде пайдалы. Мысалы, монетаның әділ ставкасының энтропиясы 1 бит, ал m-томдарының энтропиясы m бит. Қарапайым бейнелеуде log2(n) биттері n мәндерінің бірін қабылдай алатын айнымалыны көрсету үшін қажет, егер n 2 дәрежесі болса. Егер бұл мәндер бірдей ықтимал болса, энтропия (битпен) болады. сол санға тең. Егер мәндердің біреуінің ықтималдығы басқаларына қарағанда жоғары болса, оның болуын байқаумағынасы орын алады, егер қандай да бір жалпылама нәтиже пайда болғанға қарағанда аз ақпараттанады. Керісінше, сирек оқиғалар қосымша бақылау ақпаратын береді.

Ықтималдығы аз оқиғаларды бақылау сирек болатындықтан, біркелкі емес таратылған деректерден алынған энтропияның (орташа ақпарат деп есептелетін) әрқашан log2(n) мәнінен кем немесе оған тең болатын ортақ ештеңе жоқ. Бір нәтиже анықталғанда энтропия нөлге тең болады.

Шэннонның ақпараттық энтропиясы негізгі деректердің ықтималдылық таралуы белгілі болған кезде бұл ойларды сандық түрде анықтайды. Бақыланатын оқиғалардың мағынасы (хабарламалардың мағынасы) энтропияны анықтауда маңызды емес. Соңғысы белгілі бір оқиғаны көру ықтималдығын ғана ескереді, сондықтан ол инкапсуляциялайтын ақпарат оқиғалардың мәні туралы емес, мүмкіндіктердің негізгі таралуы туралы деректер болып табылады. Ақпараттық энтропияның қасиеттері жоғарыда сипатталғандай қалады.

Шеннон формуласы
Шеннон формуласы

Ақпарат теориясы

Ақпарат теориясының негізгі идеясы - адам қандай да бір тақырып туралы неғұрлым көп білсе, ол туралы соғұрлым аз ақпарат ала алады. Оқиғаның ықтималдығы өте жоғары болса, оның пайда болуы таңқаларлық емес, сондықтан аз ғана жаңа ақпарат береді. Керісінше, егер оқиға мүмкін емес болса, оқиға болғаны әлдеқайда ақпаратты болды. Демек, пайдалы жүктеме оқиғаның кері ықтималдығының өсу функциясы болып табылады (1 / п).

Енді көбірек оқиғалар орын алса, энтропияоқиғалардың бірі орын алған жағдайда күтуге болатын орташа ақпарат мазмұнын өлшейді. Бұл монета лақтыруға қарағанда матрицаны құюда энтропия көп екенін білдіреді, себебі әрбір кристалдық нәтиженің ықтималдығы әрбір тиын нәтижесінен төмен.

Суреттегі энтропия
Суреттегі энтропия

Мүмкіндіктер

Осылайша, энтропия күйдің болжау мүмкін еместігінің өлшемі немесе оның орташа ақпарат мазмұны. Осы терминдерді интуитивті түсіну үшін саяси сауалнаманың мысалын қарастырыңыз. Әдетте мұндай сауалнамалар, мысалы, сайлау нәтижелері әлі белгісіз болғандықтан болады.

Басқаша айтқанда, сауалнаманың нәтижелері салыстырмалы түрде болжау мүмкін емес және іс жүзінде оны жүргізу және деректерді зерттеу кейбір жаңа ақпаратты береді; олар сауалнама нәтижелерінің алдыңғы энтропиясы үлкен екенін айтудың әртүрлі тәсілдері.

Енді бір сауалнама біріншіден кейін көп ұзамай екінші рет орындалатын жағдайды қарастырыңыз. Бірінші сауалнаманың нәтижесі бұрыннан белгілі болғандықтан, екінші сауалнаманың нәтижелерін жақсы болжауға болады және нәтижелерде жаңа ақпарат көп болмауы керек; бұл жағдайда екінші сауалнама нәтижесінің априорлық энтропиясы біріншімен салыстырғанда аз болады.

энтропия деңгейлері
энтропия деңгейлері

Монета лақтыру

Енді тиынды аудару мысалын қарастырайық. Құйрықтардың ықтималдығы бастардың ықтималдығымен бірдей деп есептесек, монета лақтыру энтропиясы өте жоғары, өйткені бұл жүйенің ақпараттық энтропиясының ерекше мысалы болып табылады.

Бұл себебімонетаның нәтижесі уақытынан бұрын лақтырылғанын болжау мүмкін емес: егер таңдау керек болса, біз жасай алатын ең жақсы нәрсе - монета құйрықтарға түсетінін болжау және бұл болжау ықтималдығымен дұрыс болады 1 / 2. Мұндай тиынды лақтыру бір бит энтропияға ие, өйткені бірдей ықтималдықпен болатын екі ықтимал нәтиже бар және нақты нәтижені зерттеу бір бит ақпаратты қамтиды.

Керісінше, монетаның екі жағын құйрығымен және басы жоқ аударғанда энтропия нөлге тең, өйткені монета әрқашан осы белгіге түседі және нәтижені тамаша болжауға болады.

Ақпарат энтропиясы
Ақпарат энтропиясы

Қорытынды

Сығу схемасы жоғалтпайтын болса, яғни қысылған хабарламаны ашу арқылы барлық бастапқы хабарламаны әрқашан қалпына келтіруге болатын болса, сығылған хабардың ақпарат көлемі түпнұсқамен бірдей болады, бірақ аз таңбалармен беріледі. Яғни, ол әр таңбаға көбірек ақпарат немесе жоғары энтропияға ие. Бұл қысылған хабардың артық саны аз екенін білдіреді.

Дөрекі айтқанда, Шеннонның бастапқы кодты кодтау теоремасы шығынсыз қысу схемасы хабарларды бір хабар битінде бір биттен көп ақпаратқа ие болу үшін орташа есеппен азайта алмайтынын, бірақ бір бит ақпараттан аз кез келген мәнге қол жеткізуге болатынын айтады. сәйкес кодтау схемасын қолданатын хабарламалар. Хабардың ұзындығын битпен көбейткен энтропиясы оның жалпы ақпарат көлемінің өлшемі болып табылады.

Ұсынылған: