Ang Malalim na Algorithm ng Pag-aaral ng MIT ay Nakahanap ng Nakatago na Mga Senyas ng Babala sa Mga Sukat na Kinolekta Sa Paglipas ng Oras

Ang mga mananaliksik ng MIT ay nakabuo ng isang malalim na algorithm sa pag-aaral upang makita ang mga anomalya ng data sa serye ng oras. Kredito: MIT News

Ang isang bagong malalim na algorithm sa pag-aaral ay maaaring magbigay ng isang babala kung ang mga system – mula sa mga satellite hanggang sa mga sentro ng data – ay nabigo.

Kung responsable ka para sa isang multimilyong-dolyar na satellite na lumipad sa kalawakan sa libu-libong mga milya bawat oras, nais mong matiyak na ito ay tumatakbo nang maayos. At makakatulong ang serye ng oras.

Ang isang serye ng oras ay simpleng isang tala ng mga sukat na ginawa nang paulit-ulit sa paglipas ng panahon. Maaari itong subaybayan ang mga pangmatagalang trend at panandaliang sistema ng kidlat. Kasama sa mga halimbawa ang kasumpa-sumpa sa bagong Covid-19 na pang-araw-araw na curve ng kaso at ang Keeling curve, na sumusubaybay sa mga konsentrasyon ng carbon dioxide sa kapaligiran mula pa noong 1958. Sa malaking panahon ng data, “ang mga serye ng oras ay nagtitipon saanman, mula sa mga satellite hanggang sa mga turbine,” Kalyan Veeromacheni. “Ang buong makina na ito ay may mga sensor na kinokolekta ang mga serye ng oras tungkol sa kung paano sila gumana.”

Ngunit ang pagtatasa ng mga serye ng oras at ang notasyon sa kanila ng mga maanomalyang mga puntos ng data ay maaaring maging mahirap. Maaaring maingay ang data. Kung ang satellite operator ay nakakakita ng isang bilang ng mga pagbabasa ng mataas na temperatura, paano nila malalaman ang hindi nakakapinsalang oscillation o isang senyales na malapit nang uminit ang satellite?

Ito ang problema ni Veeramachaneni, na namumuno sa pangkat na “Data sa AI” ЗInaasahan na malulutas ng information lab at mga system ng pagpapasya. Ang grupo ay nakabuo ng isang bagong malalim na pamamaraan ng pag-aaral na tumutukoy sa mga anomalya sa data ng serye ng oras. Ang kanilang diskarte, tinaguriang TadGAN, ay nagtagumpay sa mga paraan ng pakikipagkumpitensya at maaaring makatulong sa mga operator na makita at tumugon sa mga pangunahing pagbabago sa isang hanay ng mga mahahalagang sistema, mula sa isang satellite na lumilipad sa kalawakan hanggang sa isang computer server farm buzzing sa basement.

Ipapakita ang pag-aaral sa kumperensya sa IEEE BigData sa buwang ito. Kasama sa mga may-akda ng artikulo ang mga kasapi ng pangkat na “Data to AI” Veemamachani, postdoc Dongyu Liu, bumibisita sa mag-aaral na mananaliksik na si Alexander Geiger at undergraduate na si Sarah Alnegheimish, pati na rin si Alfredo Questo-Infante mula sa Spanish University of Ray Juan Carlos.

Mataas na pusta

Para sa isang komplikadong sistema bilang isang satellite, dapat na awtomatiko ang pagtatasa ng serye ng oras. Ang kumpanya ng satellite na SES, na gumagana sa Veeramachaneni, ay tumatanggap ng maraming mga stream mula sa mga satellite ng komunikasyon – mga 30,000 natatanging mga parameter bawat spacecraft. Ang mga operator ng tao sa SES control room ay maaari lamang subaybayan ang bahagi ng mga seryeng ito kapag na-flash nila ang screen. Kung hindi man, umaasa sila sa mga alarma upang ipahiwatig ang mga halagang wala sa saklaw. “Kaya sinabi nila sa amin, ‘Maaari kang gumawa ng mas mahusay? “, – sabi ni Veeramachani. Nais ng kumpanya ang kanyang koponan na matuto nang malalim upang pag-aralan ang lahat ng mga serye ng oras at tandaan ang anumang hindi pangkaraniwang pag-uugali.

Ang mga pusta sa kahilingang ito ay mataas: kung ang malalim na algorithm sa pag-aaral ay hindi maaaring makita ang anomalya, maaaring makaligtaan ang koponan ng pagkakataon na maitama ang sitwasyon. Ngunit kung makakakuha ito ng alarma sa tuwing mayroong maingay na item ng data, sayangin ng mga tagasuri ang kanilang oras na patuloy na suriin ang algorithm na sinisigawan ng lobo. “Kaya mayroon kaming dalawang problemang ito,” sabi ni Liu. “At kailangan nating balansehin ang mga ito.”

Sa halip na maabot ang balanse para lamang sa mga satellite system, ang koponan ay naghahangad na lumikha ng isang mas pangkalahatang batayan para sa pagtuklas ng mga anomalya na maaaring mailapat sa iba’t ibang mga industriya. Bumaling sila sa mga malalim na sistema ng pag-aaral na tinatawag na generative na mga network ng kumpetisyon (GAN), na kadalasang ginagamit para sa pagtatasa ng imahe.

Ang isang GAN ay binubuo ng isang pares ng mga neural network. Ang isang network, ang “generator,” ay lumilikha ng pekeng mga imahe, at ang iba pang network, ang “diskriminasyon,” ay nagpoproseso ng mga imahe at sinubukang tukuyin kung ang mga ito ay totoo o pekeng, na nakuha ng generator. Para sa maraming pag-ikot ng prosesong ito, natututo ang generator mula sa feedback ng diskriminasyon at nakalikha ng mga hyper-realistic na pekeng peke. Ang pamamaraan ay itinuturing na “hindi kontrolado” na pag-aaral, sapagkat hindi ito nangangailangan ng isang paunang natukoy na hanay ng data kung aling mga imahe ang minarkahan ng mga object. (Ang mga malalaking may label na mga database ay maaaring mahirap hanapin.)

Inangkop ng koponan ang diskarte ng GAN na ito sa data ng serye ng oras. “Sa pamamagitan ng diskarteng ito sa pag-aaral, maaaring maunawaan ng aming modelo kung aling mga puntos ng data ang normal at alin ang hindi normal,” sabi ni Liu. Ginagawa ito sa pamamagitan ng pag-check para sa mga pagkakaiba – posibleng mga anomalya – sa pagitan ng serye ng real time at ng pekeng serye ng oras na nilikha ng GAN. Ngunit natagpuan ng koponan na ang GAN lamang ay hindi sapat upang makita ang mga anomalya sa serye ng oras dahil hindi nila matukoy ang totoong segment ng serye ng oras kung saan ihahambing ang mga peke. Bilang isang resulta, “kung gagamitin mo lamang ang GAN, lilikha ka ng maraming maling positibo,” sabi ni Veeramachani.

Upang mabantayan laban sa maling mga positibo, ang koponan ay nagdagdag ng kanyang GAN algorithm, na tinatawag na isang autocoder – isa pang pamamaraan ng malalim na pag-aaral nang walang kontrol. Sa kaibahan sa hilig ng GAN sa pag-iyak ng lobo, ang mga autocoder ay mas malamang na makaligtaan ang totoong mga anomalya. Ito ay dahil ang mga autocoder ay may posibilidad na makunan ng masyadong maraming mga pattern sa serye ng oras, kung minsan ay binibigyang kahulugan ang aktwal na anomalya bilang isang hindi nakakapinsalang pagbabagu-bago – isang problema na tinatawag na “muling kagamitan”. Sa pamamagitan ng pagsasama ng GAN sa isang autocoder, lumikha ang mga mananaliksik ng isang anomalya na sistema ng pagtuklas na nakamit ang perpektong balanse: Ang TadGAN ay mapagbantay ngunit hindi nagdudulot ng napakaraming maling mga alarma.

Pagkakalantad sa mga pagsubok sa serye ng oras

Dagdag pa, tinalo ng TadGAN ang kumpetisyon. Ang tradisyunal na diskarte sa pagtataya sa serye ng oras, na tinawag na ARIMA, ay binuo noong 1970s. “Nais naming makita kung gaano kami kalayo at kung ang mga malalim na modelo ng pag-aaral ay maaaring mapabuti ang klasikong pamamaraang ito,” sabi ni Alnegheimis.

Ang koponan ay nagsagawa ng mga pagsusulit sa pagtuklas ng anomalya sa 11 mga dataset, na magkokontrahan sa ARIMA laban sa TadGAN at pitong iba pang mga pamamaraan, kabilang ang ilang binuo ng mga kumpanya tulad ng Amazon at Microsoft. Nauna si TadGAN sa ARIMA sa pagtuklas ng mga anomalya para sa walo sa 11 na mga dataset. Ang pangalawang pinakamahusay na algorithm na binuo ng Amazon ay pinalo ang ARIMA para sa anim na mga dataset lamang.

Binigyang diin ng Alnegheimish na ang kanilang layunin ay hindi lamang upang makabuo ng isang unang-klase na algorithm para sa pagtuklas ng mga anomalya, ngunit upang gawin itong malawak na kapaki-pakinabang. “Alam nating lahat na ang AI ay naghihirap mula sa mga problema sa reproducibility,” sabi niya. Ginawa ng koponan ang TadGAN code na malayang magagamit, at pana-panahong naglalabas sila ng mga pag-update. Bilang karagdagan, gumawa sila ng isang benchmarking system para sa mga gumagamit upang ihambing ang pagganap ng iba’t ibang mga modelo ng pagtuklas ng anomalya.

“Ang pagsusulit na ito ay bukas na mapagkukunan, kaya maaaring subukan ito ng isang tao. Maaari silang magdagdag ng kanilang sariling modelo kung nais nila, “sabi ni Alnegheimisch. “Nais naming palambutin ang mantsa sa paligid ng AI na hindi maaaring kopyahin. Nais naming tiyakin na ang lahat ay maayos. “

Inaasahan ni Veeramachaneni na isang araw ay maglilingkod ang TadGAN sa iba’t ibang mga industriya, hindi lamang mga kumpanya ng satellite. Halimbawa, maaari itong magamit upang masubaybayan ang pagganap ng mga aplikasyon ng computer na naging sentro ng modernong ekonomiya. “Mayroon akong 30 mga programa upang patakbuhin ang lab. Pagsukat, kahinaan, Github – pinangalanan mo ito, mayroon ako, ”sabi niya. “At inaasahan kong lahat sila ay gumagana nang maayos at magpakailanman.” Ang parehong napupunta para sa milyon-milyong mga gumagamit sa buong mundo.

Matutulungan ng TadGAN ang mga kumpanya tulad ng pag-monitor ng mga signal ng serye ng oras ng Zoom sa data center nito – tulad ng paggamit ng CPU o temperatura – upang maiwasan ang mga pagkawala ng serbisyo na maaaring magbanta sa pagbabahagi ng merkado ng kumpanya. Sa hinaharap, plano ng koponan na isama ang TadGAN sa interface ng gumagamit upang makatulong na maihatid ang pagtatasa ng modernong serye ng oras sa mga nangangailangan nito.

Tulong: “TadGAN: Pagtuklas ng mga anomalya sa serye ng oras na gumagamit ng mga pangkalahatang network ng kompetisyon” nina Alexander Geiger, Dongyu Liu, Sarah Alnegheimisch, Alfredo Questo-Infante at Hookah Veeramachaneni, Nobyembre 14, 2020, Computer Science> Learning ng Machine.
arXiv: 2009.07769

Ang pag-aaral na ito ay pinondohan at nakumpleto sa pakikipagtulungan sa SES.

Related articles

Comments

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Share article

Latest articles

“Virtual Pag-deploy” – Nabasa ng mga siyentista ang isang 300-taong-gulang na selyadong makasaysayang liham nang hindi ito binubuksan

Animasyon ng paglawak ng computer ng selyadong letrang DB-1538. Sa aming papel, inilalarawan namin kung paano ginamit ang "virtual na pag-deploy" upang basahin...

“Hindi pa nagagawang” Natuklasan ang Bagong Bersyon ng Symbiosis

Ang endosymbiont-enhancing endosymbiont ay nagpapalakas sa unicellular eukaryotic host na sumipsip ng nitrate, na nagpapahiwatig na ang unicellular eukaryotes ay maaaring makatanggap ng endosymbionts...

Pagdidisenyo ng isang interface ng hangganan sa pagitan ng 2D at 3D na mga materyales

May-akda David L. Chandler, Massachusetts Institute of Technology Marso 2, 2021 Ang mga larawang ito ng "mga isla" ng mga atomo ng ginto na idineposito sa...

Bakit magkakaiba ang komposisyon ng kemikal ng solar na enerhiya

Linn Noong Agosto 21, 2017, sa panahon ng kabuuang solar eclipse, ang mga sinag ng araw ay lumitaw na puti. Mula kay...

Natagpuan ng mga Mananaliksik ang Taba ng Tiyan Laban sa Pantas na Pag-aayuno – “Ang Lokasyon ay Gumagawa ng Malaking Pagkakaiba”

Ipinakita ng mga pag-aaral sa daga ang mga sanhi ng lokasyon ng taba para sa panandaliang pag-aayuno. Sa isang pag-aaral sa mouse, inanunsyo ng mga...

Newsletter

Subscribe to stay updated.