Detecció d'anomalies

En l'anàlisi de dades, la detecció d'anomalies (també anomenada detecció de novetats) s'entén generalment com la identificació d'elements, esdeveniments o observacions rars que es desvien significativament de la majoria de les dades i no s'ajusten a un criteri ben definit. noció de comportament normal.^[1] Aquests exemples poden despertar sospites de ser generats per un mecanisme diferent, ^[2] o semblar inconsistents amb la resta d'aquest conjunt de dades.^[3]

La detecció d'anomalies s'aplica a molts dominis, com ara la ciberseguretat, la medicina, la visió artificial, l'estadística, la neurociència, l'aplicació de la llei i el frau financer, per citar només alguns. Inicialment es van cercar anomalies per obtenir un rebuig o omissió clar de les dades per ajudar a l'anàlisi estadística, per exemple, per calcular la mitjana o la desviació estàndard. També es van eliminar per a millors prediccions de models com ara la regressió lineal i, més recentment, la seva eliminació ajuda al rendiment dels algorismes d'aprenentatge automàtic. No obstant això, en moltes aplicacions les anomalies en si mateixes són d'interès i són les observacions més desitjades en tot el conjunt de dades, que cal identificar i separar-se del soroll o dels valors atípics irrellevants.

Existeixen tres grans categories de tècniques de detecció d'anomalies.^[4] Les tècniques de detecció d'anomalies supervisades requereixen un conjunt de dades que s'ha etiquetat com a "normal" i "anormal" i implica la formació d'un classificador. Tanmateix, aquest enfocament rarament s'utilitza en la detecció d'anomalies a causa de la indisponibilitat general de les dades etiquetades i la naturalesa desequilibrada inherent de les classes. Les tècniques de detecció d'anomalies semi-supervisades suposen que una part de les dades està etiquetada. Aquesta pot ser qualsevol combinació de dades normals o anòmales, però la majoria de les vegades les tècniques construeixen un model que representa el comportament normal a partir d'un conjunt de dades d'entrenament normal determinat i, a continuació, comproven la probabilitat que el model generi una instància de prova. Les tècniques de detecció d'anomalies no supervisades assumeixen que les dades no estan etiquetades i són, amb diferència, les més utilitzades a causa de la seva aplicació més àmplia i rellevant.

Definició

S'han fet molts intents a les comunitats d'estadística i informàtica per definir una anomalia. Els més freqüents inclouen els següents, i es poden classificar en tres grups: els que són ambigus, els que són específics d'un mètode amb uns llindars predefinits normalment escollits empíricament i els que es defineixen formalment:

Història

El concepte de detecció d'intrusions, un component crític de la detecció d'anomalies, ha evolucionat significativament al llarg del temps. Inicialment, era un procés manual on els administradors del sistema supervisaven activitats inusuals, com ara l'accés al compte d'un usuari de vacances o l'activitat inesperada de la impressora. Aquest enfocament no era escalable i aviat va ser substituït per l'anàlisi dels registres d'auditoria i els registres del sistema per detectar signes de comportament maliciós.^[5]

A finals de la dècada de 1970 i principis de la dècada de 1980, l'anàlisi d'aquests registres es va utilitzar principalment de manera retrospectiva per investigar incidents, ja que el volum de dades va fer que no fos pràctic per a la supervisió en temps real. L'assequibilitat de l'emmagatzematge digital va fer que els registres d'auditoria fossin analitzats en línia, amb programes especialitzats que es van desenvolupar per filtrar les dades. Aquests programes, però, s'executaven normalment durant les hores baixes a causa de la seva intensitat computacional.^[6]

Aplicacions

La detecció d'anomalies s'aplica a un gran nombre i varietat de dominis, i és una subàrea important de l'aprenentatge automàtic no supervisat. Com a tal té aplicacions en ciberseguretat, detecció d'intrusions, detecció de fraus, detecció d'avaries, monitorització de la salut del sistema, detecció d'esdeveniments en xarxes de sensors, detecció de pertorbacions de l'ecosistema, detecció de defectes en imatges mitjançant visió artificial, diagnòstic mèdic i aplicació de la llei.^[7]

Mètodes

A la literatura s'han proposat moltes tècniques de detecció d'anomalies.^[8]^[9] El rendiment dels mètodes normalment depèn dels conjunts de dades. Per exemple, alguns poden ser adequats per detectar valors atípics locals, mentre que altres globals, i els mètodes tenen pocs avantatges sistemàtics sobre uns altres si es comparen entre molts conjunts de dades.^[10] Gairebé tots els algorismes també requereixen la configuració de paràmetres no intuïtius crítics per al rendiment, i normalment desconeguts abans de l'aplicació.

Referències

↑ Chandola, V.; Banerjee, A.; Kumar, V. ACM Computing Surveys, 41, 3, 2009, pàg. 1–58. DOI: 10.1145/1541880.1541882.
↑ Hawkins, Douglas M. Identification of Outliers (en anglès). Springer, 1980. ISBN 978-0-412-21900-9. OCLC 6912274.
↑ Barnett, Vic. Outliers in statistical data (en anglès). Wiley, 1978. ISBN 978-0-471-99599-9. OCLC 1150938591.
↑ Chandola, V.; Banerjee, A.; Kumar, V. ACM Computing Surveys, 41, 3, 2009, pàg. 1–58. DOI: 10.1145/1541880.1541882.
↑ Kemmerer, R.A.; Vigna, G. Computer, 35, 4, 4-2002, pàg. supl27–supl30. DOI: 10.1109/mc.2002.1012428. ISSN: 0018-9162.
↑ Kemmerer, R.A.; Vigna, G. Computer, 35, 4, 4-2002, pàg. supl27–supl30. DOI: 10.1109/mc.2002.1012428. ISSN: 0018-9162.
↑ Aggarwal, Charu. Outlier Analysis (en anglès). Springer Publishing Company, Incorporated, 2017. ISBN 978-3319475776.
↑ Chandola, V.; Banerjee, A.; Kumar, V. ACM Computing Surveys, 41, 3, 2009, pàg. 1–58. DOI: 10.1145/1541880.1541882.
↑ Zimek, Arthur; Filzmoser, Peter Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 8, 6, 2018, pàg. e1280. DOI: 10.1002/widm.1280. ISSN: 1942-4787 [Consulta: 9 desembre 2019].
↑ Campos, Guilherme O.; Zimek, Arthur; Sander, Jörg; Campello, Ricardo J. G. B.; Micenková, Barbora Data Mining and Knowledge Discovery, 30, 4, 2016, pàg. 891. DOI: 10.1007/s10618-015-0444-8. ISSN: 1384-5810.

[ChandolaSurvey-1] Chandola, V.; Banerjee, A.; Kumar, V. ACM Computing Surveys, 41, 3, 2009, pàg. 1–58. DOI: 10.1145/1541880.1541882.

[Hawkins_1980-2] Hawkins, Douglas M. Identification of Outliers (en anglès). Springer, 1980. ISBN 978-0-412-21900-9. OCLC 6912274.

[Outliers_in_statistical_data-3] Barnett, Vic. Outliers in statistical data (en anglès). Wiley, 1978. ISBN 978-0-471-99599-9. OCLC 1150938591.

[ChandolaSurvey2-4] Chandola, V.; Banerjee, A.; Kumar, V. ACM Computing Surveys, 41, 3, 2009, pàg. 1–58. DOI: 10.1145/1541880.1541882.

[Kemmerer-2002-5] Kemmerer, R.A.; Vigna, G. Computer, 35, 4, 4-2002, pàg. supl27–supl30. DOI: 10.1109/mc.2002.1012428. ISSN: 0018-9162.

[Kemmerer-20022-6] Kemmerer, R.A.; Vigna, G. Computer, 35, 4, 4-2002, pàg. supl27–supl30. DOI: 10.1109/mc.2002.1012428. ISSN: 0018-9162.

[7] Aggarwal, Charu. Outlier Analysis (en anglès). Springer Publishing Company, Incorporated, 2017. ISBN 978-3319475776.

[ChandolaSurvey3-8] Chandola, V.; Banerjee, A.; Kumar, V. ACM Computing Surveys, 41, 3, 2009, pàg. 1–58. DOI: 10.1145/1541880.1541882.

[ZimekFilzmoser2018-9] Zimek, Arthur; Filzmoser, Peter Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 8, 6, 2018, pàg. e1280. DOI: 10.1002/widm.1280. ISSN: 1942-4787 [Consulta: 9 desembre 2019].

[CamposZimek2016-10] Campos, Guilherme O.; Zimek, Arthur; Sander, Jörg; Campello, Ricardo J. G. B.; Micenková, Barbora Data Mining and Knowledge Discovery, 30, 4, 2016, pàg. 891. DOI: 10.1007/s10618-015-0444-8. ISSN: 1384-5810.

[1]