1. La koncepto de Datenmaskado
Datenmaskado ankaŭ konatas kiel datenmaskado. Ĝi estas teknika metodo por konverti, modifi aŭ kaŝi sentemajn datumojn kiel poŝtelefonan numeron, bankkartan numeron kaj aliajn informojn, kiam ni havas maskajn regulojn kaj politikojn. Ĉi tiu tekniko estas ĉefe uzata por malhelpi la uzon de sentemaj datumoj rekte en nefidindaj medioj.
Principo de datummaskado: Datummaskado devas konservi la originalajn datumkarakterizaĵojn, komercajn regulojn kaj datumgravecon por certigi, ke la posta disvolviĝo, testado kaj datumanalizo ne estos trafitaj de maskado. Certigu datumkoherecon kaj validecon antaŭ kaj post maskado.
2. Klasifiko de Datenmaskado
Datenmaskado povas esti dividita en statikan datenmaskadon (SDM) kaj dinamikan datenmaskadon (DDM).
Statika datenmaskado (SDM)Statika datenmaskado postulas la establon de nova ne-produktada media datumbazo por izolado de la produktada medio. Sentemaj datumoj estas eltiritaj el la produktada datumbazo kaj poste konservitaj en la ne-produktada datumbazo. Tiamaniere, la malsentemigitaj datumoj estas izolitaj de la produktada medio, kio plenumas komercajn bezonojn kaj certigas la sekurecon de produktadaj datumoj.
Dinamika Datenmaskado (DDM)Ĝi estas ĝenerale uzata en produktada medio por malsentemigi sentemajn datumojn en reala tempo. Iafoje, malsamaj niveloj de maskado estas necesaj por legi la samajn sentemajn datumojn en malsamaj situacioj. Ekzemple, malsamaj roloj kaj permesoj povas efektivigi malsamajn maskadajn skemojn.
Apliko por datenraportado kaj maskado de datenproduktoj
Tiaj scenaroj ĉefe inkluzivas internajn datenmonitoradajn produktojn aŭ afiŝtabulojn, eksterajn servajn datenproduktojn, kaj raportojn bazitajn sur datenanalizo, kiel ekzemple komercajn raportojn kaj projektajn reviziojn.
3. Solvo por Datummaskado
Oftaj datenmaskaj skemoj inkluzivas: nuligon, hazardan valoron, datenanstataŭigon, simetrian ĉifradon, averaĝan valoron, ofseton kaj rondigon, ktp.
NuligoNuligo rilatas al ĉifrado, stumpigo aŭ kaŝado de sentemaj datumoj. Ĉi tiu skemo kutime anstataŭigas realajn datumojn per specialaj simboloj (kiel ekzemple *). La operacio estas simpla, sed uzantoj ne povas scii la formaton de la originalaj datumoj, kio povas influi postajn datumaplikojn.
Hazarda ValoroLa hazarda valoro rilatas al la hazarda anstataŭigo de sentemaj datumoj (nombroj anstataŭigas ciferojn, literoj anstataŭigas literojn, kaj signoj anstataŭigas signojn). Ĉi tiu maska metodo certigos la formaton de sentemaj datumoj ĝis ia grado kaj faciligos postan datuman aplikon. Maskaj vortaroj povas esti necesaj por iuj signifoplenaj vortoj, kiel ekzemple nomoj de homoj kaj lokoj.
Datuma AnstataŭigoDatenanstataŭigo similas al maskado de nulaj kaj hazardaj valoroj, escepte ke anstataŭ uzi specialajn signojn aŭ hazardajn valorojn, la maskantaj datumoj estas anstataŭigitaj per specifa valoro.
Simetria ĈifradoSimetria ĉifrado estas speciala inversigebla maskometodo. Ĝi ĉifras sentemajn datumojn per ĉifroŝlosiloj kaj algoritmoj. La ĉifrotekstoformato estas kongrua kun la originalaj datumoj en logikaj reguloj.
MezaLa averaĝa skemo ofte estas uzata en statistikaj scenaroj. Por nombraj datumoj, ni unue kalkulas ilian averaĝon, kaj poste hazarde distribuas la malsentemigitajn valorojn ĉirkaŭ la averaĝo, tiel konservante la sumon de la datumoj konstanta.
Deŝovo kaj RondigoĈi tiu metodo ŝanĝas la ciferecajn datumojn per hazarda ŝovo. La rondigo de la delokigo certigas la proksimuman aŭtentecon de la intervalo, samtempe konservante la sekurecon de la datumoj, kiuj estas pli proksimaj al la realaj datumoj ol la antaŭaj skemoj, kaj havas grandan signifon en la scenaro de analizo de grandaj datumoj.
La Rekomendita Modelo "ML-NPB-5660"por la Datenmaskado
4. Ofte uzataj datenmaskaj teknikoj
(1). Statistikaj Teknikoj
Datenspecimenigo kaj datenagregado
- Datuma specimenigo: La analizo kaj taksado de la originala datumaro per selektado de reprezenta subaro de la datumaro estas grava metodo por plibonigi la efikecon de senidentigaj teknikoj.
- Datenagregado: Kiel kolekto de statistikaj teknikoj (kiel sumigo, nombrado, averaĝado, maksimumo kaj minimumo) aplikitaj al atributoj en mikrodatumoj, la rezulto estas reprezenta por ĉiuj registroj en la originala datumbazo.
(2). Kriptografio
Kriptografio estas ofta metodo por malsentemigi aŭ plibonigi la efikecon de malsentemigo. Malsamaj specoj de ĉifradaj algoritmoj povas atingi malsamajn malsentemigajn efikojn.
- Determinisma ĉifrado: Ne-hazarda simetria ĉifrado. Ĝi kutime prilaboras identigilojn kaj povas malĉifri kaj restarigi la ĉifrotekston al la originala identigilo kiam necese, sed la ŝlosilo devas esti konvene protektita.
- Nerevertebla ĉifrado: La haŝfunkcio estas uzata por prilabori datumojn, kiuj kutime estas uzataj por identigiloj. Ili ne povas esti rekte malĉifritaj kaj la mapa rilato devas esti konservita. Krome, pro la trajto de la haŝfunkcio, povas okazi datenkolizio.
- Homomorfa ĉifrado: La ĉifroteksto homomorfa algoritmo estas uzata. Ĝia karakterizaĵo estas, ke la rezulto de ĉifroteksto estas la sama kiel tiu de klarteksto-operacio post malĉifrado. Tial, ĝi estas ofte uzata por prilabori nombrajn kampojn, sed ĝi ne estas vaste uzata pro rendimentaj kialoj.
(3). Sistemteknologio
La subprema teknologio forigas aŭ ŝirmas datumojn, kiuj ne plenumas privatecan protekton, sed ne publikigas ilin.
- Maskado: ĝi rilatas al la plej ofta malsentemiga metodo por maski la atributvaloron, kiel ekzemple la kontraŭulan numeron, identigilon markitan per asterisko, aŭ la adreson stumpigitan.
- Loka subpremado: rilatas al la procezo de forigo de specifaj atributvaloroj (kolumnoj), forigante neesencajn datenkampojn;
- Rekordsubpremado: rilatas al la procezo de forigo de specifaj rikordoj (vicoj), forigo de neesencaj datenrikoltoj.
(4). Pseŭdonima Teknologio
Pseŭdohomumado estas senidentiga tekniko, kiu uzas pseŭdonimon por anstataŭigi rektan identigilon (aŭ alian senteman identigilon). Pseŭdonimaj teknikoj kreas unikajn identigilojn por ĉiu individua informsubjekto, anstataŭ rektaj aŭ sentemaj identigiloj.
- Ĝi povas generi hazardajn valorojn sendepende por korespondi al la originala identigilo, konservi la map-tabelon kaj strikte kontroli la aliron al la map-tabelo.
- Vi ankaŭ povas uzi ĉifradon por krei pseŭdonimojn, sed vi devas konservi la malĉifran ŝlosilon ĝuste;
Ĉi tiu teknologio estas vaste uzata koncerne grandan nombron da sendependaj datumuzantoj, kiel ekzemple OpenID en la scenaro de malferma platformo, kie malsamaj programistoj akiras malsamajn OpenID-ojn por la sama uzanto.
(5). Ĝeneraligaj Teknikoj
Ĝeneraligtekniko rilatas al senidentiga tekniko, kiu reduktas la granularecon de elektitaj atributoj en datumaro kaj provizas pli ĝeneralan kaj abstraktan priskribon de la datumoj. Ĝeneraligteknologio estas facile efektivigebla kaj povas protekti la aŭtentecon de rekordnivelaj datumoj. Ĝi estas ofte uzata en datenproduktoj aŭ datenraportoj.
- Rondigo: implikas elekti rondigan bazon por la elektita atributo, kiel ekzemple supreniran aŭ malsupreniran krimmedicinon, donante rezultojn 100, 500, 1K kaj 10K
- Supraj kaj malsupraj kodigaj teknikoj: Anstataŭigu valorojn super (aŭ sub) la sojlo per sojlo reprezentanta la supran (aŭ malsupran) nivelon, donante rezulton de "super X" aŭ "sub X"
(6). Teknikoj de hazardigo
Kiel speco de senidentiga tekniko, hazardiga teknologio rilatas al modifo de la valoro de atributo per hazardigo, tiel ke la valoro post hazardigo diferencas de la originala reala valoro. Ĉi tiu procezo reduktas la kapablon de atakanto derivi atributvaloron el aliaj atributvaloroj en la sama datenregistraĵo, sed influas la aŭtentecon de la rezultantaj datumoj, kio estas ofta ĉe produktadaj testaj datumoj.
Afiŝtempo: 27-a de septembro 2022