1. La koncepto de datuma maskado
Datuma maskado ankaŭ estas konata kiel datuma maskado. Ĝi estas teknika metodo por konverti, modifi aŭ kovri sentivajn datumojn kiel poŝtelefonan numeron, bankan kartan numeron kaj aliajn informojn kiam ni donis maskajn regulojn kaj politikojn. Ĉi tiu tekniko estas ĉefe uzata por eviti ke sentemaj datumoj estu uzataj rekte en nefidindaj medioj.
Principo pri datuma maskado: Datuma maskado devas konservi la originalajn datumajn karakterizaĵojn, komercajn regulojn kaj datuman gravecon por certigi, ke la posta disvolviĝo, testado kaj datuma analizo ne influos maskeradon. Certigu datuman konsistencon kaj validecon antaŭ kaj post maskado.
2.
Datuma maskado povas esti dividita en statikajn datumajn maskerojn (SDM) kaj dinamikan datuman maskadon (DDM).
Statika Datuma Maskado (SDM): Statika datuma maskado postulas starigon de nova neprodukta media datumbazo por izolado de la produktada medio. Sentemaj datumoj estas ĉerpitaj el la produktada datumbazo kaj tiam stokitaj en la neprodukta datumbazo. Tiamaniere, la senintensigitaj datumoj estas izolitaj de la produktada medio, kiu konformas al komercaj bezonoj kaj certigas la sekurecon de produktaj datumoj.
Dinamika Datuma Maskado (DDM): Ĝi estas ĝenerale uzata en la produktada medio por desensibilizi sentemajn datumojn en reala tempo. Foje, malsamaj niveloj de maskerado estas bezonataj por legi la samajn sentivajn datumojn en malsamaj situacioj. Ekzemple, malsamaj roloj kaj permesoj povas efektivigi malsamajn maskerajn skemojn.
Raportado pri Datumoj kaj Datumproduktoj Masking -Apliko
Tiaj scenaroj ĉefe inkluzivas internajn datumajn monitoradajn produktojn aŭ afiŝtabulon, eksterajn servajn datumajn produktojn, kaj raportojn bazitajn sur datuma analizo, kiel komercaj raportoj kaj projektaj revizioj.
3.
Oftaj datumaj maskantaj skemoj inkluzivas: nuligo, hazarda valoro, anstataŭigo de datumoj, simetria ĉifrado, averaĝa valoro, kompenso kaj rondigo, ktp.
Nuligo: Nevalidigo rilatas al ĉifrado, detranĉo aŭ kaŝado de sentemaj datumoj. Ĉi tiu skemo kutime anstataŭas realajn datumojn per specialaj simboloj (kiel *). La operacio estas simpla, sed uzantoj ne povas scii la formaton de la originalaj datumoj, kiuj povas influi postajn datumajn aplikojn.
Hazarda valoro: La hazarda valoro rilatas al la hazarda anstataŭigo de sentemaj datumoj (nombroj anstataŭigas ciferojn, literoj anstataŭigas literojn, kaj signoj anstataŭigas signojn). Ĉi tiu maskanta metodo certigos la formaton de sentemaj datumoj en iu mezuro kaj faciligos postan datuman aplikon. Maskantaj vortaroj povas esti bezonataj por iuj signifaj vortoj, kiel nomoj de homoj kaj lokoj.
Anstataŭigo de datumoj: Anstataŭigo de datumoj similas al la maskado de nulaj kaj hazardaj valoroj, krom ke anstataŭ uzi specialajn signojn aŭ hazardajn valorojn, la maskantaj datumoj estas anstataŭigitaj per specifa valoro.
Simetria ĉifrado: Simetria ĉifrado estas speciala revertebla maskanta metodo. Ĝi ĉifras sentemajn datumojn per ĉifraj ŝlosiloj kaj algoritmoj. La formato de ciferoj konformas al la originalaj datumoj en logikaj reguloj.
Mezumo: La meza skemo estas ofte uzata en statistikaj scenoj. Por nombraj datumoj, ni unue kalkulas ilian mezumon, kaj poste hazarde distribuas la desensibilizitajn valorojn ĉirkaŭ la mezumo, tiel konservante la sumon de la konstanta datumoj.
Kompensita kaj rondigita: Ĉi tiu metodo ŝanĝas la ciferecajn datumojn per hazarda movo. La kompensa rondigo certigas la proksimuman aŭtentikecon de la gamo konservante la sekurecon de la datumoj, kiu estas pli proksima al la realaj datumoj ol la antaŭaj skemoj, kaj havas grandan signifon en la scenaro de Big Data -analizo.
La rekomendinda modelo "ML-NPB-5660"Por la datuma maskado
4. Ofte uzataj teknikoj pri maskado de datumoj
(1). Statistikaj teknikoj
Specimenado de datumoj kaj datuma agregado
- Specimenado de datumoj: La analizo kaj taksado de la originala datumaro elektante reprezentan subaron de la datumaro estas grava metodo por plibonigi la efikecon de de-identigaj teknikoj.
- Datuma agregado: Kiel kolekto de statistikaj teknikoj (kiel sumado, kalkulado, mezumo, maksimumo kaj minimumo) aplikita al atributoj en mikrodata, la rezulto estas reprezentanto de ĉiuj registroj en la originala datumaro.
(2). Kriptografio
Kriptografio estas ofta metodo por desensibilizi aŭ plibonigi la efikecon de desensibilizado. Malsamaj specoj de ĉifradaj algoritmoj povas atingi malsamajn desensibilizajn efikojn.
- Determinisma ĉifrado: ne-hazarda simetria ĉifrado. Ĝi kutime prilaboras identigilojn kaj povas deĉifri kaj restarigi la ciferon al la originala ID kiam necese, sed la ŝlosilo devas esti ĝuste protektita.
- Neinversigebla ĉifrado: La hash -funkcio estas uzata por prilabori datumojn, kiu estas kutime uzata por ID -datumoj. Ĝi ne povas esti rekte deĉifrita kaj la mapado -rilato devas esti konservita. Krome, pro la trajto de la hash -funkcio, datuma kolizio povas okazi.
- Homomorfa ĉifrado: La cifera text homomorfa algoritmo estas uzata. Ĝia karakterizaĵo estas, ke la rezulto de cifera text -operacio estas la sama kiel tiu de ebena operacio post malĉifrado. Tial ĝi estas ofte uzata por prilabori nombrajn kampojn, sed ĝi ne estas vaste uzata pro rendimentaj kialoj.
(3). Sistemo -Teknologio
La subprema teknologio forigas aŭ ŝirmas datumajn erojn, kiuj ne plenumas privatecan protekton, sed ne publikigas ilin.
- Maskerado: Ĝi rilatas al la plej ofta desensibiliza metodo por maski la atributan valoron, kiel la kontraŭulo -nombro, ID -karto estas markita per asterisko, aŭ la adreso estas detranĉita.
- Loka forigo: rilatas al la procezo de forigo de specifaj atributaj valoroj (kolumnoj), forigado de ne esencaj datumkampoj;
- Rekorda forigo: rilatas al la procezo de forigo de specifaj rekordoj (vicoj), forigante neesencajn datumajn registrojn.
(4). Pseŭdonima teknologio
Pseudomanning estas de-identiga tekniko, kiu uzas pseŭdonimon por anstataŭigi rektan identigilon (aŭ alian senteman identigilon). Pseŭdonimaj teknikoj kreas unikajn identigilojn por ĉiu individua informa temo, anstataŭ rektaj aŭ sentemaj identigiloj.
- Ĝi povas generi hazardajn valorojn sendepende por korespondi al la originala ID, konservi la mapan tablon kaj strikte kontroli la aliron al la mapado.
- Vi ankaŭ povas uzi ĉifradon por produkti pseŭdonimojn, sed bezonas konservi la malĉifran ŝlosilon ĝuste;
Ĉi tiu teknologio estas vaste uzata kaze de granda nombro da sendependaj datumaj uzantoj, kiel OpenID en la malferma platforma scenaro, kie malsamaj programistoj akiras malsamajn OpenIDojn por la sama uzanto.
(5). Ĝeneraligaj teknikoj
Ĝenerala tekniko rilatas al de-identiga tekniko, kiu reduktas la granularecon de elektitaj atributoj en datumaro kaj provizas pli ĝeneralan kaj abstraktan priskribon de la datumoj. Ĝeneraliga teknologio estas facile efektivigebla kaj povas protekti la aŭtentikecon de rekordnivelaj datumoj. Ĝi estas ofte uzata en datumaj produktoj aŭ datumaj raportoj.
- Ĉirkaŭiro: implikas elekti rondan bazon por la elektita atributo, kiel ekzemple supren aŭ malsuprenaj kuracistoj, donante rezultojn 100, 500, 1k kaj 10k
- Supraj kaj malsupraj kodaj teknikoj: Anstataŭigu valorojn supre (aŭ sube) la sojlon per sojlo reprezentanta la supran (aŭ malsupran) nivelon, donante rezulton de "Supre X" aŭ "Sub X"
(6). Randomigaj teknikoj
Kiel speco de de-identiga tekniko, hazarda teknologio rilatas al modifado de la valoro de atributo per hazardo, tiel ke la valoro post hazardo diferencas de la originala reala valoro. Ĉi tiu procezo reduktas la kapablon de atakanto derivi atributan valoron de aliaj atributaj valoroj en la sama datuma registro, sed efikas sur la aŭtentikeco de la rezultaj datumoj, kio estas ofta kun produktaj testaj datumoj.
Afiŝotempo: Sep-27-2022