Deduplicação, desduplicação, identificação de duplicados - Fine Tuning

No fine tuning da deduplicação temos de ter em consideração o inicio, para encontrarmos o meio de alcançarmos o fim pretendido. Ou seja, tem...

No fine tuning da deduplicação temos de ter em consideração o inicio, para encontrarmos o meio de alcançarmos o fim pretendido. Ou seja, temos de saber de onde vamos e para onde vamos. Tipicamente existem 3 tipos de deduplicação a Standard, Overkill e Underkill.

Se falarmos de uma deduplicação normal, a deduplicação standard, depois vamos afinar conforme os resultados que vamos obtendo. Mas podemos ter uma campanha para fazer em que à partida temos 1 milhão de registos, mas sabemos que apenas temos material para enviar para metade desses registos. Como tal poderemos optar por uma deduplicação overkill e dessa forma vamos de forma aleatória ou não, remover registos que à partida não deveriam ser considerados como duplicados, mas como temos excesso de registos, podemos "correr o risco".

Por outro lado, temos uma base de dados que deve ser enviada uma comunicação mesmo para todos os indivíduos, mesmo que um individuo receba mais que uma comunicação, é preferível que haver algum que não receba. Optamos por uma deduplicação underkill, que desta forma a segurança dos duplicados é de 100%.

Em qualquer uma destes tipos de fine tuning, podemos ajustar parâmetros de forma a conseguirmos os melhores resultados, ou aqueles que mais se ajustam ao nosso objectivo final.

Esses parâmetros são as comparações executadas nos campos que podem ser comparações Fonéticas, de Similaridade, Equalização (Código Postal), Proximidade (Numero de porta) e Sinónimos.

Fonéticas o próprio nome é esclarecedor, de similaridade é tomada em conta uma série de factores como por exemplo um V e um U, se estivermos a visualizar algo manuscrito pode facilmente ser similar. Como tal, neste campo podemos aumentar ou diminuir o valor conforme a origem dos dados.

Equalização é usado especialmente no código postal. Temos em Lisboa códigos postais que vão do 1000-001 ao 1990-999, e muitas vezes como não se sabe o código exacto coloca-se simplesmente 1500-000. O que vai acontecer aqui é que todos os registos de Lisboa vão ficar com o mesmo código postal: 1000-000. Desta forma ajuda a encontrar duplicados, mesmo que não tenha sido possível fazer a normalização de algum registo.

Relativamente à proximidade um dos exemplos são os números de porta ou números de telefone. Pode haver pequenas diferenças por exemplo no numero de telefone e assim é possível também encontrar esses registos independentemente de pequenas diferenças nos números que possam existir.

Finalmente temos os sinónimos cujo nome também é esclarecedor.

Está complicado acabar este tema, mas está quase.

You Might Also Like

0 comentários

Flickr Images