Prev. Dubbele gegevens samenvoegen en verwijderen Next

Dit artikel is ook verschenen in PRO-GEN-eralia en VVF Genealogie & Computer.

Dubbele gegevens samenvoegen en verwijderen

Het PRO-GEN hulpprogramma 'PRO-GEN Import' kunt u gebruiken om twee bestanden samen te voegen, waarbij ook naar dubbele personen gezocht kan worden. Deze functie kan ook gebruikt worden om dubbele personen binnen een bestand samen te voegen.
Vooral bij grote bestanden is dit zoeken naar dubbele personen echter een moeizaam proces. Er verschijnt voor elke mogelijk dubbele persoon een scherm waarin men moet beslissen of het werkelijk een dubbele betreft.


In dit scherm kan men de gegevens van beide personen naast elkaar zien, waarbij de verschillen worden gemarkeerd; maar men kan op dat moment bijvoorbeeld niet in het relatieschema kijken of bladeren naar andere personen. Ook moet dit proces in één keer afgemaakt worden. Dit kan bij vele dubbelen heel lang duren.

Standaard wordt bij het bepalen van de dubbelen gezocht naar personen van wie de velden voornaam, achternaam, geslacht en geboortedatum exact gelijk zijn. Omdat er vaak gelijke namen voorkomen waarbij soms de datum ontbreekt, kan men niet automatisch aannemen dat deze personen dubbel zijn. Ook zorgen kleine verschillen in de namen ervoor dat sommige dubbelen helemaal niet als zodanig herkend worden.

Een alternatieve methode

In dit artikel wil ik voor de gevorderde PRO-GEN gebruiker een werkwijze bespreken die een aantal van de hiervoor genoemde nadelen opheft. Dit is bedoeld voor het samenvoegen van dubbelen binnen één bestand. Heeft u twee of meer samen te voegen bestanden, voeg deze dan eerst samen tot één bestand zonder daarbij op dubbelen te laten controleren.

Op de PRO-GEN homepage (www.pro-gen.nl) staat een nieuwe aanvulling (nummer 8) waarin de benodigde lijst en selectievoorwaarde zijn toegevoegd. Dit bestand dient u te installeren als u de hierna beschreven werkwijze wilt gaan toepassen.

Om straks automatisch de juiste personen te kunnen samenvoegen gaan we het code-veld gebruiken om hierin een uniek gegeven te plaatsen voor het samenvoegen.
N.B.Als u het code-veld al in gebruik heeft, kijk dan even na of er een ander veld is dat altijd leeg is, bijv. Titel2, Titel3 of Adres Land. Dat veld kunt u dan straks gebruiken om de bestaande code tijdelijk in onder te brengen.
Door de code-velden van dubbele personen straks aan elkaar gelijk te maken, kan op een later tijdstip dit veld gebruikt worden om automatisch te bepalen welke personen samengevoegd moeten worden.

Stap 1: Een unieke code aanbrengen

Hiertoe gaan we eerst het recordnummer in het code-veld plaatsen.
Kies daarvoor "PRO-GEN Hulpprogramma's", "Export", "PRO-GEN Export".
Druk in de lijst een keer op INSERT om een eventuele selectie op te heffen en druk dan ENTER.
Geef een nieuwe bestandsnaam op (bijv. KOPIE), kies dezelfde opmaakdefinitie en laat dan de oude recordnummers handhaven.
Nu moet u "J" invullen om de koppelingen aan te passen. In het koppelingen scherm wordt nu m.b.v. de DELETE-toets de koppeling van de velden 'Persoon record' en 'Persoon code' losgemaakt. Daarna m.b.v. de ENTER-toets het 'Persoon record' veld uit de linker kolom koppelen aan 'Persoon code'. Het scherm ziet er dan als volgt uit.


N.B.Als u in het code-veld informatie had staan die bewaard moet blijven, dan kunt u hier het code-veld gaan koppelen aan een leeg veld, waardoor de code naar dit veld verplaatst wordt. Na afloop kunt u dan op dezelfde wijze die informatie weer terug verplaatsen naar het veld Persoon code.

Als de koppelingen naar wens gelegd zijn, druk dan ter bevestiging op F1. Daarna verschijnt een zelfde koppelingen scherm voor de relatie-gegevens. Hierin hoeft niets gewijzigd te worden; druk daarom weer op F1. Hierna wordt een kopie van uw bestand gemaakt waarin het code-veld is gevuld met het recordnummer. Deze code is dus voor iedere persoon verschillend.

Stap 2: De dubbelen markeren

In dit KOPIE bestand gaan we nu handmatig de dubbelen opzoeken en daarvan de code aanpassen.
Om het opzoeken makkelijker te maken is er aangepaste lijst SAMENV gemaakt die u via 'Opties', 'Lijstindeling' kunt kiezen. Deze lijst is gebaseerd op de bestaande PARTNER lijst waarbij alleen de eerste kolom is aangepast. Deze kolom toont nu of een persoon al als dubbel is gemarkeerd.
Als u deze lijst sorteert op naam, dan kunt u in deze lijst heel snel dubbelen vinden door naar de kolom Partner(s) te kijken. Zie onderstaand voorbeeld.


Bij twijfel kunt u m.b.v. het relatieschema nazien of ouders, huwelijk en/of kinderen overeenkomen.
In de lijst met opgeslagen selectievoorwaarden is de voorwaarde 'Samenvoeg code invullen' toegevoegd, waarmee de gewenste wijzigingen in het code-veld worden aangebracht.

Voor het vastleggen van de dubbele personen is de werkwijze nu als volgt:

  1. Markeer een groep dubbelen (meestal 2 personen) m.b.v. de spatiebalk.
  2. Druk L en G (seLecteer de Gemarkeerden).
  3. Druk S en R (Sorteer op Recordnummer)
  4. Druk L en K en kies dan de voorwaarde 'Samenvoeg code invullen'.
  5. Druk INSERT om terug te gaan van de Deellijst naar de Totaallijst.
  6. Druk nogmaals INSERT om de markeringen op te heffen.

In de eerste kolom van de lijst ziet u nu i.p.v. het recordnummer de aanduiding 'Dubbel'.

Op deze wijze voorziet u deze dubbelen van een gelijke code in het code-veld, waardoor ze straks tot 1 persoon worden samengevoegd. Het markeren moet uiteraard handmatig gebeuren. De overige 5 onderdelen kunnen echter eenvoudig m.b.v. een macro geautomatiseerd worden (zie documentatie op blz. 12).
Herhaal dit voor elke set dubbelen, door de dubbele personen (meestal 2 stuks) te markeren en de macro uit te voeren.
Als u zich een keer vergist heeft, markeer de betreffende personen dan opnieuw en voer deze stappen (of de macro) opnieuw uit; dan wordt de eerdere code weer hersteld en is de aanduiding 'Dubbel' weer vervangen door het recordnummer.

Stap 3: De gemarkeerde dubbelen samenvoegen

Zodra de dubbelen op deze wijze gemarkeerd zijn, kan er samengevoegd gaan worden.
Maak hiervoor eerst een nieuw leeg PRO-GEN bestand aan met dezelfde opmaakdefinitie als het bestand met dubbelen. In dit lege bestand gaan we via PRO-GEN Hulpprogramma 'PRO-GEN Import' het bestand KOPIE importeren met daarbij de volgende instellingen:


Hierna verschijnt het lijstje 'Markeer de velden voor de dubbelencontrole'. In deze lijst moet u de sterretjes weghalen bij de standaard velden Achternaam, Geboorte datum, Geslacht en Voornaam; en vervolgens een nieuw sterretje plaatsen bij het veld Persoon code. Verder kunnen met ENTER de standaardkeuzes gevolgd worden.

Bij het inlezen zullen nu personen met gelijke code automatisch samengevoegd worden, waarbij zoveel mogelijk gegevens overgenomen worden. Relaties waarvan man en vrouw dubbel zijn, worden ook samengevoegd.

Stap 4: Niet geïmporteerde gegevens nabewerken

Bij velden die al ingevuld waren en waarbij de te importeren gegevens verschillen, komt er een vermelding in het bestand met extensie .IMP in de PG30\NL\DATA map. Dit IMP bestand kan met Kladblok bekeken worden.


Het IMP bestand bevat per regel de tekst 'Persoon' of 'Relatie', het betreffende recordnummer, de naam van het veld en de informatie die uiteindelijk niet is opgeslagen. U kunt dit vergelijken met de huidige veldinhoud. Waar nodig kunt u dan deze informatie gebruiken om het samengevoegde bestand bij te werken.

Conclusie

Hoewel de hier besproken methode veel handwerk vereist, heeft het toch een aantal voordelen boven de geautomatiseerde methode: