Back to blog

TamizhConnect Blog

11 Jan 2024 · TamizhConnect

தமிழ்

ஆவண பிரிப்பு – PDF களை சேர்ப்பது மட்டும் அல்ல, உண்மைகளை...

Tamil genealogy article

Tamil family trees-க்கான ஆவணங்களிலிருந்து பெயர், தேதி, இடம், உறவுகளை எடுக்கும் வழிமுறை: PDF, OCR, heritage records-இலிருந்து structured data ஆக்குவது.

#ஆவண பிரிப்பு#OCR#data modelling#வம்சாவளி#TamizhConnect
ஆவண பிரிப்பு – PDF களை சேர்ப்பது மட்டும் அல்ல, உண்மைகளை...

Tamil Ancestry Research


இந்த கட்டுரையில்:

  1. “ஆவண extraction” என்றால் என்ன
  2. எந்த ஆவணங்களை extraction செய்ய வேண்டும், எவை “noise”
  3. நான்கு அடுக்குகள்: image → text → facts → links
  4. என்னென்ன எடுப்பது — சுருக்கமான brutal checklist
  5. TamizhConnect-இல் facts + confidence சேமிப்பு
  6. data கெடுக்கும் பொதுப் பிழைகள்
  7. ஒரு messy PDF-க்கு நடைமுறை extraction workflow

1. “ஆவண extraction” என்ன?

பல குடும்பங்கள்:

  • சான்றிதழ்கள், பட்டா, கோவில் புத்தகம், e-rolls, கடிதம், பள்ளி பதிவு ஸ்கேன்,
  • Google Drive/WhatsApp-ல் dump,
  • “digitised” என்று மன அமைதி.

அது genealogy அல்ல; அது digital hoarding.

Extraction = ஒரு ஆவணத்திலிருந்து குறிப்பிட்ட, சரிபார்க்கக்கூடிய facts (பெயர், தேதி, இடம், உறவு, பங்கு) இழுத்து, original-க்கு link உடன் structured data ஆக சேமித்தல்.


2. எந்த ஆவணங்கள் மதிப்பு?

உயர் மதிப்பு

  • முக்கிய பதிவு: பிறப்பு/திருமணம்/மரணம், baptism, NIC/Aadhaar.
  • நில/சொத்து: பட்டா, விற்பனை deed, இனாம், குத்தகை, mortgage.
  • இடம்பெயர்வு/அடையாளம்: பாஸ்போர்ட், விசா, PR, ship list, estate register, ration.
  • கல்வி/வேலை: பள்ளி/கல்லூரி பதிவு, நியமன ஆணை, service book.
  • மத பதிவு: பூஜை நோட்டுப் புத்தகம், donor list, trust minutes (உங்கள் பேர் இருந்தால்).

நடுத்தர

  • பழைய கடிதம், புகைப்படம் (பெயர்/தேதி/இடம் இருக்கலாம்), செய்திகள் வெட்டுகள்.

குறைந்த/அவசியமற்ற

  • generic பிரசாரம்/மக்கள் பெயர் இல்லாத ஆவணம். Effort குறை.

3. நான்கு அடுக்குகள்

  1. Image (scan/photo/PDF)
  2. Text (OCR/கையெழுத்து transcription)
  3. Facts (பெயர்/தேதி/இடம்/உறவு/பங்கு)
  4. Links (fact ↔ original page/reference)

TamizhConnect-இல் நான்கையும் வைத்து search+audit சுலபம்.


4. Brutal checklist (எப்போதும் எடுக்க)

  • பெயர் (முழுப் வடிவம், initials உடன்)
  • தந்தை/கணவர்/அம்மா பெயர் (இருந்தால்)
  • தேதி (பிறப்பு/திருமணம்/மரணம்/issue)
  • இடம் (ஊர்/தாலுகா/மாவட்டம்/நாடு)
  • ஆவண வகை/எண் (பட்டா #, passport #, certificate #)
  • பங்கு (owner/tenant/donor/student/employee)
  • சாட்சிகள்/கையெழுத்து (பெயர் only)
  • ஆவணப் பக்கம்/பிரிவு (page/line reference)

மீதி உரை image-இல் evidence ஆகவே இருக்கட்டும்.


5. ஆவண தரவுகளை TamizhConnect-இல் சேமிப்பு

  • Document record: scan link, வகை, தேதி, எண்.
  • Extracted facts: structured fields + confidence (high/med/low) + sourcePage.
  • Notes: OCR பிழை, மொழி, spelling.
  • Tags: #birth-cert, #patta, #passport, #school-record போன்ற context.

6. பொதுப் பிழைகள்

  • முழு PDF ஐ plain text ஆக dump → structure இழப்பு.
  • fact எடுத்தும் original link வைக்காமல் போடுவது.
  • surname/initials reorder செய்து கூடியால் → பிழை.
  • நாள்/மாதம் கலப்பு (DD/MM vs MM/DD) — note clearly.

7. ஒரு messy PDF க்கு நடைமுறை

  1. PDF → page images; quality/contrast சரி.
  2. OCR (நவீன அச்சு என்றால்) + manual check.
  3. Fact grid உருவாக்கு (பெயர், உறவு, தேதி, இடம், doc#).
  4. TamizhConnect-இல் people ↔ doc link, confidence set.
  5. Notes-ல் ambiguity/பிழைகள்.

இப்படி extraction செய்தால், “ஸ்கேன் குவியல்” → தேடக்கூடிய, சரிபார்க்கக்கூடிய குடும்ப archive ஆக மாறும்.

Additional Resources

When digitizing documents, it's crucial to preserve the original format while creating normalized data. Learn about legacy layer preservation techniques that balance historical accuracy with usability.

Share this article


உங்கள் தமிழ் குடும்ப மரத்தை தொடங்கத் தயாரா?

TamizhConnect மூலம் உறவுகளை கண்டுபிடித்து, உங்கள் பூர்வீக ஊரையும் குடும்ப வரலாறையும் அடுத்த தலைமுறைக்குப் பாதுகாக்கலாம்.

இலவச TamizhConnect கணக்கை உருவாக்குங்கள்

இன்னும் இதையும் படிக்கலாம்

தமிழ் மூதாதையர் ஆய்வு நூலகம் (Tamil)

TamizhConnect-க்கு தேவையான தமிழ் வம்சாவளி முறைகள், பதிவுகள், இனவியல் மற்றும் பாரம்பரியச் சரிபார்ப்புக்கான அனைத்து ஆழமான வழிகாட்டிகளும் ஒரே இடத்தில்.

14 Jan 2026

தலைப்பின்படி தொடர்புடைய கட்டுரைகள்

ஊர் பெயர் “surname”கள் — யாழ்ப்பாணம், திருச்சி, மட்டக்களப்பு (Tamil)

யாழ்–திருச்சி–மட்டக்களப்பில் பலர் ஊர் பெயரை surname போலப் பயன்படுத்துகிறார்கள். உண்மையில் இது எப்படி வேலை செய்கிறது, மேற்கு படிவங்களில் எப்படி மாறுகிறது,...

07 Apr 2024

இதே ஆசிரியரின் பிற கட்டுரைகள்

மட்டக்களப்பு – ஏரி, எல்லை வன்முறை மற்றும் பகிரப்பட்ட தமிழ்-முஸ்லிம் நினைவு: உங்கள் மூதாதையரைக் கண்டறிவதற்கான முழுமையான வழிகாட்டி (Tamil)

மட்டக்களப்பின் சிக்கலான வரலாறு, புவியியல் மற்றும் கலாச்சார காட்சியைப் புரிந்துகொள்ள முழுமையான வழிகாட்டி. போர், இடம்பெயர்வு மற்றும் சிதறிய மக்கள் வாழ்க்கை முறைகளின் வழியாக உங்கள் மட்டக்களப்பு வேர்களைக் கண்டறிவது.

13 Jan 2026

அடிப்படை தலைப்புகள்

தமிழ் வேர்களை கண்டுபிடிப்பது: உங்கள் மூதாதையரை தேடுவதற்கான வழிகாட்டி

தமிழ் வேர்களை கண்டுபிடிப்பதற்கான எளிய வழிகள்: குடும்ப உரையாடல்கள், ஆவணங்கள் மற்றும் சமூக உதவி மூலம் உங்கள் வேர்களைக் கண்டறிய இந்த வழிகாட்டியைப் பயன்படுத்தவும்.

17 Dec 2025

Continue reading

செட்டிநாடு – மாளிகைகள், நிதி தடங்கள் மற்றும் அட்டை அட்டைப்படம் சொல்லாதவை (Tamil)

செட்டிநாடு மாளிகைகள், டைல்கள், கார சிக்கன் மட்டும் அல்ல; நிதி, இடம்பெயர்வு, உழைப்பு கொண்டு நெய்யப்பட்ட கிராம வலயம்.

06 Jan 2024

பட்டங்கள்: பிள்ளை, செட்டியார், தேவர், முதலியார், நாயுடு, கவுண்டர் — சுமை கொண்ட குறிச்சொற்கள் (Tamil)

பிள்ளை, செட்டியார், தேவர், முதலியார், நாயுடு, கவுண்டர் — இவை காகிதத்தில் அழகான surname போல தோன்றினாலும், உண்மையில் ஜாதி குறியீடுகள், வரலாற்று சுமைகள்.

04 Jan 2024

Explore TamizhConnect