TamizhConnect Blog
11 Jan 2024 · TamizhConnect
ஆவண பிரிப்பு – PDF களை சேர்ப்பது மட்டும் அல்ல, உண்மைகளை...
Tamil genealogy article
Tamil family trees-க்கான ஆவணங்களிலிருந்து பெயர், தேதி, இடம், உறவுகளை எடுக்கும் வழிமுறை: PDF, OCR, heritage records-இலிருந்து structured data ஆக்குவது.

இந்த கட்டுரையில்:
- “ஆவண extraction” என்றால் என்ன
- எந்த ஆவணங்களை extraction செய்ய வேண்டும், எவை “noise”
- நான்கு அடுக்குகள்: image → text → facts → links
- என்னென்ன எடுப்பது — சுருக்கமான brutal checklist
- TamizhConnect-இல் facts + confidence சேமிப்பு
- data கெடுக்கும் பொதுப் பிழைகள்
- ஒரு messy PDF-க்கு நடைமுறை extraction workflow
1. “ஆவண extraction” என்ன?
பல குடும்பங்கள்:
- சான்றிதழ்கள், பட்டா, கோவில் புத்தகம், e-rolls, கடிதம், பள்ளி பதிவு ஸ்கேன்,
- Google Drive/WhatsApp-ல் dump,
- “digitised” என்று மன அமைதி.
அது genealogy அல்ல; அது digital hoarding.
Extraction = ஒரு ஆவணத்திலிருந்து குறிப்பிட்ட, சரிபார்க்கக்கூடிய facts (பெயர், தேதி, இடம், உறவு, பங்கு) இழுத்து, original-க்கு link உடன் structured data ஆக சேமித்தல்.
2. எந்த ஆவணங்கள் மதிப்பு?
உயர் மதிப்பு
- முக்கிய பதிவு: பிறப்பு/திருமணம்/மரணம், baptism, NIC/Aadhaar.
- நில/சொத்து: பட்டா, விற்பனை deed, இனாம், குத்தகை, mortgage.
- இடம்பெயர்வு/அடையாளம்: பாஸ்போர்ட், விசா, PR, ship list, estate register, ration.
- கல்வி/வேலை: பள்ளி/கல்லூரி பதிவு, நியமன ஆணை, service book.
- மத பதிவு: பூஜை நோட்டுப் புத்தகம், donor list, trust minutes (உங்கள் பேர் இருந்தால்).
நடுத்தர
- பழைய கடிதம், புகைப்படம் (பெயர்/தேதி/இடம் இருக்கலாம்), செய்திகள் வெட்டுகள்.
குறைந்த/அவசியமற்ற
- generic பிரசாரம்/மக்கள் பெயர் இல்லாத ஆவணம். Effort குறை.
3. நான்கு அடுக்குகள்
- Image (scan/photo/PDF)
- Text (OCR/கையெழுத்து transcription)
- Facts (பெயர்/தேதி/இடம்/உறவு/பங்கு)
- Links (fact ↔ original page/reference)
TamizhConnect-இல் நான்கையும் வைத்து search+audit சுலபம்.
4. Brutal checklist (எப்போதும் எடுக்க)
- பெயர் (முழுப் வடிவம், initials உடன்)
- தந்தை/கணவர்/அம்மா பெயர் (இருந்தால்)
- தேதி (பிறப்பு/திருமணம்/மரணம்/issue)
- இடம் (ஊர்/தாலுகா/மாவட்டம்/நாடு)
- ஆவண வகை/எண் (பட்டா #, passport #, certificate #)
- பங்கு (owner/tenant/donor/student/employee)
- சாட்சிகள்/கையெழுத்து (பெயர் only)
- ஆவணப் பக்கம்/பிரிவு (page/line reference)
மீதி உரை image-இல் evidence ஆகவே இருக்கட்டும்.
5. ஆவண தரவுகளை TamizhConnect-இல் சேமிப்பு
- Document record: scan link, வகை, தேதி, எண்.
- Extracted facts: structured fields +
confidence(high/med/low) +sourcePage. - Notes: OCR பிழை, மொழி, spelling.
- Tags:
#birth-cert,#patta,#passport,#school-recordபோன்ற context.
6. பொதுப் பிழைகள்
- முழு PDF ஐ plain text ஆக dump → structure இழப்பு.
- fact எடுத்தும் original link வைக்காமல் போடுவது.
- surname/initials reorder செய்து கூடியால் → பிழை.
- நாள்/மாதம் கலப்பு (DD/MM vs MM/DD) — note clearly.
7. ஒரு messy PDF க்கு நடைமுறை
- PDF → page images; quality/contrast சரி.
- OCR (நவீன அச்சு என்றால்) + manual check.
- Fact grid உருவாக்கு (பெயர், உறவு, தேதி, இடம், doc#).
- TamizhConnect-இல் people ↔ doc link, confidence set.
- Notes-ல் ambiguity/பிழைகள்.
இப்படி extraction செய்தால், “ஸ்கேன் குவியல்” → தேடக்கூடிய, சரிபார்க்கக்கூடிய குடும்ப archive ஆக மாறும்.
Additional Resources
When digitizing documents, it's crucial to preserve the original format while creating normalized data. Learn about legacy layer preservation techniques that balance historical accuracy with usability.
Share this article
உங்கள் தமிழ் குடும்ப மரத்தை தொடங்கத் தயாரா?
TamizhConnect மூலம் உறவுகளை கண்டுபிடித்து, உங்கள் பூர்வீக ஊரையும் குடும்ப வரலாறையும் அடுத்த தலைமுறைக்குப் பாதுகாக்கலாம்.
இலவச TamizhConnect கணக்கை உருவாக்குங்கள்இன்னும் இதையும் படிக்கலாம்
தமிழ் OCR – பயனுள்ளது, ஆனால் மந்திரம் அல்ல (Tamil)
தமிழ் புத்தகம்/செய்தித்தாள்/கோவில் புத்தகங்களை ஸ்கேன் செய்வது எளிது; சுத்தமான தேடக்கூடிய எழுத்து கிடைப்பது கடினம்.
22 Mar 2024
Legacy layer பாதுகாப்பு – வெட்கப்பட்டு பழையதை அழிக்காதீர்கள் (Tamil)
ஒவ்வொரு குடும்பமும் பெயர்/ஊர்/கதைகளை “மாடர்ன்” பண்ணுகிறது. பழைய அடுக்கு overwrite செய்தால், எப்படி இங்கு வந்தோம் என்பதே மாயம்.
29 Jan 2024
Document Extraction: Getting Facts from PDFs (English)
Complete guide to extracting genealogical data from documents for Tamil family trees: pull names, dates, places and relationships from PDFs, OCR, and heritage..
11 Jan 2024
Multiple Document Linking: Building Evidence Graphs (English)
Birth cert, school record, passport, e-roll, patta, temple list – all for the same person, but all slightly different.
08 Dec 2025
Tamil Ancestry Research: Complete Guide for Genealogical Methods (English)
All our deep-dive guides on Tamil genealogical methods, records, ethnography, and heritage validation for TamizhConnect.
14 Jan 2026
தமிழ் மூதாதையர் ஆய்வு நூலகம் (Tamil)
TamizhConnect-க்கு தேவையான தமிழ் வம்சாவளி முறைகள், பதிவுகள், இனவியல் மற்றும் பாரம்பரியச் சரிபார்ப்புக்கான அனைத்து ஆழமான வழிகாட்டிகளும் ஒரே இடத்தில்.
14 Jan 2026
தலைப்பின்படி தொடர்புடைய கட்டுரைகள்
பல ஆவண இணைப்பு — ஆதார கிராப் அமைத்தல் (Tamil)
பிறப்பு சான்று, பள்ளி பதிவு, பாஸ்போர்ட், வாக்காளர் பட்டியல், பட்டா, கோயில் பட்டியல் — அனைத்தும் ஒரே நபரைப் பற்றியவை, ஆனால் சற்று வேறுபட்டவை.
08 Dec 2025
ஊர் பெயர் “surname”கள் — யாழ்ப்பாணம், திருச்சி, மட்டக்களப்பு (Tamil)
யாழ்–திருச்சி–மட்டக்களப்பில் பலர் ஊர் பெயரை surname போலப் பயன்படுத்துகிறார்கள். உண்மையில் இது எப்படி வேலை செய்கிறது, மேற்கு படிவங்களில் எப்படி மாறுகிறது,...
07 Apr 2024
இதே ஆசிரியரின் பிற கட்டுரைகள்
Batticaloa – Lagoon, Border Violence and Shared Tamil-Muslim Memory: A Complete Guide to Tracing Your Roots (English)
Complete guide to understanding Batticaloa's complex history, geography, and cultural landscape for Tamil genealogy research. Learn how to trace your Batticaloa roots through war, displacement, and diaspora patterns.
13 Jan 2026
மட்டக்களப்பு – ஏரி, எல்லை வன்முறை மற்றும் பகிரப்பட்ட தமிழ்-முஸ்லிம் நினைவு: உங்கள் மூதாதையரைக் கண்டறிவதற்கான முழுமையான வழிகாட்டி (Tamil)
மட்டக்களப்பின் சிக்கலான வரலாறு, புவியியல் மற்றும் கலாச்சார காட்சியைப் புரிந்துகொள்ள முழுமையான வழிகாட்டி. போர், இடம்பெயர்வு மற்றும் சிதறிய மக்கள் வாழ்க்கை முறைகளின் வழியாக உங்கள் மட்டக்களப்பு வேர்களைக் கண்டறிவது.
13 Jan 2026
அடிப்படை தலைப்புகள்
Trace Your Tamil Ancestry: Complete Guide to Find Your Roots
Complete guide to discover your Tamil roots using TamizhConnect, family interviews, historical records, and community resources. Learn how to build your family tree and preserve your heritage.
17 Dec 2025
தமிழ் வேர்களை கண்டுபிடிப்பது: உங்கள் மூதாதையரை தேடுவதற்கான வழிகாட்டி
தமிழ் வேர்களை கண்டுபிடிப்பதற்கான எளிய வழிகள்: குடும்ப உரையாடல்கள், ஆவணங்கள் மற்றும் சமூக உதவி மூலம் உங்கள் வேர்களைக் கண்டறிய இந்த வழிகாட்டியைப் பயன்படுத்தவும்.
17 Dec 2025
Continue reading
Discover Your Tamil Ancestral Village
A complete guide to finding your Tamil ancestral village using family stories, old records, and modern tools like TamizhConnect.
10 Jan 2024
Tamil families & cultural anthropology – research gold in traditions (Tamil)
Kinship, marriage rules, dowry, migration, diaspora – Tamil familiesல anthropology lens போடும்போது என்ன மாதிரி pattern தெரியும்?
09 Jan 2024
Cultural Anthropology & Tamil Families Guide (English)
Kinship terms, marriage rules, dowry flows, migration and diaspora – what does cultural anthropology see when it looks at Tamil family life?
08 Jan 2024
Collect Family History from Tamil Elders: Essential Questions & Techniques
A comprehensive guide to asking the right questions, recording stories, and preserving memories from Tamil elders before they fade.
07 Jan 2024
Chettinadu – mansions, money trails and what the postcards don’t show (English)
Chettinadu is not just mansions, tiles and spicy chicken. It’s a tight network of villages built on finance, migration and labour.
06 Jan 2024
செட்டிநாடு – மாளிகைகள், நிதி தடங்கள் மற்றும் அட்டை அட்டைப்படம் சொல்லாதவை (Tamil)
செட்டிநாடு மாளிகைகள், டைல்கள், கார சிக்கன் மட்டும் அல்ல; நிதி, இடம்பெயர்வு, உழைப்பு கொண்டு நெய்யப்பட்ட கிராம வலயம்.
06 Jan 2024
Cauvery Delta – land, water and Tamil family memory (English)
The Cauvery Delta is not just a fertile region on a map. It is a dense archive of Tamil agriculture, migration, temples and land documents.
05 Jan 2024
காவிரி டெல்டா – நிலம், நீர், குடும்ப நினைவுகள் (Tamil)
காவிரி டெல்டா ஒரு செழிப்பு வரைபடம் மட்டும் அல்ல; தமிழ் வேளாண்மை, இடம்பெயர்வு, கோவில், நில ஆவணங்களின் அடுக்குகள்.
05 Jan 2024
Caste Titles: Pillai, Chettiar, Thevar – Labels with Baggage (English)
Pillai, Chettiar, Thevar, Mudaliar, Naidu, Gounder look like neat surnames on paper, but they're actually caste-coded titles with messy histories.
04 Jan 2024
பட்டங்கள்: பிள்ளை, செட்டியார், தேவர், முதலியார், நாயுடு, கவுண்டர் — சுமை கொண்ட குறிச்சொற்கள் (Tamil)
பிள்ளை, செட்டியார், தேவர், முதலியார், நாயுடு, கவுண்டர் — இவை காகிதத்தில் அழகான surname போல தோன்றினாலும், உண்மையில் ஜாதி குறியீடுகள், வரலாற்று சுமைகள்.
04 Jan 2024