TamizhConnect Blog
11 Jan 2024 · TamizhConnect
ஆவண பிரிப்பு – PDF களை சேர்ப்பது மட்டும் அல்ல, உண்மைகளை...
Tamil genealogy article
Tamil family trees-க்கான ஆவணங்களிலிருந்து பெயர், தேதி, இடம், உறவுகளை எடுக்கும் வழிமுறை: PDF, OCR, heritage records-இலிருந்து structured data ஆக்குவது.

Document Digitisation
Turn documents into verified Tamil lineage.
Choose the depth you need. One-time service, results stay in your account.
இந்த கட்டுரையில்:
- “ஆவண extraction” என்றால் என்ன
- எந்த ஆவணங்களை extraction செய்ய வேண்டும், எவை “noise”
- நான்கு அடுக்குகள்: image → text → facts → links
- என்னென்ன எடுப்பது — சுருக்கமான brutal checklist
- TamizhConnect-இல் facts + confidence சேமிப்பு
- data கெடுக்கும் பொதுப் பிழைகள்
- ஒரு messy PDF-க்கு நடைமுறை extraction workflow
1. “ஆவண extraction” என்ன?
பல குடும்பங்கள்:
- சான்றிதழ்கள், பட்டா, கோவில் புத்தகம், e-rolls, கடிதம், பள்ளி பதிவு ஸ்கேன்,
- Google Drive/WhatsApp-ல் dump,
- “digitised” என்று மன அமைதி.
அது genealogy அல்ல; அது digital hoarding.
Extraction = ஒரு ஆவணத்திலிருந்து குறிப்பிட்ட, சரிபார்க்கக்கூடிய facts (பெயர், தேதி, இடம், உறவு, பங்கு) இழுத்து, original-க்கு link உடன் structured data ஆக சேமித்தல்.
2. எந்த ஆவணங்கள் மதிப்பு?
உயர் மதிப்பு
- முக்கிய பதிவு: பிறப்பு/திருமணம்/மரணம், baptism, NIC/Aadhaar.
- நில/சொத்து: பட்டா, விற்பனை deed, இனாம், குத்தகை, mortgage.
- இடம்பெயர்வு/அடையாளம்: பாஸ்போர்ட், விசா, PR, ship list, estate register, ration.
- கல்வி/வேலை: பள்ளி/கல்லூரி பதிவு, நியமன ஆணை, service book.
- மத பதிவு: பூஜை நோட்டுப் புத்தகம், donor list, trust minutes (உங்கள் பேர் இருந்தால்).
நடுத்தர
- பழைய கடிதம், புகைப்படம் (பெயர்/தேதி/இடம் இருக்கலாம்), செய்திகள் வெட்டுகள்.
குறைந்த/அவசியமற்ற
- generic பிரசாரம்/மக்கள் பெயர் இல்லாத ஆவணம். Effort குறை.
3. நான்கு அடுக்குகள்
- Image (scan/photo/PDF)
- Text (OCR/கையெழுத்து transcription)
- Facts (பெயர்/தேதி/இடம்/உறவு/பங்கு)
- Links (fact ↔ original page/reference)
TamizhConnect-இல் நான்கையும் வைத்து search+audit சுலபம்.
4. Brutal checklist (எப்போதும் எடுக்க)
- பெயர் (முழுப் வடிவம், initials உடன்)
- தந்தை/கணவர்/அம்மா பெயர் (இருந்தால்)
- தேதி (பிறப்பு/திருமணம்/மரணம்/issue)
- இடம் (ஊர்/தாலுகா/மாவட்டம்/நாடு)
- ஆவண வகை/எண் (பட்டா #, passport #, certificate #)
- பங்கு (owner/tenant/donor/student/employee)
- சாட்சிகள்/கையெழுத்து (பெயர் only)
- ஆவணப் பக்கம்/பிரிவு (page/line reference)
மீதி உரை image-இல் evidence ஆகவே இருக்கட்டும்.
5. ஆவண தரவுகளை TamizhConnect-இல் சேமிப்பு
- Document record: scan link, வகை, தேதி, எண்.
- Extracted facts: structured fields +
confidence(high/med/low) +sourcePage. - Notes: OCR பிழை, மொழி, spelling.
- Tags:
#birth-cert,#patta,#passport,#school-recordபோன்ற context.
6. பொதுப் பிழைகள்
- முழு PDF ஐ plain text ஆக dump → structure இழப்பு.
- fact எடுத்தும் original link வைக்காமல் போடுவது.
- surname/initials reorder செய்து கூடியால் → பிழை.
- நாள்/மாதம் கலப்பு (DD/MM vs MM/DD) — note clearly.
7. ஒரு messy PDF க்கு நடைமுறை
- PDF → page images; quality/contrast சரி.
- OCR (நவீன அச்சு என்றால்) + manual check.
- Fact grid உருவாக்கு (பெயர், உறவு, தேதி, இடம், doc#).
- TamizhConnect-இல் people ↔ doc link, confidence set.
- Notes-ல் ambiguity/பிழைகள்.
இப்படி extraction செய்தால், “ஸ்கேன் குவியல்” → தேடக்கூடிய, சரிபார்க்கக்கூடிய குடும்ப archive ஆக மாறும்.
Additional Resources
When digitizing documents, it's crucial to preserve the original format while creating normalized data. Learn about legacy layer preservation techniques that balance historical accuracy with usability.
Share this article
TamizhConnect
TamizhConnect உலகெங்கிலும் உள்ள தமிழ் குடும்பங்களுக்கு வாக்காளர் பதிவுகள், ஒப்பந்தத் தொழிலாளர் ஆவணங்கள் மற்றும் பூர்வீக கிராம பொருத்தம் ஆகியவற்றைப் பயன்படுத்தி அவர்களின் வம்சாவளியைக் கண்டறிய உதவுகிறது.
உங்கள் தமிழ் குடும்ப மரத்தை தொடங்கத் தயாரா?
TamizhConnect மூலம் உறவுகளை கண்டுபிடித்து, உங்கள் பூர்வீக ஊரையும் குடும்ப வரலாறையும் அடுத்த தலைமுறைக்குப் பாதுகாக்கலாம்.
இலவச TamizhConnect கணக்கை உருவாக்குங்கள்என் குடும்ப மரத்திற்குச் செல்ஆவண எண்மயமாக்கல்
பழைய ஆவணங்கள் இருக்கின்றனவா? பதிவேற்றுங்கள், நாங்கள் சரிபார்த்து உங்கள் மரத்தில் சேர்க்கிறோம்.
இந்தக் கட்டுரை பயனுள்ளதாக இருந்ததா?
புதிய கட்டுரைகளைப் பெறுங்கள்
தமிழ் வம்சாவளி ஆராய்ச்சி குறிப்புகள் மற்றும் வழிகாட்டிகள்.
இன்னும் இதையும் படிக்கலாம்
தமிழ் OCR – பயனுள்ளது, ஆனால் மந்திரம் அல்ல (Tamil)
தமிழ் புத்தகம்/செய்தித்தாள்/கோவில் புத்தகங்களை ஸ்கேன் செய்வது எளிது; சுத்தமான தேடக்கூடிய எழுத்து கிடைப்பது கடினம்.
22 Mar 2024
Legacy layer பாதுகாப்பு – வெட்கப்பட்டு பழையதை அழிக்காதீர்கள் (Tamil)
ஒவ்வொரு குடும்பமும் பெயர்/ஊர்/கதைகளை “மாடர்ன்” பண்ணுகிறது. பழைய அடுக்கு overwrite செய்தால், எப்படி இங்கு வந்தோம் என்பதே மாயம்.
29 Jan 2024
Document Extraction: Getting Facts from PDFs (English)
Complete guide to extracting genealogical data from documents for Tamil family trees: pull names, dates, places and relationships from PDFs, OCR, and heritage..
11 Jan 2024
Multiple Document Linking: Building Evidence Graphs (English)
Birth cert, school record, passport, e-roll, patta, temple list – all for the same person, but all slightly different.
08 Dec 2025
தமிழ் மூதாதையர் ஆய்வு நூலகம் (Tamil)
TamizhConnect-க்கு தேவையான தமிழ் வம்சாவளி முறைகள், பதிவுகள், இனவியல் மற்றும் பாரம்பரியச் சரிபார்ப்புக்கான அனைத்து ஆழமான வழிகாட்டிகளும் ஒரே இடத்தில்.
16T03:45:33.527Z Apr 2026
Tamil ancestry research: Complete guide for genealogical methods (English)
All our deep-dive guides on Tamil genealogical methods, records, ethnography, and heritage validation for TamizhConnect.
16T03:45:33.525Z Apr 2026
தலைப்பின்படி தொடர்புடைய கட்டுரைகள்
பல ஆவண இணைப்பு — ஆதார கிராப் அமைத்தல் (Tamil)
பிறப்பு சான்று, பள்ளி பதிவு, பாஸ்போர்ட், வாக்காளர் பட்டியல், பட்டா, கோயில் பட்டியல் — அனைத்தும் ஒரே நபரைப் பற்றியவை, ஆனால் சற்று வேறுபட்டவை.
8 Dec 2025
ஊர் பெயர் “surname”கள் — யாழ்ப்பாணம், திருச்சி, மட்டக்களப்பு (Tamil)
யாழ்–திருச்சி–மட்டக்களப்பில் பலர் ஊர் பெயரை surname போலப் பயன்படுத்துகிறார்கள். உண்மையில் இது எப்படி வேலை செய்கிறது, மேற்கு படிவங்களில் எப்படி மாறுகிறது,...
7 Apr 2024
இதே ஆசிரியரின் பிற கட்டுரைகள்
Batticaloa – Lagoon, border violence and shared Tamil-Muslim memory: A complete guide to tracing your roots (English)
Complete guide to understanding Batticaloa's complex history, geography, and cultural landscape for Tamil genealogy research. Learn how to trace your Batticaloa roots through war, displacement, and diaspora patterns.
13 Jan 2026
மட்டக்களப்பு – ஏரி, எல்லை வன்முறை மற்றும் பகிரப்பட்ட தமிழ்-முஸ்லிம் நினைவு: உங்கள் மூதாதையரைக் கண்டறிவதற்கான முழுமையான வழிகாட்டி (Tamil)
மட்டக்களப்பின் சிக்கலான வரலாறு, புவியியல் மற்றும் கலாச்சார காட்சியைப் புரிந்துகொள்ள முழுமையான வழிகாட்டி. போர், இடம்பெயர்வு மற்றும் சிதறிய மக்கள் வாழ்க்கை முறைகளின் வழியாக உங்கள் மட்டக்களப்பு வேர்களைக் கண்டறிவது.
13 Jan 2026
அடிப்படை தலைப்புகள்
What is Tamil, really? Language, identity, and where it comes from
A clear, human explanation of what Tamil is-language, identity, people, and history-plus how to talk about it without stereotypes.
4 Feb 2026
Trace your Tamil ancestry: Complete guide to find your roots
Complete guide to discover your Tamil roots using TamizhConnect, family interviews, historical records, and community resources. Learn how to build your family tree and preserve your heritage.
17 Dec 2025