TamizhConnect Blog
11 Jan 2024 · TamizhConnect
ஆவண பிரிப்பு – PDF களை சேர்ப்பது மட்டும் அல்ல, உண்மைகளை...
Tamil genealogy article
Tamil family trees-க்கான ஆவணங்களிலிருந்து பெயர், தேதி, இடம், உறவுகளை எடுக்கும் வழிமுறை: PDF, OCR, heritage records-இலிருந்து structured data ஆக்குவது.

Document Digitisation
Turn documents into verified Tamil lineage.
Choose the depth you need. One-time service, results stay in your account.
இந்த கட்டுரையில்:
- “ஆவண extraction” என்றால் என்ன
- எந்த ஆவணங்களை extraction செய்ய வேண்டும், எவை “noise”
- நான்கு அடுக்குகள்: image → text → facts → links
- என்னென்ன எடுப்பது — சுருக்கமான brutal checklist
- TamizhConnect-இல் facts + confidence சேமிப்பு
- data கெடுக்கும் பொதுப் பிழைகள்
- ஒரு messy PDF-க்கு நடைமுறை extraction workflow
1. “ஆவண extraction” என்ன?
பல குடும்பங்கள்:
- சான்றிதழ்கள், பட்டா, கோவில் புத்தகம், e-rolls, கடிதம், பள்ளி பதிவு ஸ்கேன்,
- Google Drive/WhatsApp-ல் dump,
- “digitised” என்று மன அமைதி.
அது genealogy அல்ல; அது digital hoarding.
Extraction = ஒரு ஆவணத்திலிருந்து குறிப்பிட்ட, சரிபார்க்கக்கூடிய facts (பெயர், தேதி, இடம், உறவு, பங்கு) இழுத்து, original-க்கு link உடன் structured data ஆக சேமித்தல்.
2. எந்த ஆவணங்கள் மதிப்பு?
உயர் மதிப்பு
- முக்கிய பதிவு: பிறப்பு/திருமணம்/மரணம், baptism, NIC/Aadhaar.
- நில/சொத்து: பட்டா, விற்பனை deed, இனாம், குத்தகை, mortgage.
- இடம்பெயர்வு/அடையாளம்: பாஸ்போர்ட், விசா, PR, ship list, estate register, ration.
- கல்வி/வேலை: பள்ளி/கல்லூரி பதிவு, நியமன ஆணை, service book.
- மத பதிவு: பூஜை நோட்டுப் புத்தகம், donor list, trust minutes (உங்கள் பேர் இருந்தால்).
நடுத்தர
- பழைய கடிதம், புகைப்படம் (பெயர்/தேதி/இடம் இருக்கலாம்), செய்திகள் வெட்டுகள்.
குறைந்த/அவசியமற்ற
- generic பிரசாரம்/மக்கள் பெயர் இல்லாத ஆவணம். Effort குறை.
3. நான்கு அடுக்குகள்
- Image (scan/photo/PDF)
- Text (OCR/கையெழுத்து transcription)
- Facts (பெயர்/தேதி/இடம்/உறவு/பங்கு)
- Links (fact ↔ original page/reference)
TamizhConnect-இல் நான்கையும் வைத்து search+audit சுலபம்.
4. Brutal checklist (எப்போதும் எடுக்க)
- பெயர் (முழுப் வடிவம், initials உடன்)
- தந்தை/கணவர்/அம்மா பெயர் (இருந்தால்)
- தேதி (பிறப்பு/திருமணம்/மரணம்/issue)
- இடம் (ஊர்/தாலுகா/மாவட்டம்/நாடு)
- ஆவண வகை/எண் (பட்டா #, passport #, certificate #)
- பங்கு (owner/tenant/donor/student/employee)
- சாட்சிகள்/கையெழுத்து (பெயர் only)
- ஆவணப் பக்கம்/பிரிவு (page/line reference)
மீதி உரை image-இல் evidence ஆகவே இருக்கட்டும்.
5. ஆவண தரவுகளை TamizhConnect-இல் சேமிப்பு
- Document record: scan link, வகை, தேதி, எண்.
- Extracted facts: structured fields +
confidence(high/med/low) +sourcePage. - Notes: OCR பிழை, மொழி, spelling.
- Tags:
#birth-cert,#patta,#passport,#school-recordபோன்ற context.
6. பொதுப் பிழைகள்
- முழு PDF ஐ plain text ஆக dump → structure இழப்பு.
- fact எடுத்தும் original link வைக்காமல் போடுவது.
- surname/initials reorder செய்து கூடியால் → பிழை.
- நாள்/மாதம் கலப்பு (DD/MM vs MM/DD) — note clearly.
7. ஒரு messy PDF க்கு நடைமுறை
- PDF → page images; quality/contrast சரி.
- OCR (நவீன அச்சு என்றால்) + manual check.
- Fact grid உருவாக்கு (பெயர், உறவு, தேதி, இடம், doc#).
- TamizhConnect-இல் people ↔ doc link, confidence set.
- Notes-ல் ambiguity/பிழைகள்.
இப்படி extraction செய்தால், “ஸ்கேன் குவியல்” → தேடக்கூடிய, சரிபார்க்கக்கூடிய குடும்ப archive ஆக மாறும்.
Additional Resources
When digitizing documents, it's crucial to preserve the original format while creating normalized data. Learn about legacy layer preservation techniques that balance historical accuracy with usability.
Share this article
TamizhConnect
TamizhConnect உலகெங்கிலும் உள்ள தமிழ் குடும்பங்களுக்கு வாக்காளர் பதிவுகள், ஒப்பந்தத் தொழிலாளர் ஆவணங்கள் மற்றும் பூர்வீக கிராம பொருத்தம் ஆகியவற்றைப் பயன்படுத்தி அவர்களின் வம்சாவளியைக் கண்டறிய உதவுகிறது.
உங்கள் தமிழ் குடும்ப மரத்தை தொடங்கத் தயாரா?
TamizhConnect மூலம் உறவுகளை கண்டுபிடித்து, உங்கள் பூர்வீக ஊரையும் குடும்ப வரலாறையும் அடுத்த தலைமுறைக்குப் பாதுகாக்கலாம்.
இலவச TamizhConnect கணக்கை உருவாக்குங்கள்என் குடும்ப மரத்திற்குச் செல்ஆவண எண்மயமாக்கல்
பழைய ஆவணங்கள் இருக்கின்றனவா? பதிவேற்றுங்கள், நாங்கள் சரிபார்த்து உங்கள் மரத்தில் சேர்க்கிறோம்.
இந்தக் கட்டுரை பயனுள்ளதாக இருந்ததா?
புதிய கட்டுரைகளைப் பெறுங்கள்
தமிழ் வம்சாவளி ஆராய்ச்சி குறிப்புகள் மற்றும் வழிகாட்டிகள்.
இன்னும் இதையும் படிக்கலாம்
தமிழ் OCR – பயனுள்ளது, ஆனால் மந்திரம் அல்ல (Tamil)
தமிழ் புத்தகம்/செய்தித்தாள்/கோவில் புத்தகங்களை ஸ்கேன் செய்வது எளிது; சுத்தமான தேடக்கூடிய எழுத்து கிடைப்பது கடினம்.
22 Mar 2024
Legacy layer பாதுகாப்பு – வெட்கப்பட்டு பழையதை அழிக்காதீர்கள் (Tamil)
ஒவ்வொரு குடும்பமும் பெயர்/ஊர்/கதைகளை “மாடர்ன்” பண்ணுகிறது. பழைய அடுக்கு overwrite செய்தால், எப்படி இங்கு வந்தோம் என்பதே மாயம்.
29 Jan 2024
Document Extraction: Getting Facts from PDFs (English)
Complete guide to extracting genealogical data from documents for Tamil family trees: pull names, dates, places and relationships from PDFs, OCR, and heritage..
11 Jan 2024
Multiple Document Linking: Building Evidence Graphs (English)
Birth cert, school record, passport, e-roll, patta, temple list – all for the same person, but all slightly different.
08 Dec 2025
தமிழ் மூதாதையர் ஆய்வு நூலகம் (Tamil)
TamizhConnect-க்கு தேவையான தமிழ் வம்சாவளி முறைகள், பதிவுகள், இனவியல் மற்றும் பாரம்பரியச் சரிபார்ப்புக்கான அனைத்து ஆழமான வழிகாட்டிகளும் ஒரே இடத்தில்.
30T15:02:58.951Z May 2026
Tamil ancestry research: Complete guide for genealogical methods (English)
All our deep-dive guides on Tamil genealogical methods, records, ethnography, and heritage validation for TamizhConnect.
30T15:02:58.950Z May 2026
தலைப்பின்படி தொடர்புடைய கட்டுரைகள்
பல ஆவண இணைப்பு — ஆதார கிராப் அமைத்தல் (Tamil)
பிறப்பு சான்று, பள்ளி பதிவு, பாஸ்போர்ட், வாக்காளர் பட்டியல், பட்டா, கோயில் பட்டியல் — அனைத்தும் ஒரே நபரைப் பற்றியவை, ஆனால் சற்று வேறுபட்டவை.
8 Dec 2025
ஊர் பெயர் “surname”கள் — யாழ்ப்பாணம், திருச்சி, மட்டக்களப்பு (Tamil)
யாழ்–திருச்சி–மட்டக்களப்பில் பலர் ஊர் பெயரை surname போலப் பயன்படுத்துகிறார்கள். உண்மையில் இது எப்படி வேலை செய்கிறது, மேற்கு படிவங்களில் எப்படி மாறுகிறது,...
7 Apr 2024
இதே ஆசிரியரின் பிற கட்டுரைகள்
The Tamils of Dharavi: A Hundred Years from Tirunelveli to Mumbai (English)
From the droughts of Tirunelveli to the tanneries and textile mills of Mumbai, the Tamil community of Dharavi has built one of the largest Tamil cities outside Tamil Nadu. With redevelopment underway, here's how families can preserve their migration story for the next generation.
15 May 2026
The Tamils of Karachi: Tracing Roots from Madrasi Para Back to Tamil Nadu (English)
A century after they migrated from Madras Presidency, the Tamil community of Karachi's Madrasi Para still preserves South Indian traditions. Here's how their descendants can begin tracing their ancestral villages and family deities in Tamil Nadu.
15 May 2026
அடிப்படை தலைப்புகள்
What is Tamil, really? Language, identity, and where it comes from
A clear, human explanation of what Tamil is-language, identity, people, and history-plus how to talk about it without stereotypes.
4 Feb 2026
What Defines Tamil Identity Beyond Borders and Sub-Groups? (English)
Tamil identity is primarily defined by shared language and cultural heritage, rather than by geographic borders or internal sub-group affiliations. This core identity persists across the diaspora and within Tamil Nadu.
17 Apr 2026