CHATGPT:
🔹 DNA-släktforskning skalar → för att det bygger på matematiska relationer och maskinläsbara datapunkter.
🔹 Traditionell släktforskning skalar inte → för att den bygger på fria textsträngar, PDF:er, register utan PIDs, källor utan struktur och lokala variationer.
🧠 Den fundamentala datamodell-konflikten i släktforskning
❌ Nuläget = “String-chaos lineage”
Information representeras som:
-
namnfält (text)
-
platsfält (text)
-
datumfält (text)
-
fritextkällor (text)
-
släktträd byggda som lokala grafer
-
ingen global identifiering
-
ingen maskinläsbar semantik
✔️ DNA-släktforskning = “Structured Graph Lineage”
DNA-resultat är:
-
numeriska
-
standardiserade (cM = centimorgans)
-
jämförbara
-
globalt interoperabla
-
beräkningsbara
-
grafer som går att merge:a automatiskt
Det går att skala obegränsat, för det är:
🔥 Vad saknas i släktforskningen för att den ska skalas?
där varje individ är en nod i ett enormt globalt släktträd.
Ancestry, MyHeritage, Geni, FamilySearch → alla kör egna interna IDs.
Det betyder:
En person finns som 12 olika personer i 12 olika databaser.
DNA har en enda identitet: din kromosom.
2️⃣ Semantiska relationer (RDF/OWL) istället för proprietära träd
Släktskap är egentligen grafteori:
-
isFatherOf -
isMotherOf -
isSiblingOf -
isAncestorOf -
hasSpouse -
sameAs
Det borde vara:
<Person>
<hasFather rdf:resource="Q12345" />
<bornDate>1895-02-17</bornDate>
<bornPlace rdf:resource="PLATS:OSBY" />
</Person>
source:ArkivDigital:SE-12345
🧨 Varför fattar ingen?
Tre skäl:
❌ 1. De flesta släktforskare är inte datamodelltänkare
De tänker berättelser, inte ontologier.
❌ 2. Kommersiella aktörer vill inte skapa global interoperabilitet
De tjänar på “walled gardens”.
❌ 3. Öppna initiativ (t.ex. GEDCOM) är för svaga och saknar semantik
GEDCOM är som HTML 1.0:
funka okej, men uttrycker inte den riktiga världen.
Dagsläget släktforskning: Idag är det som borde vara svårast att hitta personer med samma DNA segment så enkelt medans det som borde vara enkelt om vi släktforskare gjorde rätt och inte skapade SILOS att hitta vilka personer som har något gemensamt som finns i en socken, kyrkbok, eller på samma grupp av foton är så svårt....
Lösningen: tydligt beskriva personer/ källor... med länkad data dvs. data som data
Ny användning: kort prat med polisens Ricky Ansell,verksamhetsexpert hos NFC och projektledare för den forensiska delen i pilotprojektet, där han driver projekt att se om släktforskning och DNA tester kan börja användas... se "Dna-baserad släktforskning kan bli nationellt använd metod" där sidan 2 "Steg 3. Träfflista och urval" är det som borde styras upp
Status idag 2021
- DNA provtagningen
- är extremt bra uppstyrd där DNA provet översätts till segment och matchande segment --> enkelt skapa maskinläsbara lösningar
- Släktforskning
- har idag ofta persistenta identifierare till plats i källor som Riksarkivet SVAR eller Arkiv Digital vilken sida/kyrkbok personer finns på
- tyvärr är det ofta dålig struktur på källor/händelser i släktträd medans relationen pappa/barn oftast enkelt kan exportera till standarder som GEDCOM
- stor fördel finns att persistenta identifierare finns i bra släktforskning exempel födelsebok Alfred Nobel har "Jakob och Johannes kyrkoarkiv, Födelse- och dopböcker, SE/SSA/0008/C I a/21 (1828-1844), bildid: C0054707_00124" jmf Wikidata Q23810#P19
- jag har visat hur enkelt crowdsourcing med persistenta identifierare fungerar för runstenar och borde även fungera med old-school släktforskning, DNA forskning och machine learning...
- Kyrkböcker och andra källor
- har ofta inget bra API och tydlighet hur man kan skapa mått som fungerar med maskininlärning
- hur många sidor det skiljer mellan 2 personer i en kyrkbok
- hur långt det fysiska avståndet är mellan 2 böcker i tid eller plats
- 2018 sep pratade jag på släktforskarmässan med Family search, Arkiv Digital och Riksarkivet att det fysiska avståndet har vi i Wikidata
T199907 Arkiv Digital satte upp ett möte veckan efteråt och skapade en arbetsyta --> finns sedan feb 2019 i produkten med stöd att navigera kyrkböcker från karta, fick > 1000 likes på FB
T200515 Family search återkom med person i USA så vi satte upp nya mallar så deras sidor om församlingar nu kan nå karta, kyrkböcker etc. - pga snygg arkitektur med mallar och Wikidata var det 5 rader kod i en mall som fixade det....
T200181 Riksarkivet har inte kommit tillbaka känns som man inte vidareutvecklar sin tjänst, gissar att bidragen ramlar in ;-)- tog även upp detta med möte systemägare 2019 mar och på Hack.4-Sweden 2019 men ingen reaktion
Tanken är att
- DNA träffar i en släktforsknings databas kan mha av en kunskapsgraf ringa in möjliga kandidater bättre om metadatat är länkade data
- En kunskapsdatabas
- kan innehålla personers släktträd
- vilka källor som används
- vilka platser en person föddes , dog, levde
- vilka bilder en person finns på
Externa länkar
- Lord of the Wiki Ring: Importing Wikidata into Neo4j and analyzing family trees'
- FB grupp "Släktforskning Semantisk Web"
Citation Graphs
- Vetenskaplig publikation
- med persistent identifierare DOI
- Person som skriver artikel
- med persistent identifierare ORCID
Exempel Scholia Ricky Ansell Q96248799 där visas vilka som varit medförfattare på de publikationer han skrivit och hur dom refererar andra
nedan exempel frågor författare och medförfattare
- Video vad vi ser ovan youtube
- vilka artiklar som publicerats inom ämnet "nucleic acid sequence analysis" och deras författare och hur dom har kopplingar mellan varandra
'
- finns 2 personer med samma DNA segment som har några personer i deras släktträd som finns "nära" varandra i kyrkböckerna --> en stark indikation att det kan vara där den genetiska kopplingen finns
- kunna gruppera DNA träffarna enligt olika parametrar och se samband som snabbare gör att vi kan ringa in personer av intresse,,,
- gör man samma sak ned kort så skapar det även möjlighet att skapa grafer som grupperar ihop personer
- Börja identifiera personer källor unikt....
Länkar
- Hur Wikipedia nu lagrar bilderna i en kunskapsgraf Wikibase där objekt i bilden pekas ut med länkad data se föredrag från "Länkade data i Sverige - webbinarium maj 2020"
- detta innebär att om vi släktforskare använde denna teknik och hade persistenta identifierare för personer skulle identifierade personer i bilder vara en ypperlig källa
- British Library om de nätverksgrafer de skapar och använder #GraphQL för att hämta detta data
- Webinar - FREYA PID Services: GraphQL API & Common DOI Search
- "PIDs for Publications and Data" lathund för hur dessa PIDar skapas
- Tracking the Growth of the PID Graph
- Using Jupyter Notebooks with GraphQL and the PID Graph
- Survey of Current PID Services Landscape (pdf)
- hur Google skapar sin kunskapsgraf "Applied semantics: beyond the catalog"
Frågor tankar om detta se Facebook gruppen Släktforskning Semantisk Web
- 23andme om SILOS och DBAtester
- 23andme om maskinlearning


Inga kommentarer:
Skicka en kommentar