Det fantes en liste med 200 000 stort sett unike nummer. Et ukjent antall (ikke så stort) av disse var duplikater. Altså at person nr 1234 står to ganger på listen.
Man mottar et tilfeldig uttrekk av denne listen, 100 000 av numrene, og forventer at alle skal være unike, for det var egentlig meningen. Man kjører en duplikatsjekk og oppdager at noen av dem (ca. 100) ligger inne med mer enn en forekomst.
Spørsmål: Hvor mange av disse numrene er det sannsynlig at har (minst) en forekomst på hver av listene? Gitt at den originale listen på 200 000 ble delt tilfeldig i to? 100? 200?
Anta for enkelthets skyld at de fleste duplikatene er dobbelt opp, ikke flere enn det.
Du har en liste på 100 000 av 200 000, og av disse så forekommer det 100 stk med dubletter?
Jeg ville da antatt at det vil være tilsvarende mengde med dubletter på de 100 000 jeg ikke har mottatt.
Ja, det antar jeg også, så langt har jeg kommet. Men hvor mange har havnet med en fot på hver liste? Altså at jeg hadde to stk 1234 på den lange listen med 200 000, og så har en 1234 havnet på liste en og en 1234 havnet på liste to.
Jeg vakler mellom å tenke at det er tre utfall som er like sannsynlige, og dermed fordeles 100, 100, 100, og 3 utfall hvorav det midterste er dobbelt så sannsynlig som de to andre:
Alternativ 1: 100 dubletter havner begge to på liste en (utfall 1). 100 dubletter havner en på liste en og en på liste to (utfall 3). 100 dubletter havner begge på liste to (utfall 2).
Alternativ 1: 100 dubletter havner begge to på liste en (utfall 1). 200 dubletter havner en på liste en og en på liste to (utfall 3. 100 dubletter havner begge på liste to (utfall 2).
Jeg hadde slått sammen listene, dyttet dem inn i en tabell i en database, og kjørt en select id, count() from [tabell] having coint() >1
Antagelser fungerer dårlig egentlig.
Du kan ha 100 dubletter på din liste, det kan være 100 på den andre listen, og det kan være 100 eller 200 eller 300 som ligger en gang på din liste, og en gang på den andre listen, altså i prinsippet dubletter.
Hvis det er to like tall på en liste, vil det ikke være dobbelt så sannsynlig at de havner på hver sin liste som at begge havner på liste en, hvis man deler lista tilfeldig i to? Altså gjetter jeg 200 tall som finnes på begge listene.
Med alle slags mulige forbehold, spesielt ammetåke. :knegg:
Ja, men hvis navn1 og navn2 er like gir navn1 på liste A og navn2 på liste B samme utfall som navn2 på liste A og navn1 på liste B. Altså er det to muligheter for at de havner på hver sin liste, men bare en mulighet for at begge havner på liste A.
Man har en liste med navnene Anne, Bjarne1, Bjarne2 og Cathrine, disse skal deles i to lister. Mulighetene er:
(Anne, Bjarne1) (Bjarne2, Cathrine)
(Anne, Bjarne2) (Bjarne1, Cathrine)
(Anne, Cathrine) (Bjarne1, Bjarne2)
(Bjarne1, Bjarne2) (Anne, Cathrine)
Altså ett tilfelle der begge Bjarne står på liste A, ett tilfelle der begge står på liste B og to tilfeller der de står på begge listene.
Jeg tror ikke rekkefølgen innad i listene har noe å si, men jeg er ikke 100% sikker.
Så på den totale listen på 200.000 navn så tror du at det er 600 dubletter?
Det vil vel fortsatt bare være gjetning, da 600 navn spredt innimellom 200.000 rader kan være veldig tilfeldig delt på de to halvdelene av arket. Men det vil jo absolutt være best guess!