Velkommen, Gjest.

< Tilbake til oversikten | Hvem kan lese?

Statistikk eller logikk eller hva jeg skal si

#1

Polyanna sa for siden:

Trenger å sjekke tenkingen min her:

Det fantes en liste med 200 000 stort sett unike nummer. Et ukjent antall (ikke så stort) av disse var duplikater. Altså at person nr 1234 står to ganger på listen.

Man mottar et tilfeldig uttrekk av denne listen, 100 000 av numrene, og forventer at alle skal være unike, for det var egentlig meningen. Man kjører en duplikatsjekk og oppdager at noen av dem (ca. 100) ligger inne med mer enn en forekomst.

Spørsmål: Hvor mange av disse numrene er det sannsynlig at har (minst) en forekomst på hver av listene? Gitt at den originale listen på 200 000 ble delt tilfeldig i to? 100? 200?

Anta for enkelthets skyld at de fleste duplikatene er dobbelt opp, ikke flere enn det.


#2

Ru sa for siden:

Har du fått oversikt over folks mobilnummer fra DIFI? :skratte:


#3

Polyanna sa for siden:

Vet ikke hva det betyr, men nei. :knegg:


#4

Ru sa for siden:

Vel, la meg bare si at der er det ikke bare duplikater som i dobbelt opp. Vi snakker både 4 og 5 og enda flere.

(Men jeg bare fjaser, jeg er med på tenkningen din, men klarer ikke bidra. Fullt i hodet.)


#5

Polyanna sa for siden:

Ja, mitt også, sitter og prøver å tenke på papir nå. :svimmel:


#6

Mex sa for siden:

Du har en liste på 100 000 av 200 000, og av disse så forekommer det 100 stk med dubletter?
Jeg ville da antatt at det vil være tilsvarende mengde med dubletter på de 100 000 jeg ikke har mottatt.


#7

Polyanna sa for siden:

Ja, det antar jeg også, så langt har jeg kommet. Men hvor mange har havnet med en fot på hver liste? Altså at jeg hadde to stk 1234 på den lange listen med 200 000, og så har en 1234 havnet på liste en og en 1234 havnet på liste to.

Jeg vakler mellom å tenke at det er tre utfall som er like sannsynlige, og dermed fordeles 100, 100, 100, og 3 utfall hvorav det midterste er dobbelt så sannsynlig som de to andre:

Alternativ 1: 100 dubletter havner begge to på liste en (utfall 1). 100 dubletter havner en på liste en og en på liste to (utfall 3). 100 dubletter havner begge på liste to (utfall 2).

Alternativ 1: 100 dubletter havner begge to på liste en (utfall 1). 200 dubletter havner en på liste en og en på liste to (utfall 3. 100 dubletter havner begge på liste to (utfall 2).


#8

Pelle sa for siden:

:gaah::redd::gal::iiik:

Sorry. Måtte bare uttrykke mine umiddelbare følelser ved å tenke et kvart sekund på hva jeg skulle gjort med en slik oppgave på jobb.


#9

Candy Darling sa for siden:

Hah, fiffig! Umiddelbart tenkte jeg at incidensen er 100 på 100.000, men du har jo silent dublettes i ukjent omfang.


#10

Polyanna sa for siden:

Nå er jeg der at jeg snart svarer "et sted mellom 100 og 200". :knegg:


#11

Mex sa for siden:

Jeg hadde slått sammen listene, dyttet dem inn i en tabell i en database, og kjørt en select id, count() from [tabell] having coint() >1
Antagelser fungerer dårlig egentlig.
Du kan ha 100 dubletter på din liste, det kan være 100 på den andre listen, og det kan være 100 eller 200 eller 300 som ligger en gang på din liste, og en gang på den andre listen, altså i prinsippet dubletter.


#12

Candy Darling sa for siden:

Jeg ville sagt 150 på 100.000 - 100 du oppdager og 50 silent i hver gruppe?


#13

Candy Darling sa for siden:

Det er så høye tall her at det vel ikke er noen grunn til at de silente ikke skal fordele seg noenlunde likt mellom gruppene?


#14

Polyanna sa for siden:

Tilleggsinfo: Jeg har ikke tilgang til den andre listne, kun min halvpart...


#15

Mex sa for siden:

Så da skal du bare gi et anslag over forventede dubletter?


#16

Cauchy sa for siden:

Hvis det er to like tall på en liste, vil det ikke være dobbelt så sannsynlig at de havner på hver sin liste som at begge havner på liste en, hvis man deler lista tilfeldig i to? Altså gjetter jeg 200 tall som finnes på begge listene.

Med alle slags mulige forbehold, spesielt ammetåke. :knegg:


#17

Cauchy sa for siden:

Alternativ 1! :)

Jeg tror altså det andre alternativet er riktig.


#18

Candy Darling sa for siden:

Vil det det? Det vil være akkurat like sannsynlig at hvert navn kommer på liste A som på liste B, uavhengig av om det andre navnet er her eller der?


#19

Polyanna sa for siden:

Jeg har kalt begge alternativene alternativ 1! :haha:

Men det andre alternativet har en stemme her, altså.


#20

Polyanna sa for siden:

Dette er et uventet problem, og det at samme nummer har havnet på begge lister lager litt trøbbel. Så jeg vil anslå hvor stort antagelig er.


#21

Cauchy sa for siden:

Ja, men hvis navn1 og navn2 er like gir navn1 på liste A og navn2 på liste B samme utfall som navn2 på liste A og navn1 på liste B. Altså er det to muligheter for at de havner på hver sin liste, men bare en mulighet for at begge havner på liste A.


#22

Polyanna sa for siden:

Jeg tror svaret er 200 som har havnet begge steder.

Første dublettutfall: en til A og en til b
Andre : en til A og en til A
Tredje: en til b og en til A
Fjerde: en til b og en til b

Altså dobbelt så mange som havner hvert sitt sted.


#23

Cauchy sa for siden:

Eksempel:

Man har en liste med navnene Anne, Bjarne1, Bjarne2 og Cathrine, disse skal deles i to lister. Mulighetene er:
(Anne, Bjarne1) (Bjarne2, Cathrine)
(Anne, Bjarne2) (Bjarne1, Cathrine)
(Anne, Cathrine) (Bjarne1, Bjarne2)
(Bjarne1, Bjarne2) (Anne, Cathrine)

Altså ett tilfelle der begge Bjarne står på liste A, ett tilfelle der begge står på liste B og to tilfeller der de står på begge listene.

Jeg tror ikke rekkefølgen innad i listene har noe å si, men jeg er ikke 100% sikker.


#24

Cauchy sa for siden:

Eller det Polyanna sa... :)



#26

Timar sa for siden:

Så på den totale listen på 200.000 navn så tror du at det er 600 dubletter?
Det vil vel fortsatt bare være gjetning, da 600 navn spredt innimellom 200.000 rader kan være veldig tilfeldig delt på de to halvdelene av arket. Men det vil jo absolutt være best guess!


#27

Polyanna sa for siden:

Nei, 400. 100 på liste en, 100 på liste to, 200 med en på hver liste.



#29

Mex sa for siden:

Tror det blir det beste estimatet, ja.


Foreldreportalen er i en flytteprosess, denne versjonen av FP er fortsatt under utvikling. Hvis du vil svare i tråden, så kan du gjøre det her.