Datele de la bac

Pentru cei interesați, pun mai jos datele de la bac pentru anii 2006-20112012 (aprox. 6MB fiecare fișier). Am pus checksumul (MD5) pentru fiecare fișier cu date (deci pentru .csv-ul din interiorul arhivei, nu pentru arhivă), verificați-l ca nu cumva să fie fișierul incomplet:

date bac 2006: 49d7a8f28507ff6e81cc4bb116e874d4

date bac 2007: aca4382b9189f104d43745b32c11746d

date bac 2008: f5846b68b27de00f068b78aa43be54ec

date bac 2009: e4457f1403a9ba0bfa1bbdba6e48b049

date bac 2010: fc4774a8f3df1357a6000b7c3bbc3b62

date bac 2011: 57a971f735e62b7525c40fb80c20559a

Update 16 iulie 2012: date bac 2012: df026420e3851fc672dfcc4d11c54f87

Pentru a facilita analiza datelor de la an la an, am adăugat o coloană cu un id unic pentru fiecare școală (nu e perfect, adică mai sunt unele școli care au două id-uri după cum li s-a schimbat numele de la un an la altul – dacă mai îmbunătățește cineva situația aș aprecia să revină cu completări).

Categorie: Educatie.

Lasati un comentariu.

21 Comentarii

  1. spyked says:

    (attempt at constructive trolling; also, big off-topic) Hash-ul e MD5 sau vreun SHA? Mă gândesc că nu ar strica menționat, just for the reference.

    Și înainte să sară hienele pe mine că doar MD5 e relevant, țin să menționez că eu unul folosesc hash-uri SHA1 zilnic, astea din urmă tratând problema entropiei/coliziunilor o idee mai bine decât MD5.

  2. Eu as recomanda ceva Tiger.

  3. @spyked: pentru CSV-urile astea amărâte un hash MD5 ar trebui să fie suficient. Nu sunt nici multe date și nici n-avem de-a face cu mari nevoi de securitate.
    Mai util putea cred că ar fi fost să le comprime cu (tar și) xz [vezi website] în loc de zip.

  4. Cristian ♂ ☭ ♊ ♡ ☺ says:

    @ⓜⓘⓡⓒⓔⓐ ⓟⓞⓟⓔⓢⓒⓤ ❃ ❂ ❁ ❀ ✿ ✾ ✽ ✼ ✻ ✺ ✹ ✸ ✷ ✶ ✵ ✴ ❄ ❅ ❆ ❇ ❈ ❉ ❊ ❋ ❖ ♲ ♺ ☞ ☃ ☀ ☂: Eye of the Tiger?

    P.S. Cu ocazia asta mormăi din nou ceva despre linkuri și moderarea lor.

  5. Diana Coman says:

    @spyked Ai dreptate, MD5, o sa fac update si-n articol. Le-am pus mai mult pentru ca sa se poata lumea asigura ca sunt datele complete, nu chiar ca masura de securitate.

    @Cristian Mda pentru comprimare. Recunosc ca mi-a fost lene sa le mai comprim serios :P Dar mormaitul e la liber, sa stii…

  6. Sorin says:

    Lucrezi in invatamant, de ce publici datele de la bac?

    Astia care vor asigura pensia angajatilor de astazi se indreapta spre “bine”, sau angajatii sa nu se lase in baza lor ?

  7. Diana Coman says:

    @Sorin Le public eu, pentru ca ministerul nu o face. Asta e tristul adevar. Si pentru ca sunt de fapt de interes public.

    La modul general, eu zic ca nu e o idee buna sa te “lasi” in seama altora, ca deh, daca tu nu-ti ai grija, cine sa ti-o aiba mai bine? Concret la intrebare e mai greu de raspuns, pentru ca unde se indreapta oamenii nu e atat de clar si evident strict pe baza unui examen la 18 ani. Dar ca lucruri interesante, as zice de exemplu ca aceasta concentrare de licee bune in anumite zone ale tarii se va reflecta sigur in prosperitatea zonelor respective fata de altele. Si deci se vor adanci diferentele si problemele inerente…

    P.S. Nu, nu lucrez in invatamant, desi am lucrat (foarte putin in Ro, ceva mai mult in strainatate). Dar imi pare ca totusi viitorul ne priveste pe toti cum s-ar spune, fie ca ne uitam noi la el, fie ca nu.

  8. Diana Coman says:

    @Monica Bietul tigru, ce-au ajuns ochii lui… :)

  9. Bre nubilor. Tiger. Tancul ala de pe vremea fascisto-hitleristilor hortisti si iredentisti.

  10. Diana Coman says:

    @Mircea Popescu Nu,nu, cu siguranta NU acela. Sigur e vorba despre cantec mai degraba :P

  11. Cristian says:

    @Mircea Popescu: da’ ce-i aici, hub de DC?

  12. Dr.A says:

    Am pus intrebarea si pe twitter da n-am primit raspuns: http://twitter.com/#!/ro_xygen/status/110746234590998528

    Are cineva statistici cu cat la suta din tezele de BAC incap intr-un tweet?

  13. Diana Coman says:

    @Dr.A In Romania nimeni n-are statistici. Nici nu mai e nevoie de Rusia sovietica.

  14. Freud says:

    @cristian : nu, el facea aia pe blog cu criptogramele si mai nou facuse un sistem cu verificare a solutiei prin ceva hash md5 sau cum ii spune, de e spart prin bruteforce in cateva secunde.

    tiger inca nu.

  15. Cristian says:

    @Freud: nici MD5 nu se sparge atât de ușor, mai ales că spartul ăsta nu are semnificația clasică. Nu găsești atât de ușor ceva care să se potrivească cu un hash MD5 și care pe deasupra să mai fie și inteligibil/util. De exemplu nu e așa ușor să creezi un CSV care să pară că are rezultatele de la bac și care să aibă același hash cu cel publicat de Diana.

  16. Freud says:

    vezi ce si cum http://www.md5decrypter.co.uk/

    restul ma cam depaseste

  17. Diana Coman says:

    @Freud Ca discutie pur tehnica e ok, MD5 intr-adevar nu l-as recomanda ca si protectie serioasa a datelor. Dar in cazul de fata nici nu este pentru protectia datelor impotriva unor modificari neautorizate ci doar ca o modalitate de verificare a transferului de fisiere de pe server.

    Motivul pentru care am ales MD5 si nimic altceva e pentru ca e arhicunoscut si raspandit (si deci oricine vrea sa analizeze datele il poate folosi usor) si pentru ca imi pare ca efortul necesar pentru a-l “sparge” in acest context (adica obtinand in schimb niste date modificate semnificativ si fara sa fie usor detectabil) e pur si simplu prea mare ca sa reprezinte un risc serios.

  18. Cristian says:

    @Freud: interesant sait, doar că n-a mers pentru md5sum("o parola kilometrica") = 85e7789110da27f3f59d455a8b283aaa.
    Apropo, ia de citește aici despre rainbow tables. Și mai interesant a fost experimentul unora care au prezis viitorul președinte SUA înainte de alegerile din 2008 și au oferit hash-ul pentru documentul cu rezultatul. Ce s-a întâmplat de fapt a fost că ei au reușit să genereze 2 PDF-uri, unul pentru Obama și altul pentru McCain, care aveau același hash MD5.

    @Diana: corect

  19. … interesant ar fi sa studiezi si sa demonstrezi ca de fiecare data in Ro … Bac-ul a fost fraudat la greu…(chiar se pot scrie multe dpdv statistic, sociologic si nu numai

  20. Diana Coman says:

    @gabriel teodorescu Ca se fura la Bac imi pare ca se cam stie… Intr-adevar, se pot face multe analize, s-au si facut deja cateva, daca te intereseaza vezi aici.

3 Trackbacks

  1. [...] Datele brute folosite pentru analiza au fost extrase de Diana Coman si sunt disponibile pe blogul ei alaturi de un top national al liceelor din Romania functie de nota medie obtinuta de elevi la Bacalaureat in 2012. Multumim Diana. [...]

  2. [...] Datele brute folosite pentru analiza au fost extrase de Diana Coman si sunt disponibile pe blogul ei alaturi de un top national al liceelor din Romania functie de nota medie obtinuta de elevi la Bacalaureat in 2012. Multumim Diana. [...]

  3. [...] format ineficient si inutilizabil de “publicare” a datelor de la Bacalaureat, completez datele privind rezultatele cu cele privind centrele de evaluare din anii 2006-2012. Sirul de caractere pentru fiecare link e [...]

Lasati un comentariu

Puteti folosi aceste taguri si atribute HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Notify me of followup comments via e-mail. You can also subscribe without commenting.

RSS Subscribe to Merisire Twitter: diana_coman

Arhiva:

Comentarii recente:
  • Diana Coman: @Freud Aham, cum ziceam: mai c...
  • Freud: Am presupus ca problema lui So...
  • Diana Coman: @Freud Una din doua: ori expri...
  • Freud: Ce-am gresit de ma trimiti sa ...
  • Diana Coman: @Freud Mhm mhm, recitesti? ...