Grivitei Pythonista: "Greutatea" cuvintelor, sau Poisson versus atc

Back to blogging:)
Nu prea am avut timp in ultima vreme (new job + sesiune + o groaza de carti ce trebuie citite), dar acum vreo doua zile mi-am facut timp pentru a incerca sa imbunatatesc "tehnologia" din spatele MogNews.
E vorba despre tehnica de determinare a celor mai importante cuvinte dintr-un articol, ce sunt folosite intr-o etapa urmatoare pentru a imparti articolele in clustere si pentru a fi "assignate" anumitor categorii, daca e cazul. In momentul de fata folosesc modelul Poisson, conform caruia cuvintele ce descriu cel mai bine un anumit articol nu respecta distributia Poisson. Cu alte cuvinte, cu cat un cuvant se abate mai mult de la distributia Poisson caracteristica unui anumit articol, cu atat are mai mari sanse sa reprezinte un termen "cheie" pentru acel articol.
Am ales sa implementez acest model si pentru ca mi se parea destul de familiar, asta si dupa ce citisem Information Retrieval a lui CJ van Rijsbergen, unde era descris destul de inteligibil pentru un novice in IR, asa cum eram anul trecut pe vremea asta :). Totusi curand am dat peste modelul tf.idf ("term frequency and the inverse document frequency"), mai precis peste varianta acestuia, asa numitul "atc-weight". Chiar inainte sa termin implementarea pentru modelul Poisson m-am apucat sa scriu cateva randuri si pentru o posibila implementare a acestui model, dar m-am oprit undeva pe la jumatate.
Dupa un an de zile in care s-au intamplat destule, mi-am zis sa scot acest proiect de la naftalina si l-am adus aproape de finish.
La o prima comparatie cu rezultatele returnate de modelul Poisson, modelul atc se comporta mai bine pentru articolele "orfane" (care apar intr-un singur ziar), in timp ce Poisson are rezultate mai bune pentru articolele asemanatoare ce apar in mai multe ziare. S-ar putea sa ma insel, dar ma gandesc ca asa ar fi si logic. Explicatia consta in faptul ca modelul Poisson atribuie o "greutate" ("weight") unui anumit cuvant ce este valabila pentru toate articolele, in timp ce modelul atc atribuite "greutati" diferite cuvintelor pentru fiecare articol in parte.
Sper ca m-am facut inteles cat de cat:), mai urmeaza sa imi fac cat de curand timp astfel incat sa integrez modelul atc in MogContext, pentru a putea compara mai bine rezultatele obtinute de modelul Poisson si de modelul atc.
Toate acestea pe larg le gasiti si aici.

Grivitei Pythonista

Tuesday, June 14, 2005

"Greutatea" cuvintelor, sau Poisson versus atc

0 Comments:

About Me

Pozele mele pe Flickr

Previous Posts