Pre više od dve godine pomenuo sam fascinantan Amazonov servis “ Search Inside” koji raspolaže ogromnom bazom skeniranih i OCR-ovanih knjiga iz ponude. A malopre primetih jednu jako interesantnu primenu baze u servisu “statistički malo verovatne fraze” (SIP - “ Statistically Improbable Phrases”).

O čemu se radi? Njihovi serveri “čitaju” sadržaj skeniranih knjiga i za svaku knjigu izdvajaju nekoliko fraza koje se često pojavljuju u toj, ali jako retko u ostalim knjigama na Amazonu. Vrlo je verovatno da su dotične fraze usko povezane sa samom radnjom knjige, te su SIP-ovi praktično mašinski izdvojene ključne reči.

Moćna stvar! :)