
Via Twine van Nova Spivack stuitte ik op een interessant research project van Takahiro KAWAMURA werkzaam bij Toshiba: UbiComp, a Ubiquitous Metadata Scouter.
In de huidige wereld is het voor de gebruiker meer en meer wenselijk om de reële wereld instant te kunnen koppelen aan relevante informatie op het Internet (zie ook Ubiquitous computing), dit brengt echter nieuwe problemen met zich mee.
The ‘ubiquitous’ mobile web
Tijdens conventioneel surfen met een desktop computer kan een gebruiker eenvoudig door (zoek)resultaten bladeren totdat zijn informatievraag is beantwoord. Dit komt door de voordelen van een (groot) scherm, muis, toetsenbord en een snelle verbinding . De mobiele telefoon is echter een typisch ‘ubiquitous’ apparaat. Een mobiele telefoon kent meer drempels tijden het surfen: over het algemeen heeft deze een klein scherm, minder toetsen/functionaliteit en een minder snelle verbinding (+kosten dataroaming). Vandaar dat het voor een dergelijke manier van surfen belangrijk is om efficiënt te werk te kunnen gaan bij het zoeken naar informatie. De zoekpaden naar de benodigde informatie (metadata) dienen zo kort mogelijk te zijn. Dit kan bereikt worden door bepaalde stappen te preprocessen en relevante data aan de server kant al voor de gebruiker te extraheren en aggregeren. De Ubiquitos Metadata Scouter is een oplossing voor dit probleem en versimpelt het verkrijgen van relevante data door als eerste stap het scannen van de barcode van een product.
Na het scannen (fotograferen) van de barcode van een product met de mobiele telefoon ontvangt de gebruiker automatisch relevante informatie: meta info, reputatie (pos/neg), voorbeelden van andere soortgelijke producten binnen hetzelfde domein, achtergrond artikelen (blogpostings).
Voor een boek zou dit dus betekenen dat na het scannen van de barcode wordt getoond:
a. Meta info (schrijver,titel,uitgeverij) afkomstig van UPC/EAN/JAN of ISBN.
b. Achtergrond informatie: wat is er op blogs geschreven over dit boek? Filter en sorteer deze automatisch.
c. Reputatie (Word of Mouth) op basis van geselecteerde blogs, hoeveel mensen vonden dit een goed boek (Positive / Negative determination)
d. Soortgelijke boeken binnen dit genre / gerelateerd aan de schrijver waar veel over geschreven is (Hot Topic extraction).
Reputatie: Positieve en Negatieve bevindingen (Positive / Negative determination)
Er bestaan binnen de Natuurlijke Taal Verwerking meerdere oplossingen voor Positive/Negative determination . Een methode die tijdens dit project voorgesteld is, is om te werken met zogenaamde ‘triples’ <subject,atribute,value> voor bepaalde onderwerpen/woorden bijvoorbeeld: <boek,prijs,goedkoop> of <boek,genre,roman>.
In eerste instantie werden blog entries als losstaande corpora gezien en kan deze methode gebruikt worden, maar door de integratie van trackback technieken bij veel blogplatformen werd er voorbij gegaan aan het feit dat het aantal trackbacks een significante waarde bepaalt voor de waarde van een blog entry. Een blog mag dan ook niet als een dagboek worden gezien, ook niet als een platform voor een reclame uiting maar meer als een los-verbonden community. Een blogger die veel over een onderwerp schrijft heeft toch een andere psychologische impact voor de gebruiker dan een die incidenteel over een onderwerp schrijft.
Om deze feiten mee te laten wegen voor het bepalen van het gewicht van een mening zijn er 11 parameters opgesteld voor het het wegen van een mening:
1. Non-anomity: leg het gewicht op het aantal trackbacks van een blog entry en niet op de tekst zelf.
2. Widely acceptance: bekijk op basis van trackbacks naar aan het aantal verschillende bloggers die (positief) op de blog entry hebben gereageerd.
3. Expert: blogger die over meerdere gerelateerde producten schrijven krijgen een hoger gewicht.
4. The Brave: Leg het gewicht op een reactie waarbij ingestemd wordt met commentaar
5. Pioneer: Legt het gewicht op een entry die al lange tijd reacties ontvangt, en wellicht een van de eerste was die over het onderwerp berichtte.
6. High acceleration: leg het gewicht op opinies die binnen korte tijd veel reactie hebben ontvangen door het verschil in tijd van de eerste response en de laatste response te delen door het aantal reacties.
7. Opinion leader: bloggers die gemiddeld veel reacties plaatsen krijgen een hogere waarde.
8. No-ads: verlaag het gewicht van blogs die geen reacties ontvangen.
9. No-agency: verlaag het gewicht voor bloggers die veel blog entries hebben maar zeer weinig reacties.
10. Debate: Leg gewicht op meningen die frequent voorkomen tussen enkele bloggers voor gegeven product.
11. Negativism: 70% van de bloggers zijn eerder geneigd om iets positiefs dan negatieve aspecten naar voren te brengen. De intentie van een blogger die een negatief aspect naar voren brengt is hoger dan die van een positief.

Om de juiste waarde te bepalen van elke parameter is finetuning nodig dmv publieke experimenten. Verder moet er op basis van de opgestelde ontologie goed gekeken naar de waarde van een uitdrukking. Als er überhaupt al direct een waarde oordeel uit voort kan komen. Als er niet direct een positieve of negatieve waarde oordeel bepaald kan worden kan er gekeken worden naar de relatie waar de expressie deel van uit maakt.
Hot topic extraction
Hot topic extraction is een methode om, op basis van product ontologie en suggesties in blog entries, suggesties voor soortgelijke producten te verkrijgen. Aangezien er in de huidige wereld veel blogs vol zitten met spam (keyword spamming) en ads functioneert een simplistische statistische methode als keyword frequency niet meer. Om de juiste Hot Topics te kunnen verkrijgen geldt er wederom dat er ook naar de trackback reputatie van een blog gekeken dient te worden . Dit lijkt de meest effectieve manier om naar Hot Topic extraction te kijken. Ubicomp werkt door eerst een lijst met voor het product gerelateerde blog entries op te halen, en dan enkele blog entries te selecteren op basis van hun trackbacks
De mate van relatie en populariteit wordt op basis van de volgende heuristiek bepaald
1. Popularity: een product besproken in de eerste entry van een blog thread heeft een hoge populariteit
2. Popularity: een product genoemd in een blog thread met veel trackbacks en reacties kent een hoge populariteit.
3. Relationship: andere producten genoemd in de entries van een blog thread hebben een relatie met het eerst genoemde product.
4. Popularity: als verschillende blog threads bestaan en elk meerdere gebruikers reacties hebben, kent het product een hoge populariteit.
Sorteren and Filteren
Uiteindelijk wil de gebruiker naast repuatie en suggestie ook gerelateerde blogpostings kunnen lezen. Op basis van de eerdere berekeningen en spam bepalingen vindt er een ranking van de blogs plaats.

Search Time
Het duurt zo’n 10 tot 30 seconden om alle data te verwerken en de resultaten aan de gebruiker te tonen op zijn telefoon (Pentium 4, 3.2 GHz met 1GB geheugen).
