Web 3.0 conference Santa Clara, California, Part 2

I attended the Web3.0 conference last month in Santa Clara. The conference was truly inspiring, but web 3.0? One of the first questions you have to ask is “Does web 3.0 mean the semantic web?” Should we view the semantic web as a world wide database, as suggested by Dr. Mark Greaves of Vulcan, and what issues will it raise?
How cumbersome will working with numerous database administrators be? If it is a database, it will certainly be the largest - and noisiest - database in the world. This so-called noise is a big problem for the semantic web.
Another problem is that for many topics there is a vast surplus of information available - how do you find out the richest links? On the other hand, it is democratic, crowdsourced, scalable knowledge engineering, which makes the semantic web a great knowledge base for humanity.
Freshness has always been important for search and over the last months ‘live-search’ has become very popular. Due to the popularity of social media sites like Twitter, search engines have had to go hyper-fresh. People are creating a constant stream of new input, which can contain very useful and especially up-to-date information. But these hyper-fresh content services are creating new problems for search engines. Tweets aren’t always written in English and there are only 140 characters available to broadcast your message. Because there are only 140 characters, semantic technology can be quite helpful in extracting the true meaning of a message. Through semantic technology it’s possible to detect entities that are referenced and disambiguate them.
Search engines like Bing (Microsoft) are already implementing semantic technology for extracting information. “All search engines are somewhat semantic already” according to Scott Prevost, Principal Development Manager for Bing. Whatever the real definition for semantic search is, “it’s already here but it hasn’t been a ‘Voila!’ moment. Semantic search won’t be a big revolution from a new startup, but there will be game changers”. Scott has had first hand experience here with Powerset, often called “The New Google” in the media before their acquisition by Microsoft in 2008 as a feature for their search technology.
Semantic technology, like all technology, needs a certain critical mass. The good thing is that the ecosystem is growing at the moment, with more and more publishers helping out. But the main focus of semantic tech companies should be on creating systems which can automatically promote open content, so we won’t be dependent on the efforts of publishers. By creating this kind of technology the costs of semantic publishing will shrink to almost zero in several years, just as online publishing did during the web 2.0 era.
The technology is here now - there are already more than 1600 APIs and they are growing at a non-linear accelerated rate. People are starting to work in the cloud as the new data center and it is the illusion of infinite scalability and omniscience that serve as inducements. Tom Gruber, a recognized expert in Artificial Intelligence, intelligent interfaces, semantic technologies, and presenter at Web3.0, strongly believes in the “Gigantic Join” which he thinks web 3.0 will become. The semantic web will include the possibility of numerous “joins” of APIs, and his latest product Siri.com is built on this idea. Siri is a mobile device-based question and answer application using speech as input, and is built on a collection of available APIs.
This application is a good example for the upcoming mobile web, which is creating new rules, and possibilities for the semantic web. Mobile devices create new sources of input - users don’t speak in keywords, they ask questions in their native language. These new ways of input have to be interpreted, and that’s where semantic technology kicks in. “Semantic technology is the hottest area of web architecture right now,” according to Dr. Greaves. “It’s a new way of thinking about the web as we know it” says Scott Prevost.
You could indeed feel this vibe at web 3.0. People are eager to learn from each other, sharing thoughts and inspiring each other. In the coming weeks I will dig deeper into some of the Web3.0 topics related to semantic technology like SEO, search and business and opportunities.
Web 3.0 conference Santa Clara, California

From 23 january till 2 february I’ll be in San Francisco / Silicon Valley to attend the Web 3.0 conference.
Ten is the start of a new decade and the third decade for the Web. The third decade is often seen as and referred to the decade of the semantic Web. So I think that it’s a great way to start this new decade in 2010 by attending the Web 3.0 conference deep in the the heart of the information technology forest - Silicon Valley.
European Semantic Technology Conference 2009

From 1 till 4 december I’ll be in Vienna for the European Semantic Technology Conference 2009 http://www.estc2009.com/
Papers: “Autotagging Facebook: Social Network Context Improves Photo Annotation.”
Great paper by: Zak Stone, Todd Zickler, and Trevor Darrell, “Autotagging Facebook: Social Network Context Improves Photo Annotation.” First IEEE Workshop on Internet Vision, 2008. (Best Paper Award.) [PDF]
Abstract
“Most personal photos that are shared online are embedded in some form of social network, and these social networks are a potent source of contextual information that can be leveraged for automatic image understanding. In this paper, we investigate the utility of social network context for the task of automatic face recognition in personal photographs. We combine face recognition scores with social context in a conditional random field (CRF) model and apply this model to label faces in photos from the popular online social network Facebook, which is now the top photo-sharing site on the Web with billions of photos in total. We demonstrate that our simple method of enhancing face recognition with social network context substantially increases recognition performance beyond that of a baseline face recognition system. ” [PDF]
UbiComp, a Ubiquitous Metadata Scouter

Via Twine van Nova Spivack stuitte ik op een interessant research project van Takahiro KAWAMURA werkzaam bij Toshiba: UbiComp, a Ubiquitous Metadata Scouter.
In de huidige wereld is het voor de gebruiker meer en meer wenselijk om de reële wereld instant te kunnen koppelen aan relevante informatie op het Internet (zie ook Ubiquitous computing), dit brengt echter nieuwe problemen met zich mee.
The ‘ubiquitous’ mobile web
Tijdens conventioneel surfen met een desktop computer kan een gebruiker eenvoudig door (zoek)resultaten bladeren totdat zijn informatievraag is beantwoord. Dit komt door de voordelen van een (groot) scherm, muis, toetsenbord en een snelle verbinding . De mobiele telefoon is echter een typisch ‘ubiquitous’ apparaat. Een mobiele telefoon kent meer drempels tijden het surfen: over het algemeen heeft deze een klein scherm, minder toetsen/functionaliteit en een minder snelle verbinding (+kosten dataroaming). Vandaar dat het voor een dergelijke manier van surfen belangrijk is om efficiënt te werk te kunnen gaan bij het zoeken naar informatie. De zoekpaden naar de benodigde informatie (metadata) dienen zo kort mogelijk te zijn. Dit kan bereikt worden door bepaalde stappen te preprocessen en relevante data aan de server kant al voor de gebruiker te extraheren en aggregeren. De Ubiquitos Metadata Scouter is een oplossing voor dit probleem en versimpelt het verkrijgen van relevante data door als eerste stap het scannen van de barcode van een product.
Na het scannen (fotograferen) van de barcode van een product met de mobiele telefoon ontvangt de gebruiker automatisch relevante informatie: meta info, reputatie (pos/neg), voorbeelden van andere soortgelijke producten binnen hetzelfde domein, achtergrond artikelen (blogpostings).
Voor een boek zou dit dus betekenen dat na het scannen van de barcode wordt getoond:
a. Meta info (schrijver,titel,uitgeverij) afkomstig van UPC/EAN/JAN of ISBN.
b. Achtergrond informatie: wat is er op blogs geschreven over dit boek? Filter en sorteer deze automatisch.
c. Reputatie (Word of Mouth) op basis van geselecteerde blogs, hoeveel mensen vonden dit een goed boek (Positive / Negative determination)
d. Soortgelijke boeken binnen dit genre / gerelateerd aan de schrijver waar veel over geschreven is (Hot Topic extraction).
Reputatie: Positieve en Negatieve bevindingen (Positive / Negative determination)
Er bestaan binnen de Natuurlijke Taal Verwerking meerdere oplossingen voor Positive/Negative determination . Een methode die tijdens dit project voorgesteld is, is om te werken met zogenaamde ‘triples’ <subject,atribute,value> voor bepaalde onderwerpen/woorden bijvoorbeeld: <boek,prijs,goedkoop> of <boek,genre,roman>.
In eerste instantie werden blog entries als losstaande corpora gezien en kan deze methode gebruikt worden, maar door de integratie van trackback technieken bij veel blogplatformen werd er voorbij gegaan aan het feit dat het aantal trackbacks een significante waarde bepaalt voor de waarde van een blog entry. Een blog mag dan ook niet als een dagboek worden gezien, ook niet als een platform voor een reclame uiting maar meer als een los-verbonden community. Een blogger die veel over een onderwerp schrijft heeft toch een andere psychologische impact voor de gebruiker dan een die incidenteel over een onderwerp schrijft.
Om deze feiten mee te laten wegen voor het bepalen van het gewicht van een mening zijn er 11 parameters opgesteld voor het het wegen van een mening:
1. Non-anomity: leg het gewicht op het aantal trackbacks van een blog entry en niet op de tekst zelf.
2. Widely acceptance: bekijk op basis van trackbacks naar aan het aantal verschillende bloggers die (positief) op de blog entry hebben gereageerd.
3. Expert: blogger die over meerdere gerelateerde producten schrijven krijgen een hoger gewicht.
4. The Brave: Leg het gewicht op een reactie waarbij ingestemd wordt met commentaar
5. Pioneer: Legt het gewicht op een entry die al lange tijd reacties ontvangt, en wellicht een van de eerste was die over het onderwerp berichtte.
6. High acceleration: leg het gewicht op opinies die binnen korte tijd veel reactie hebben ontvangen door het verschil in tijd van de eerste response en de laatste response te delen door het aantal reacties.
7. Opinion leader: bloggers die gemiddeld veel reacties plaatsen krijgen een hogere waarde.
8. No-ads: verlaag het gewicht van blogs die geen reacties ontvangen.
9. No-agency: verlaag het gewicht voor bloggers die veel blog entries hebben maar zeer weinig reacties.
10. Debate: Leg gewicht op meningen die frequent voorkomen tussen enkele bloggers voor gegeven product.
11. Negativism: 70% van de bloggers zijn eerder geneigd om iets positiefs dan negatieve aspecten naar voren te brengen. De intentie van een blogger die een negatief aspect naar voren brengt is hoger dan die van een positief.

Om de juiste waarde te bepalen van elke parameter is finetuning nodig dmv publieke experimenten. Verder moet er op basis van de opgestelde ontologie goed gekeken naar de waarde van een uitdrukking. Als er überhaupt al direct een waarde oordeel uit voort kan komen. Als er niet direct een positieve of negatieve waarde oordeel bepaald kan worden kan er gekeken worden naar de relatie waar de expressie deel van uit maakt.
Hot topic extraction
Hot topic extraction is een methode om, op basis van product ontologie en suggesties in blog entries, suggesties voor soortgelijke producten te verkrijgen. Aangezien er in de huidige wereld veel blogs vol zitten met spam (keyword spamming) en ads functioneert een simplistische statistische methode als keyword frequency niet meer. Om de juiste Hot Topics te kunnen verkrijgen geldt er wederom dat er ook naar de trackback reputatie van een blog gekeken dient te worden . Dit lijkt de meest effectieve manier om naar Hot Topic extraction te kijken. Ubicomp werkt door eerst een lijst met voor het product gerelateerde blog entries op te halen, en dan enkele blog entries te selecteren op basis van hun trackbacks
De mate van relatie en populariteit wordt op basis van de volgende heuristiek bepaald
1. Popularity: een product besproken in de eerste entry van een blog thread heeft een hoge populariteit
2. Popularity: een product genoemd in een blog thread met veel trackbacks en reacties kent een hoge populariteit.
3. Relationship: andere producten genoemd in de entries van een blog thread hebben een relatie met het eerst genoemde product.
4. Popularity: als verschillende blog threads bestaan en elk meerdere gebruikers reacties hebben, kent het product een hoge populariteit.
Sorteren and Filteren
Uiteindelijk wil de gebruiker naast repuatie en suggestie ook gerelateerde blogpostings kunnen lezen. Op basis van de eerdere berekeningen en spam bepalingen vindt er een ranking van de blogs plaats.

Search Time
Het duurt zo’n 10 tot 30 seconden om alle data te verwerken en de resultaten aan de gebruiker te tonen op zijn telefoon (Pentium 4, 3.2 GHz met 1GB geheugen).
Leweb Paris 08

Vannacht ben ik teruggekomen van 3dagen Parijs. Binnenkort meer over de avonturen en food for thoughts van van LeWeb 2008.