Tristan Teunissen

movements outside the lab

Archive for the ‘semantic web’ Category

Web 3.0 conference Santa Clara, California, Part 2

leave a comment

Yosemite

I attended the Web3.0 conference last month in Santa Clara. The conference was truly inspiring, but web 3.0? One of the first questions you have to ask is “Does web 3.0 mean the semantic web?” Should we view the semantic web as a world wide database, as suggested by Dr. Mark Greaves of Vulcan, and what issues will it raise?

How cumbersome will working with numerous database administrators be? If it is a database, it will certainly be the largest - and noisiest - database in the world. This so-called noise is a big problem for the semantic web.
Another problem is that for many topics there is a vast surplus of information available - how do you find out the richest links? On the other hand, it is democratic, crowdsourced, scalable knowledge engineering, which makes the semantic web a great knowledge base for humanity.
Freshness has always been important for search and over the last months ‘live-search’ has become very popular. Due to the popularity of social media sites like Twitter, search engines have had to go hyper-fresh. People are creating a constant stream of new input, which can contain very useful and especially up-to-date information. But these hyper-fresh content services are creating new problems for search engines. Tweets aren’t always written in English and there are only 140 characters available to broadcast your message. Because there are only 140 characters, semantic technology can be quite helpful in extracting the true meaning of a message. Through semantic technology it’s possible to detect entities that are referenced and disambiguate them.
Search engines like Bing (Microsoft) are already implementing semantic technology for extracting information. “All search engines are somewhat semantic already” according to Scott Prevost, Principal Development Manager for Bing. Whatever the real definition for semantic search is, “it’s already here but it hasn’t been a ‘Voila!’ moment. Semantic search won’t be a big revolution from a new startup, but there will be game changers”. Scott has had first hand experience here with Powerset, often called “The New Google” in the media before their acquisition by Microsoft in 2008 as a feature for their search technology.
Semantic technology, like all technology, needs a certain critical mass. The good thing is that the ecosystem is growing at the moment, with more and more publishers helping out. But the main focus of semantic tech companies should be on creating systems which can automatically promote open content, so we won’t be dependent on the efforts of publishers. By creating this kind of technology the costs of semantic publishing will shrink to almost zero in several years, just as online publishing did during the web 2.0 era.
The technology is here now - there are already more than 1600 APIs and they are growing at a non-linear accelerated rate. People are starting to work in the cloud as the new data center and it is the illusion of infinite scalability and omniscience that serve as inducements. Tom Gruber, a recognized expert in Artificial Intelligence, intelligent interfaces, semantic technologies, and presenter at Web3.0, strongly believes in the “Gigantic Join” which he thinks web 3.0 will become. The semantic web will include the possibility of numerous “joins” of APIs, and his latest product Siri.com is built on this idea. Siri is a mobile device-based question and answer application using speech as input, and is built on a collection of available APIs.
This application is a good example for the upcoming mobile web, which is creating new rules, and possibilities for the semantic web. Mobile devices create new sources of input - users don’t speak in keywords, they ask questions in their native language. These new ways of input have to be interpreted, and that’s where semantic technology kicks in. “Semantic technology is the hottest area of web architecture right now,” according to Dr. Greaves. “It’s a new way of thinking about the web as we know it” says Scott Prevost.
You could indeed feel this vibe at web 3.0. People are eager to learn from each other, sharing thoughts and inspiring each other. In the coming weeks I will dig deeper into some of the Web3.0 topics related to semantic technology like SEO, search and business and opportunities.

Written by Tristan

February 1st, 2010 at 12:00 pm

Tweets @web3.0 conference, Santa Clara

leave a comment

“The Semantic Web is great, new way of thinking about the web, ai people meet publishers”

Scott Prevost (Bing/Microsoft), Computational Linguist at stage. Founder Powerset. The dimensions of search

What is semantic search? More relevant results, but what is relevant? All searchengines today are already in someway semantic

Read the rest of this entry »

Written by Tristan

January 27th, 2010 at 6:00 pm

Web 3.0 conference Santa Clara, California

leave a comment

san francisco

From 23 january till 2 february I’ll be in San Francisco / Silicon Valley to attend the Web 3.0 conference.

Ten is the start of a new decade and the third decade for the Web. The third decade is often seen as and referred to the decade of the semantic Web. So I think that it’s a great way to start this new decade in 2010 by attending the Web 3.0 conference deep in the the heart of the information technology forest - Silicon Valley.

Read the rest of this entry »

Written by Tristan

January 18th, 2010 at 12:00 pm

European Semantic Technology Conference 2009

leave a comment

vienna

From 1 till 4 december I’ll be in Vienna for the European Semantic Technology Conference 2009 http://www.estc2009.com/

Read the rest of this entry »

Written by Tristan

November 26th, 2009 at 2:06 pm

Papers: “Autotagging Facebook: Social Network Context Improves Photo Annotation.”

leave a comment

Great paper by: Zak Stone, Todd Zickler, and Trevor Darrell, “Autotagging Facebook: Social Network Context Improves Photo Annotation.” First IEEE Workshop on Internet Vision, 2008. (Best Paper Award.) [PDF]

Abstract

“Most personal photos that are shared online are embedded in some form of social network, and these social networks are a potent source of contextual information that can be leveraged for automatic image understanding. In this paper, we investigate the utility of social network context for the task of automatic face recognition in personal photographs. We combine face recognition scores with social context in a conditional random field (CRF) model and apply this model to label faces in photos from the popular online social network Facebook, which is now the top photo-sharing site on the Web with billions of photos in total. We demonstrate that our simple method of enhancing face recognition with social network context substantially increases recognition performance beyond that of a baseline face recognition system. ” [PDF]


Written by Tristan

June 18th, 2009 at 11:26 pm

Posted in papers, semantic web

Tagged with

UbiComp, a Ubiquitous Metadata Scouter

leave a comment

ubicomp

Via Twine van Nova Spivack stuitte ik op een interessant research project van Takahiro KAWAMURA werkzaam bij Toshiba: UbiComp, a Ubiquitous Metadata Scouter.
In de huidige wereld is het voor de gebruiker meer en meer wenselijk om de reële wereld instant te kunnen koppelen aan relevante informatie op het Internet (zie ook Ubiquitous computing), dit brengt echter nieuwe problemen met zich mee.

The ‘ubiquitous’ mobile web

Tijdens conventioneel surfen met een desktop computer kan een gebruiker eenvoudig door (zoek)resultaten bladeren totdat zijn informatievraag is beantwoord. Dit komt door de voordelen van een (groot) scherm, muis, toetsenbord en een snelle verbinding . De mobiele telefoon is echter een typisch ‘ubiquitous’ apparaat. Een mobiele telefoon kent meer drempels tijden het surfen: over het algemeen heeft deze een klein scherm, minder toetsen/functionaliteit en een minder snelle verbinding (+kosten dataroaming). Vandaar dat het voor een dergelijke manier van surfen belangrijk is om efficiënt te werk te kunnen gaan bij het zoeken naar informatie. De zoekpaden naar de benodigde informatie (metadata) dienen zo kort mogelijk te zijn. Dit kan bereikt worden door bepaalde stappen te preprocessen en relevante data aan de server kant al voor de gebruiker te extraheren en aggregeren. De Ubiquitos Metadata Scouter is een oplossing voor dit probleem en versimpelt het verkrijgen van relevante data door als eerste stap het scannen van de barcode van een product.

Na het scannen (fotograferen) van de barcode van een product met de mobiele telefoon ontvangt de gebruiker automatisch relevante informatie: meta info, reputatie (pos/neg), voorbeelden van andere soortgelijke producten binnen hetzelfde domein, achtergrond artikelen (blogpostings).
Voor een boek zou dit dus betekenen dat na het scannen van de barcode wordt getoond:
a. Meta info (schrijver,titel,uitgeverij) afkomstig van UPC/EAN/JAN of ISBN.
b. Achtergrond informatie: wat is er op blogs geschreven over dit boek? Filter en sorteer deze automatisch.
c. Reputatie (Word of Mouth) op basis van geselecteerde blogs, hoeveel mensen vonden dit een goed boek (Positive / Negative determination)
d. Soortgelijke boeken binnen dit genre / gerelateerd aan de schrijver waar veel over geschreven is (Hot Topic extraction).

Reputatie: Positieve en Negatieve bevindingen (Positive / Negative determination)

Er bestaan binnen de Natuurlijke Taal Verwerking meerdere oplossingen voor Positive/Negative determination . Een methode die tijdens dit project voorgesteld is, is om te werken met zogenaamde ‘triples’ <subject,atribute,value> voor bepaalde onderwerpen/woorden bijvoorbeeld: <boek,prijs,goedkoop> of <boek,genre,roman>.
In eerste instantie werden blog entries als losstaande corpora gezien en kan deze methode gebruikt worden, maar door de integratie van trackback technieken bij veel blogplatformen werd er voorbij gegaan aan het feit dat het aantal trackbacks een significante waarde bepaalt voor de waarde van een blog entry. Een blog mag dan ook niet als een dagboek worden gezien, ook niet als een platform voor een reclame uiting maar meer als een los-verbonden community. Een blogger die veel over een onderwerp schrijft heeft toch een andere psychologische impact voor de gebruiker dan een die incidenteel over een onderwerp schrijft.

Om deze feiten mee te laten wegen voor het bepalen van het gewicht van een mening zijn er 11 parameters opgesteld voor het het wegen van een mening:

1. Non-anomity: leg het gewicht op het aantal trackbacks van een blog entry en niet op de tekst zelf.
2. Widely acceptance: bekijk op basis van trackbacks naar aan het aantal verschillende bloggers die (positief) op de blog entry hebben gereageerd.
3. Expert: blogger die over meerdere gerelateerde producten schrijven krijgen een hoger gewicht.
4. The Brave: Leg het gewicht op een reactie waarbij ingestemd wordt met commentaar
5. Pioneer: Legt het gewicht op een entry die al lange tijd reacties ontvangt, en wellicht een van de eerste was die over het onderwerp berichtte.
6. High acceleration: leg het gewicht op opinies die binnen korte tijd veel reactie hebben ontvangen door het verschil in tijd van de eerste response en de laatste response te delen door het aantal reacties.
7. Opinion leader: bloggers die gemiddeld veel reacties plaatsen krijgen een hogere waarde.
8. No-ads: verlaag het gewicht van blogs die geen reacties ontvangen.
9. No-agency: verlaag het gewicht voor bloggers die veel blog entries hebben maar zeer weinig reacties.
10. Debate: Leg gewicht op meningen die frequent voorkomen tussen enkele bloggers voor gegeven product.
11. Negativism: 70% van de bloggers zijn eerder geneigd om iets positiefs dan negatieve aspecten naar voren te brengen. De intentie van een blogger die een negatief aspect naar voren brengt is hoger dan die van een positief.

Om de juiste waarde te bepalen van elke parameter is finetuning nodig dmv publieke experimenten. Verder moet er op basis van de opgestelde ontologie goed gekeken naar de waarde van een uitdrukking. Als er überhaupt al direct een waarde oordeel uit voort kan komen. Als er niet direct een positieve of negatieve waarde oordeel bepaald kan worden kan er gekeken worden naar de relatie waar de expressie deel van uit maakt.

Hot topic extraction

Hot topic extraction is een methode om, op basis van product ontologie en suggesties in blog entries, suggesties voor soortgelijke producten te verkrijgen. Aangezien er in de huidige wereld veel blogs vol zitten met spam (keyword spamming) en ads functioneert een simplistische statistische methode als keyword frequency niet meer. Om de juiste Hot Topics te kunnen verkrijgen geldt er wederom dat er ook naar de trackback reputatie van een blog gekeken dient te worden . Dit lijkt de meest effectieve manier om naar Hot Topic extraction te kijken. Ubicomp werkt door eerst een lijst met voor het product gerelateerde blog entries op te halen, en dan enkele blog entries te selecteren op basis van hun trackbacks

De mate van relatie en populariteit wordt op basis van de volgende heuristiek bepaald

1. Popularity: een product besproken in de eerste entry van een blog thread heeft een hoge populariteit
2. Popularity: een product genoemd in een blog thread met veel trackbacks en reacties kent een hoge populariteit.
3. Relationship: andere producten genoemd in de entries van een blog thread hebben een relatie met het eerst genoemde product.
4. Popularity: als verschillende blog threads bestaan en elk meerdere gebruikers reacties hebben, kent het product een hoge populariteit.

Sorteren and Filteren

Uiteindelijk wil de gebruiker naast repuatie en suggestie ook gerelateerde blogpostings kunnen lezen. Op basis van de eerdere berekeningen en spam bepalingen vindt er een ranking van de blogs plaats.

Search Time

Het duurt zo’n 10 tot 30 seconden om alle data te verwerken en de resultaten aan de gebruiker te tonen op zijn telefoon (Pentium 4, 3.2 GHz met 1GB geheugen).

Written by Tristan

December 16th, 2008 at 12:49 am

Leweb Paris 08

leave a comment

http://www.flickr.com/photos/adders/3098368435/sizes/m/in/set-72157610954778630/

Vannacht ben ik teruggekomen van 3dagen Parijs. Binnenkort meer over de avonturen en food for thoughts van van LeWeb 2008.

Written by Tristan

December 11th, 2008 at 7:36 pm

Interview with Philippe Le Hagaret

leave a comment

Written by Tristan

November 25th, 2008 at 11:53 pm

Posted in semantic web

Tagged with , ,