<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" media="screen" href="/~d/styles/rss2full.xsl"?><?xml-stylesheet type="text/css" media="screen" href="http://feeds.feedburner.com/~d/styles/itemcontent.css"?><rss xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:wfw="http://wellformedweb.org/CommentAPI/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:sy="http://purl.org/rss/1.0/modules/syndication/" xmlns:slash="http://purl.org/rss/1.0/modules/slash/" xmlns:feedburner="http://rssnamespace.org/feedburner/ext/1.0" version="2.0"> <channel><title>Edgar Meij</title> <link>http://edgar.meij.pro</link> <description>semantic search research ッ</description> <lastBuildDate>Thu, 03 May 2012 20:39:52 +0000</lastBuildDate> <language>en</language> <sy:updatePeriod>hourly</sy:updatePeriod> <sy:updateFrequency>1</sy:updateFrequency> <generator>http://wordpress.org/?v=3.3.2</generator> <atom10:link xmlns:atom10="http://www.w3.org/2005/Atom" rel="self" type="application/rss+xml" href="http://feeds.feedburner.com/EdgarMeij" /><feedburner:info uri="edgarmeij" /><atom10:link xmlns:atom10="http://www.w3.org/2005/Atom" rel="hub" href="http://pubsubhubbub.appspot.com/" /><item><title>Identifying Entity Aspects in Microblog Posts</title><link>http://feedproxy.google.com/~r/EdgarMeij/~3/50_cEUIbEQk/</link> <comments>http://edgar.meij.pro/identifying-entity-aspects-microblog-posts/#comments</comments> <pubDate>Thu, 03 May 2012 20:30:50 +0000</pubDate> <dc:creator>Edgar Meij</dc:creator> <category><![CDATA[Blog]]></category> <category><![CDATA[Conference Papers]]></category> <category><![CDATA[Publications]]></category> <category><![CDATA[Aspect identification]]></category> <category><![CDATA[Entity profiling]]></category> <category><![CDATA[Information retrieval]]></category> <category><![CDATA[Microblogs]]></category> <category><![CDATA[Semantic linking]]></category> <category><![CDATA[Semanticizing]]></category> <category><![CDATA[Text mining]]></category> <category><![CDATA[Twitter]]></category> <category><![CDATA[Wikipedia]]></category> <guid isPermaLink="false">http://edgar.meij.pro/?p=685</guid> <description><![CDATA[To appear Online reputation management is about monitoring and handling the public image of entities (such as companies) on the Web. An important task in this area is identifying aspects of the entity of interest (such as products, services, competitors, key people, etc.) given a stream of microblog posts referring to the entity. In this [...]]]></description> <content:encoded><![CDATA[<p><em>To appear</em></p><p>Online reputation management is about monitoring and handling the public image of entities (such as companies) on the Web. An important task in this area is identifying aspects of the entity of interest (such as products, services, competitors, key people, etc.) given a stream of microblog posts referring to the entity. In this paper we compare different IR techniques and opinion target identification methods for automatically identifying aspects and find that (i) simple statistical method such as TF.IDF are a strong baseline for the task, being significantly better than applying opinion-oriented methods and (ii) only considering terms tagged as nouns improves the results for all the methods analyzed.</p><p>More information on the dataset that we created (and used in this paper) can be found <a
title="A Corpus for Entity Profiling in Microblog Posts" href="http://edgar.meij.pro/corpus-entity-profiling-microblog-posts-2/">here</a>.</p><p>Camera-ready version will follow soon!</p><ul
class="papercite_bibliography"><li> D. Spina, E. Meij, M. de Rijke, A. Oghina, B. M. Thuong, and M. Breuss, “Identifying Entity Aspects in Microblog Posts,” in <span
style="font-style: italic">SIGIR ’12</span>,  2012. <br/> <a
href="javascript:void(0)" id="papercite_1" class="papercite_toggle">[Bibtex]</a><div
class="papercite_bibtex" id="papercite_1_block"><pre><code class="tex bibtex">@inproceedings{SIGIR:2012:spina,
  Author = {Damiano Spina and Meij, Edgar and de Rijke, Maarten and Andrei Oghina and Bui Minh Thuong and Mathias Breuss},
  Booktitle = {SIGIR '12},
  Date-Added = {2012-05-03 22:17:17 +0200},
  Date-Modified = {2012-05-03 22:17:17 +0200},
  Title = {Identifying Entity Aspects in Microblog Posts},
  Year = {2012}}</code></pre></div></li></ul> <img src="http://feeds.feedburner.com/~r/EdgarMeij/~4/50_cEUIbEQk" height="1" width="1"/>]]></content:encoded> <wfw:commentRss>http://edgar.meij.pro/identifying-entity-aspects-microblog-posts/feed/</wfw:commentRss> <slash:comments>0</slash:comments> <feedburner:origLink>http://edgar.meij.pro/identifying-entity-aspects-microblog-posts/</feedburner:origLink></item> <item><title>A Corpus for Entity Profiling in Microblog Posts</title><link>http://feedproxy.google.com/~r/EdgarMeij/~3/VSFzNA4h8T4/</link> <comments>http://edgar.meij.pro/corpus-entity-profiling-microblog-posts-2/#comments</comments> <pubDate>Thu, 29 Mar 2012 10:42:20 +0000</pubDate> <dc:creator>Edgar Meij</dc:creator> <category><![CDATA[Blog]]></category> <category><![CDATA[Publications]]></category> <category><![CDATA[Workshops]]></category> <category><![CDATA[Entity profiling]]></category> <category><![CDATA[lrec-2012]]></category> <category><![CDATA[Microblogs]]></category> <category><![CDATA[Semantic linking]]></category> <category><![CDATA[Semanticizing]]></category> <category><![CDATA[Text mining]]></category> <category><![CDATA[Twitter]]></category> <guid isPermaLink="false">http://edgar.meij.pro/?p=671</guid> <description><![CDATA[Microblogs have become an invaluable source of information for the purpose of online reputation management. An emerging problem in the field of online reputation management consists of identifying the key aspects of an entity commented in microblog posts. Streams of microblogs are of great value because of their direct and real-time nature and synthesizing them [...]]]></description> <content:encoded><![CDATA[<p>Microblogs have become an invaluable source of information for the purpose of online reputation management. An emerging problem in the field of online reputation management consists of identifying the key aspects of an entity commented in microblog posts. Streams of microblogs are of great value because of their direct and real-time nature and synthesizing them in form of entity profiles facilitates reputation managers to keep a track of the public image of the entity. Determining such aspects can be non-trivial because of creative language usage, the highly contextualized and informal nature of microblog posts, and the limited length of this form of communication.</p><p>In this paper we present two manually annotated corpora to evaluate the task of identifying aspects on Twitter, both of them based upon the <a
title="WEPS-3 ORM" href="http://nlp.uned.es/weps/weps-3" target="_blank">WePS-3 ORM</a> task dataset and made available online. The first is created using a pooling methodology, for which we have implemented various methods for automatically extracting aspects from tweets that are relevant for an entity. Human assessors have labeled each of the candidates as being relevant. The second corpus is more fine-grained and contains opinion targets. Here, annotators consider individual tweets related to an entity and manually identify whether the tweet is opinionated and, if so, which part of the tweet is subjective and what the target of the sentiment is, if any.</p><p>You can find more information on this test collection at <a
title="A Corpus for Entity Profiling in Microblog Posts Dataset" href="http://nlp.uned.es/~damiano/datasets/entityProfiling_ORM_Twitter.html" target="_blank">http://nlp.uned.es/~damiano/datasets/entityProfiling_ORM_Twitter.html</a>.</p><ul
class="papercite_bibliography"><li> <a
href="http://edgar.meij.pro/wp-content/papercite-data/pdf/lerom-2012-spina.pdf" title='Download PDF' class='papercite_pdf'><img
src='http://edgar.meij.pro/wp-content/plugins/papercite/img/pdf.png' alt="[PDF]"/></a> D. Spina, E. Meij, A. Oghina, B. M. Thuong, M. Breuss, and M. de Rijke, “A Corpus for Entity Profiling in Microblog Posts,” in <span
style="font-style: italic">LREC 2012 Workshop on Language Engineering for Online Reputation Management</span>,  2012. <br/> <a
href="javascript:void(0)" id="papercite_3" class="papercite_toggle">[Bibtex]</a><div
class="papercite_bibtex" id="papercite_3_block"><pre><code class="tex bibtex">@inproceedings{LEROM:2012:spina,
  Author = {Damiano Spina and Edgar Meij and Andrei Oghina and Bui Minh Thuong and Mathias Breuss and Maarten de Rijke},
  Booktitle = {LREC 2012 Workshop on Language Engineering for Online Reputation Management},
  Date-Added = {2012-03-29 12:18:51 +0200},
  Date-Modified = {2012-03-29 12:20:09 +0200},
  Title = {A Corpus for Entity Profiling in Microblog Posts},
  Year = {2012}}</code></pre></div></li></ul> <img src="http://feeds.feedburner.com/~r/EdgarMeij/~4/VSFzNA4h8T4" height="1" width="1"/>]]></content:encoded> <wfw:commentRss>http://edgar.meij.pro/corpus-entity-profiling-microblog-posts-2/feed/</wfw:commentRss> <slash:comments>0</slash:comments> <feedburner:origLink>http://edgar.meij.pro/corpus-entity-profiling-microblog-posts-2/</feedburner:origLink></item> <item><title>Zoekmachines van de toekomst</title><link>http://feedproxy.google.com/~r/EdgarMeij/~3/6wbvd8OFQjY/</link> <comments>http://edgar.meij.pro/zoekmachines-van-de-toekomst/#comments</comments> <pubDate>Sun, 12 Feb 2012 10:42:23 +0000</pubDate> <dc:creator>Edgar Meij</dc:creator> <category><![CDATA[Blog]]></category> <category><![CDATA[Publications]]></category> <category><![CDATA[Publicity]]></category> <category><![CDATA[code-voor-zoekfunctie-website]]></category> <category><![CDATA[DBpedia]]></category> <category><![CDATA[edgar-meij-zoekmachines-van-de-toekomst]]></category> <category><![CDATA[html-code-intelligente-zoekfunctie-website]]></category> <category><![CDATA[html-zoekfunctie]]></category> <category><![CDATA[Information retrieval]]></category> <category><![CDATA[Linking Open Data]]></category> <category><![CDATA[LOD]]></category> <category><![CDATA[ondernemen-linked-open-data]]></category> <category><![CDATA[Semantic linking]]></category> <category><![CDATA[Semantic search]]></category> <category><![CDATA[taaltechnologie-open-data]]></category> <category><![CDATA[Text mining]]></category> <category><![CDATA[Wikipedia]]></category> <category><![CDATA[zoekfunctie-html]]></category> <category><![CDATA[zoekfunctie-in-html]]></category> <category><![CDATA[zoekfunctie-in-html-code-voor-op-website]]></category> <category><![CDATA[zoekfunctie-op-website]]></category> <category><![CDATA[zoekfunctie-voor-website-html]]></category> <category><![CDATA[zoekmachines]]></category> <guid isPermaLink="false">http://edgar.meij.pro/?p=640</guid> <description><![CDATA[Er bestaat enige discussie over wat de logische opvolger zal zijn van web 2.0, waarin user-generated content, het delen van informatie en interoperabiliteit centraal stonden. Hoewel meer ideeën de ronde doen, is er veel steun voor het idee web 3.0 gelijk te stellen aan het semantische web. Het sturende idee achter het semantische web is [...]]]></description> <content:encoded><![CDATA[<p>Er bestaat enige discussie over wat de logische opvolger zal zijn van web 2.0, waarin user-generated content, het delen van informatie en interoperabiliteit centraal stonden. Hoewel meer ideeën de ronde doen, is er veel steun voor het idee web 3.0 gelijk te stellen aan het semantische web. Het sturende idee achter het semantische web is dat alle dingen op internet worden beschreven in speciale talen, zodat computers de informatie die ze aantreffen kunnen ‘begrijpen’. Een object kan bijvoorbeeld gekenmerkt worden als onderdeel van een voertuig, als persoon of als een fysieke plek op aarde. Zodra objecten op een dergelijke manier worden gekarakteriseerd, ontstaat een gigantisch netwerk van ‘linked data’ en kunnen computers verrassende en nuttige links ontdekken, die wellicht nooit door mensen ontdekt zouden zijn. Dit heeft de potentie een compleet nieuwe vorm van kunstmatige intelligentie mogelijk te maken.</p><div
class="wp-caption alignright" style="width: 377px"><a
href="http://richard.cyganiak.de/2007/10/lod/lod-datasets_2011-09-19_colored.png" rel="lightbox[640]"><img
class="    " title="LOD cloud" src="http://richard.cyganiak.de/2007/10/lod/lod-datasets_2011-09-19_colored.png" alt="Full coloured LOD cloud" width="367" height="242" /></a><p
class="wp-caption-text">Linking Open Data cloud diagram; datasets met gestructureerde computerleesbare data en daartussen aangebrachte links.</p></div><p>Maar zover zijn we nog (lang) niet. Er zijn een hoop redenen aan te dragen waarom het semantische web uit de visie van Berners-Lee het niet zal redden. Een van de belangrijkste redenen is het feit dat veelal een enkele centrale ontologie (‘model van de wereld’) wordt verondersteld. Ook is nog niet onomstotelijk vastgesteld dat dergelijke technieken werken in de open omgeving van het web. In specifieke omgevingen, toepassingen en taken worden successen behaald, maar deze vertalen zich nog niet naar breed toepasbare initiatieven. Desondanks bestaat er inmiddels een groeiende ‘wolk’ van datasets met machine-leesbare gegevens, die onderling gekoppeld worden (<a
title="Linking Open Data" href="http://en.wikipedia.org/wiki/Linked_Data" target="_blank">‘linking open data’ of LOD</a>). Die wolk kan ingezet worden als semantische ruggengraat om allerhande taken aan te pakken.</p><p>Een andere reden is het feit dat bij alledaagse gebruikers van het web weinig animo bestaat om deel te nemen aan het toekennen van metadata aan objecten. We zijn dusdanig gewend geraakt aan het gebruik van zoekmachines om een weg door het web te vinden, dat geen dringende reden bestaat om bij te dragen aan de ontwikkeling van het semantische web––los van informele, ‘lichtgewicht’ semantiek in de vorm van persoonlijke bookmarks/tags of simpele annotaties op webpagina’s.</p><h2>Onder de motorkap</h2><p>Waar we inmiddels wel steeds meer voorbeelden van zien is het inzetten van semantiek in het zoekproces, bijvoorbeeld verkregen uit LOD.<sup><a
href="http://edgar.meij.pro/zoekmachines-van-de-toekomst/#footnote_0_640" id="identifier_0_640" class="footnote-link footnote-identifier-link" title="Overigens vind het omgekeerde ook plaats, dat wil zeggen het inzetten van zoekalgoritmes zoals Google die gebruikt om wijs te worden uit de gigantische hoeveelheid aan data die op het semantische web in de vorm van gelinkte data te vinden is. Dat is echter niet het onderwerp van dit artikel.">1</a></sup> Wat houdt dat dan in? Recente ontwikkelingen maken het mogelijk dat computers begrijpen welke concepten gebruikt worden in stukken tekst, zoals webpagina’s, zoekmachine queries, tweets, et cetera. Dit begrijpen houdt niets meer in dan het linken van (delen van) tekst aan meer gestructureerde informatie––veelal in de vorm van zogenaamde entiteiten zoals je die bijvoorbeeld vindt in LOD.</p><p>Een veelvoorkomende definitie van een ‘entiteit’ omvat personen, bedrijven, producten, locaties, et cetera. Oftewel, alles wat een eigen Wikipedia pagina kan hebben. Exaleads zoekmachine voor Wikipedia geeft een goed voorbeeld van entiteiten. Zodra je daar een query intypt haalt de zoekmachine entiteiten op die gerelateerd zijn aan de query, die je vervolgens op een interactieve manier kan gebruiken om de resultaten aan te passen aan datgene wat je voor ogen had. In zekere zin is dit een moderne variant van faceted zoeken, waarbij metadata behorende bij of geëxtraheerd uit zoekresultaten, worden geanalyseerd en weergegeven, teneinde de zoekresultaten interactief te verbeteren. Een van de meest bekende voorbeelden hiervan is te vinden bij allerhande online winkels, waar je één of meer categorieën kan selecteren om de gevonden producten in te perken.</p><p>Wikipedia is uitgegroeid tot een aanzienlijke kennisbron en het aantal Wikipediapagina’s blijft nog steeds gestaag groeien. Een van de interessante eigenschappen van Wikipedia in de context van semantische zoekmachines is dat iedere entiteit geassocieerd is met een door mensen bewerkte beschrijving, zodat ze makkelijk gevonden en beschreven kunnen worden. Ook bevat Wikipedia structurele informatie in de vorm van (1) categorieën, (2) hyperlinks tussen artikelen en (3) infoboxes en sjablonen. Infoboxes zijn de elementen die bij sommige Wikipedia-artikelen aan de rechterhand worden weergegeven en vaak semi-gestructureerde informatie bevatten. Hetzelfde ‘soort’ Wikipedia-artikelen heeft veelal hetzelfde soort infoboxes, zoals steden, zangers, et cetera. Sjablonen lijken hier enigszins op en bevatten ook gestructureerde informatie die specifiek is voor een bepaald soort onderwerp, zoals medicijnen of vliegvelden. DBpedia is een initiatief dat als doel heeft deze informatie automatisch uit Wikipedia te extraheren en beschikbaar te stellen in LOD. Door zijn algemene aard speelt DBpedia hier een centrale rol.</p><div
id="attachment_643" class="wp-caption alignright" style="width: 310px"><a
href="http://edgar.meij.pro/wp-content/uploads/2012/02/Figuur_2.png" rel="lightbox[640]"><img
class="size-medium wp-image-643  " title="Fietstas annotaties" src="http://edgar.meij.pro/wp-content/uploads/2012/02/Figuur_2-300x238.png" alt="Voorbeeld van Fietstas annotaties" width="300" height="238" /></a><p
class="wp-caption-text">Voorbeeld van Fietstas annotaties.</p></div><p
style="text-align: left;">Methoden die tekst kunnen linken aan entiteiten gebruiken in belangrijke mate taaltechnologie in combinatie met machine leren, en zijn erop gericht om entiteiten, netwerken van entiteiten, profielen van entiteiten of relaties tussen entiteiten en hun relaties in teksten te herkennen. Aan de Universiteit van Amsterdam werken we sinds 2008 aan een gedistribueerde omgeving genaamd <a
title="Fietstas" href="http://fietstas.science.uva.nl/" target="_blank">Fietstas</a> (nu <a
title="xTAS" href="http://xtas.net/" target="_blank">xTAS</a> genaamd), die de vereiste functionaliteit als web service aanbiedt. Naast verschillende vormen van tekstnormalisatie biedt Fietstas ook semantische functionaliteiten zoals het herkennen van entiteiten en relaties, het normaliseren van entiteiten en het genereren van ‘profielen’ van entiteiten. Dit maakt het mogelijk willekeurige tekst aan te bieden en een lijst met gevonden entiteiten terug te krijgen. Zie de figuur voor een illustratie van het soort van documentannotaties dat daarbij door Fietstas gegenereerd wordt. Wat kunnen we met de ontdekte links tussen tekst en Wikipedia? Vanwege de directe koppeling tussen Wikipedia en DBpedia kunnen de tools voor semantisch linken (zoals Fietstas of <a
title="Wikipedia-Miner" href="http://wikipedia-miner.cms.waikato.ac.nz/" target="_blank">Wikipedia-Miner</a>) direct gebruikt worden om LOD-entiteiten te herkennen in willekeurige teksten, <a
title="Mapping queries to the Linking Open Data cloud: A case study using DBpedia" href="http://edgar.meij.pro/mapping-queries-linking-open-data-cloud-case-study-dbpedia/" target="_blank">gebruikmakend van aanvullende informatie uit Wikipedia</a>. Zodra entiteiten zijn herkend, kunnen we deze inzetten tijdens het zoekproces.</p><h2>Semantisch zoeken en vinden</h2><p>Semantische zoekmachines stellen ons dus in staat om relevante entiteiten en hun relaties te identificeren in grote hoeveelheden tekst en vervolgens in te zetten, bijvoorbeeld door het zoekproces te sturen, suggesties te genereren of door de resultaatpresentatie aan te passen. De mogelijke toepassingen van het inzetten van semantiek tijdens het zoeken zijn legio en variëren van het simpelweg inzetten van alternatieve schrijfwijzen of synoniemen (<a
title="Google's tilde operator" href="http://www.google.com/search?q=~food+~facts" target="_blank">zoals de tilde operator in Google</a>), via specifieke interpretaties zoals <a
title="Wolfram Alpha" href="http://www.wolframalpha.com/" target="_blank">WolframAlpha</a> die verzorgt, tot het volledig taalkundig analyseren van een query (zoals <a
title="Powerset" href="http://en.wikipedia.org/wiki/Powerset_%28company%29" target="_blank">Powerset</a> en Ask.com dat beogen).</p><p>Laten we verder ingaan op het scenario van een zoekmachine voor het web. Het automatisch ‘expanderen’ van een query met alternatieve schrijfwijzen lijkt een veelbelovende strategie om op een automatische manier meer relevante webpagina’s te identificeren. Waarom past een bedrijf als Google dit dan niet op grote schaal toe? Een belangrijk tegenargument is ambiguïteit; de gemiddelde query bestaat gemiddeld uit ongeveer 2,4 termen (vaak zelfs minder) en biedt vaak niet genoeg houvast om zeker te weten wat een gebruiker bedoelt. Een dergelijke strategie kan daarom al snel de verkeerde kant opgaan en termen introduceren die niet relevant zijn. Een ander tegenargument is het feit dat het zoekproces minder transparant wordt. Zodra er automatisch termen worden toegevoegd aan de query, bestaat de kans dat er documenten worden teruggegeven die niet relevant zijn, waardoor de kans groot is dat de gebruiker gefrustreerd raakt en uitwijkt naar een andere zoekmachine. Een betere strategie is dan om gebruikers de keus te geven door middel van zijdelings vermelde suggesties in de resultaatpagina’s.</p><p>Ondanks het feit dat de genoemde technieken niet automatisch worden toegepast, werken de drie grote zoekmachines voor het web (Google, Bing en Yahoo!) aan verbeteringen van algoritmes en methoden die met hoge precisie kunnen aangeven welke entiteit(en) worden bedoeld in een query. Zij passen dergelijke technieken trouwens al enige tijd in beperkte mate toe. In het bijzonder bij het zogenaamde ‘vertical search’, waarin een incrementeel lerend algoritme beslist wat de intentie van de gebruiker is. Aan de hand van de voorspelde intentie (‘ik wil een boek kopen’, ‘ik wil meer informatie’, et cetera) wordt vervolgens besloten of er, naast de normale webresultaten, ook resultaten worden weergegeven uit ‘vertica– le’ sub-zoekmachines die gespecialiseerd zijn in een bepaald type informatie. Denk aan Google Maps, YouTube of plaatjes, maar ook aan resultaten uit online winkels, blogs, het nieuws, et cetera. In het meest voorkomende geval worden de resultaten uit deze ‘verticals’ verweven met de normale zoekresultaten. De Yahoo! zoekmachine gaat hiermee zelfs nog een stap verder en biedt specifieke overzichtspagina’s aan voor sommige queries. Ook het simpelweg herkennen van bepaalde patronen kan worden beschouwd als een vorm van intelligent zoeken. Probeer maar eens de Google queries ‘<a
title="Time in Amsterdam" href="http://www.google.com/search?q=time+in+Amsterdam" target="_blank">time in Amsterdam</a>’, ‘<a
title="2 times 2" href="http://www.google.com/search?q=2*2" target="_blank">2*2</a>’ of ‘<a
title="1 dollar in euro" href="http://www.google.com/search?q=1%20dollar%20in%20euro" target="_blank">1 dollar in euro</a>’. Of een <a
title="Snow Leopard release" href="https://www.google.com/search?q=snow+leopard+release" target="_blank">bepaalde datum</a>.</p><p>Andere manieren om concepten en entiteiten in te zetten tijdens het zoeken vinden we in zogenaamde <a
title="Microformats" href="http://en.wikipedia.org/wiki/Microformats" target="_blank">Microformats</a> en in <a
title="RDFa" href="http://en.wikipedia.org/wiki/RDFa" target="_blank">RDFa</a>. Dit zijn semantische talen die als doel hebben om semantiek in te bedden in <a
title="XHTML" href="http://en.wikipedia.org/wiki/XHTML" target="_blank">XHTML-opmaakcode</a>. Waar Microformats een specifiek vocabulaire behelst, kan RDFa gebruikt worden om ieder willekeurig kennismodel in te zetten in de annotatie van (gedeeltes van) webpagina’s. Het doel hiervan is om op een backwards-compatible manier semantische webfunctionaliteit aan webpagina’s te kunnen toevoegen. Dit wordt veelal op automatische wijze toegepast. Zoekmachines kunnen hier vervolgens gebruik van maken, bijvoorbeeld door zogenaamde ‘rich snippets’, waarin dergelijke gestructureerde informatie wordt getoond in het scherm met zoekresultaten. Denk aan resultaten van LinkedIn, waarbij de huidige baan en locatie van een persoon worden getoond, aan recensiescores voor een bepaald product of recept, maar denk ook aan het weergeven van de tijden en locaties waarop een bepaalde film wordt vertoond.</p><p>In het algemeen kan je stellen dat een van de ontwikkelingen op weg naar het web 3.0, het zoekgedrag van gebruikers betreft. Waar we in eerste instantie gewend waren aanzienlijke aantallen webpagina’s uit de resultaatpagina’s van zoekmachines te bekijken, wordt tegenwoordig doorgaans slechts de eerste pagina bekeken. Tien jaar geleden keek minimaal 58 procent van de gebruikers alleen naar de eerste resultaatpagina; in 2005 was dit percentage zelfs opgelopen tot meer dan 80 procent. Ook zien we in het zoekgedrag van gebruikers dat we vaker op zoek zijn naar scherper gedefinieerde eenheden, zoals eerdergenoemde entiteiten. Als iemand wil weten waar en hoe laat een bepaalde film in de buurt draait, accepteert men niet langer pagina’s van verschillende bioscopen te moeten bekijken. In plaats daarvan verwachten we dat de zoekmachine ons deze stap uit handen neemt en een overzicht teruggeeft.</p><p>Of het nu gaat om dubbelzinnigheid in zoekvragen aan te pakken, het weergeven van intelligente manieren van interactie of de presentatie van zoekresultaten, alle voorbeelden tot dusver laten zien dat semantische zoekmachines de zoekervaring van de gebruiker nu al aan het veranderen zijn.</p><h2>Recente ontwikkelingen</h2><p>Eerder kwamen Microformats en RDFa al aan de orde en in het bijzonder hoe deze toegepast worden om de resultaatpagina’s van zoekmachines ‘intelligenter’ te maken. De wildgroei aan verschillende dialecten en de verschillende mate van ondersteuning bij verschillende zoekmachines deden Bing, Google en Yahoo! recentelijk besluiten een gezamenlijk voorstel voor een vocabulaire om entiteiten te beschrijven naar buiten te brengen, waarmee gestructureerde informatie opgenomen kan worden op webpagina’s. Op de bijbehorende website, <a
title="schema.org" href="http://schema.org/" target="_blank">schema.org</a> genaamd, staan alle categorieën die ondersteund worden, alsmede documentatie voor ontwikkelaars en webmasters. Onder de categorieën bevinden zich entiteitstypen als personen, films, producten, locaties en meer. Ook wordt ondersteuning gegeven voor semantische webtalen als OWL en RDF, met als doel schema.org-annotaties deel uit te laten maken van LOD.</p><p>Een andere recente ontwikkeling is Open Graph van Facebook. We kennen allemaal de Facebook ‘Like’-knoppen op websites en dit is de volgende versie daarvan. Facebook erkende een veelgehoorde klacht van gebruikers dat een simpele ‘Like’ in veel gevallen misstond. Gebruikers wilden bijvoorbeeld alleen maar aangeven dat ze iets gezien of gehoord hadden, zonder een impliciet positief waardeoordeel te geven. En, hoewel het in eerste instantie al mogelijk was om een zogenaamd objecttype (zoals ‘acteur’, ‘stad’, et cetera) mee te geven aan datgene dat ‘geliked’ kon worden, werd er maar sporadisch gebruik van gemaakt, voornamelijk vanwege de erg beperkte lijst met ondersteunde types. Open Graph heeft als doel beide bezwaren aan te pakken. Allereerst kan men, naast de ‘Like’-actie, eigen acties definiëren, zoals ‘Listened’, ‘Watched’, et cetera. Ten tweede kunnen nu ook entiteiten aangeduid worden (zogenaamde ‘objects’), waarop de acties betrekking hebben. Maar wat heeft dit te maken met het semantische web? En met zoeken? Het aanduiden van objecten en mogelijke acties die men daarop kan ondernemen, heeft wel degelijk het karakter van het semantische web. Daarnaast zijn alle Facebook-acties, waaronder de bekende ‘Like’-knop, geschreven in RDFa. En, wellicht nog belangrijker, het ondersteunt het sociale karakter van internet en brengt dit naar het semantische web. Met dergelijke annotaties kunnen namelijk gepersonaliseerde suggesties worden gedaan, bijvoorbeeld aan de hand van acties van vrienden of van personen die erg lijken op een gebruiker.</p><p>Tot slot is het open source contentmanagementsysteem (CMS) <a
title="Drupal" href="http://drupal.org/" target="_blank">Drupal</a> een vermelding waard. Dit van oorsprong Belgische project wordt over de gehele wereld als backend voor allerlei websites gebruikt. In de laatste versie (Drupal 7) wordt er out-of-the-box ondersteuning geboden voor RDFa. Dit betekent dat alle content op een website met Drupal als CMS, standaard ontsloten kan worden met RDFa. Denk aan personen op een forum, producten in een webshop, of bijvoorbeeld recensies. Door het open karakter van Drupal zijn objecten en types vrijelijk te definiëren en kunnen deze dus met minimale inspanning aangeboden worden als machineleesbare informatie en deel gaan uitmaken van het semantische web.</p><h2>Tot slot</h2><p>Met het steeds breder beschikbaar komen van machineleesbare informatie, en methoden om deze informatie te consumeren en produceren, en met het steeds slimmer worden van automatische methoden om entiteiten te herkennen in tekst, komt het semantische web steeds dichterbij. Met behulp van moderne, semantische zoekmachinetechnologieën zijn inmiddels de eerste stappen – van hoge kwaliteit en op grote schaal – gezet om deze informatie in te zetten om gebruikers sneller te laten vinden wat ze zoeken. Of dit alles daad– werkelijk web 3.0 gaat voorstellen zullen we pas over enige tijd weten, maar voor nu ziet de zoekmachine van de toekomst er in ieder geval al slimmer, interactiever en socialer uit.</p><p>(Dit artikel verscheen eerder in het tijdschrift Informatie Professional, zie <a
title="Informatie Professional hi-res scan" href="http://bit.ly/u5BGgq" target="_blank">hier</a> voor een hi-res scan daarvan.)</p><ul
class="papercite_bibliography"><li> E. Meij, “Zoekmachines van de toekomst,” <span
style="font-style: italic">Informatie Professional</span>, vol. 11, pp. 16–20, 2011. <br/> <a
href="javascript:void(0)" id="papercite_5" class="papercite_toggle">[Bibtex]</a><div
class="papercite_bibtex" id="papercite_5_block"><pre><code class="tex bibtex">@article{IP:2011:meij,
  Author = {Meij, E.},
  Date-Added = {2012-02-12 10:34:00 +0100},
  Date-Modified = {2012-02-12 10:37:39 +0100},
  Journal = {Informatie Professional},
  Month = {November},
  Pages = {16--20},
  Title = {Zoekmachines van de toekomst},
  Volume = {11},
  Year = {2011}}</code></pre></div></li></ul><ol
class="footnotes"><li
id="footnote_0_640" class="footnote">Overigens vind het omgekeerde ook plaats, dat wil zeggen het inzetten van zoekalgoritmes zoals Google die gebruikt om wijs te worden uit de gigantische hoeveelheid aan data die op het semantische web in de vorm van gelinkte data te vinden is. Dat is echter niet het onderwerp van dit artikel.</li></ol><img src="http://feeds.feedburner.com/~r/EdgarMeij/~4/6wbvd8OFQjY" height="1" width="1"/>]]></content:encoded> <wfw:commentRss>http://edgar.meij.pro/zoekmachines-van-de-toekomst/feed/</wfw:commentRss> <slash:comments>0</slash:comments> <feedburner:origLink>http://edgar.meij.pro/zoekmachines-van-de-toekomst/</feedburner:origLink></item> <item><title>Adding Semantics to Microblog Posts</title><link>http://feedproxy.google.com/~r/EdgarMeij/~3/B_H27Dzh1Ec/</link> <comments>http://edgar.meij.pro/adding-semantics-microblogs/#comments</comments> <pubDate>Wed, 08 Feb 2012 08:00:03 +0000</pubDate> <dc:creator>Edgar Meij</dc:creator> <category><![CDATA[Conference Papers]]></category> <category><![CDATA[Publications]]></category> <category><![CDATA[adding-semantics-to-microblgs-post]]></category> <category><![CDATA[adding-semantics-to-microblog-posts]]></category> <category><![CDATA[adding-semantics-to-microblog-posts-bibtex]]></category> <category><![CDATA[attach-semantics-to-microblogs-wsdm-2012]]></category> <category><![CDATA[attaching-semantics-to-microblogs]]></category> <category><![CDATA[attaching-semantics-to-microblogs-wsdm-2012]]></category> <category><![CDATA[DBpedia]]></category> <category><![CDATA[edgar-meij-adding-semantics]]></category> <category><![CDATA[giving-semantics-to-microblogs]]></category> <category><![CDATA[meij-2012-adding]]></category> <category><![CDATA[Microblogs]]></category> <category><![CDATA[Semantic linking]]></category> <category><![CDATA[Semantic search]]></category> <category><![CDATA[semantic-search-research]]></category> <category><![CDATA[Semanticizing]]></category> <category><![CDATA[Text mining]]></category> <category><![CDATA[Twitter]]></category> <category><![CDATA[twitter-search-api]]></category> <category><![CDATA[Wikipedia]]></category> <category><![CDATA[wsdm-2012-meij]]></category> <guid isPermaLink="false">http://edgar.meij.pro/?p=463</guid> <description><![CDATA[Microblogs have become an important source of information for marketing, intelligence, and reputation management purposes. Streams of microblogs are of great value because of their direct and real-time nature. Determining what an individual microblog post is about, however, can be non-trivial because of creative language usage, the highly contextualized and informal nature of microblog posts, [...]]]></description> <content:encoded><![CDATA[<p>Microblogs have become an important source of information for marketing, intelligence, and reputation management purposes. Streams of microblogs are of great value because of their direct and real-time nature. Determining what an individual microblog post is about, however, can be non-trivial because of creative language usage, the highly contextualized and informal nature of microblog posts, and the limited length of this form of communication.</p><p>We propose a solution to the problem of determining what a microblog post is about through semantic linking: we add semantics to posts by automatically identifying concepts that are semantically related to it and generating links to the corresponding Wikipedia articles. The identified concepts can subsequently be used for, e.g., social media mining, thereby reducing the need for manual inspection and selection. Using a purpose-built test collection of tweets, we show that recently proposed approaches for semantically linking do not perform well, mainly due to the idiosyncratic nature of microblog posts. We propose a novel method based on machine learning with a set of innovative features and show that is able to achieve significant improvements over all other methods, especially in terms of precision.</p><ul
class="papercite_bibliography"><li> <a
href="http://edgar.meij.pro/wp-content/papercite-data/pdf/wsdm-2012-meij.pdf" title='Download PDF' class='papercite_pdf'><img
src='http://edgar.meij.pro/wp-content/plugins/papercite/img/pdf.png' alt="[PDF]"/></a> E. Meij, W. Weerkamp, and M. de Rijke, “Adding Semantics to Microblog Posts,” in <span
style="font-style: italic">Proceedings of the fifth ACM international conference on Web search and data mining</span>, New York, NY, USA,  2012. <br/> <a
href="javascript:void(0)" id="papercite_7" class="papercite_toggle">[Bibtex]</a><div
class="papercite_bibtex" id="papercite_7_block"><pre><code class="tex bibtex">@inproceedings{WSDM:2012:meij,
  Address = {New York, NY, USA},
  Author = {Meij, Edgar and Weerkamp, Wouter and de Rijke, Maarten},
  Booktitle = {Proceedings of the fifth ACM international conference on Web search and data mining},
  Date-Added = {2011-10-26 11:21:51 +0200},
  Date-Modified = {2011-10-26 11:22:38 +0200},
  Publisher = {ACM},
  Series = {WSDM '12},
  Title = {Adding Semantics to Microblog Posts},
  Year = {2012},
  Bdsk-Url-1 = {http://doi.acm.org/10.1145/1935826.1935842}}</code></pre></div></li></ul> <img src="http://feeds.feedburner.com/~r/EdgarMeij/~4/B_H27Dzh1Ec" height="1" width="1"/>]]></content:encoded> <wfw:commentRss>http://edgar.meij.pro/adding-semantics-microblogs/feed/</wfw:commentRss> <slash:comments>1</slash:comments> <feedburner:origLink>http://edgar.meij.pro/adding-semantics-microblogs/</feedburner:origLink></item> <item><title>LREC 2012 Workshop on Language Engineering for Online Reputation Management</title><link>http://feedproxy.google.com/~r/EdgarMeij/~3/WM7mypGgrBo/</link> <comments>http://edgar.meij.pro/lrec-2012-workshop-language-engineering-online-reputation-management/#comments</comments> <pubDate>Fri, 27 Jan 2012 08:30:25 +0000</pubDate> <dc:creator>Edgar Meij</dc:creator> <category><![CDATA[Blog]]></category> <category><![CDATA[2012-online-reputation]]></category> <category><![CDATA[lrec-2012]]></category> <category><![CDATA[lrec-2012-workshop-on-online-reputation-management]]></category> <category><![CDATA[lrec-language-engineering]]></category> <category><![CDATA[lrec-workshop-reputation]]></category> <category><![CDATA[Microblogs]]></category> <category><![CDATA[Online reputation management]]></category> <category><![CDATA[replab-2012]]></category> <category><![CDATA[replab-clef]]></category> <category><![CDATA[replab-lrec]]></category> <category><![CDATA[research-paper-on-online-reputation-management]]></category> <category><![CDATA[Semantic linking]]></category> <category><![CDATA[Semantic query analysis]]></category> <category><![CDATA[Semantic search]]></category> <category><![CDATA[Semanticizing]]></category> <category><![CDATA[Text mining]]></category> <category><![CDATA[text-mining-roadmap]]></category> <category><![CDATA[Twitter]]></category> <category><![CDATA[Workshop]]></category> <category><![CDATA[workshop-on-language-2012]]></category> <guid isPermaLink="false">http://edgar.meij.pro/?p=633</guid> <description><![CDATA[I am co-organizing an LREC workshop on Language Engineering for Online Reputation Management. The LREC 2012 workshop on Language Engineering for Online Reputation Management intends to bring together the Language Engineering community (including researchers and developers) with representatives from the Online Reputation Management industry, a fast-growing sector which poses challenging demands to text mining technologies. [...]]]></description> <content:encoded><![CDATA[<p>I am co-organizing an LREC workshop on Language Engineering for Online Reputation Management.</p><p>The LREC 2012 workshop on Language Engineering for Online Reputation Management intends to bring together the Language Engineering community (including researchers and developers) with representatives from the Online Reputation Management industry, a fast-growing sector which poses challenging demands to text mining technologies. The goal is to establish a five-year roadmap on the topic, focusing on what language technologies are required to get there in terms of resources, algorithms and applications.</p><p>Online Reputation Management deals with the image that online media project about individuals and organizations. The growing relevance of social media and the speed at which facts and opinions travel in microblogging networks make online reputation an essential part of a company’s public relations.</p><p>While traditional reputation analysis was based mostly on manual analysis (clipping from media, surveys, etc.), the key value from online media comes from the ability of processing, understanding and aggregating potentially huge streams of facts and opinions about a company or individual. Information to be mined includes answers to questions such as: What is the general state of opinion about a company/individual in online media? What are its perceived strengths and weaknesses, as compared to its peers/competitors? How is the company positioned with respect to its strategic market? Can incoming threats to its reputation be detected early enough to be neutralized before they effectively affect reputation?</p><p>In this context, Natural Language Processing plays a key, enabling role, and we are already witnessing an unprecedented demand for text mining software in this area. Note that, while the area of opinion mining has made significant advances in the last few years, most tangible progress has been focused on products. However, mining and understanding opinions about companies and individuals is, in general, a much harder and less understood problem.</p><p>The aim of this workshop is to bring together the Language Engineering community (including researchers and developers) with representatives from the Online Reputation Management industry, with the ultimate goal of establishing a five-year roadmap on the topic, and a description of the language technologies required to get there in terms of resources, algorithms and applications.</p><p>With this purpose in mind, the workshop will welcome both research papers and position statements from industry and academia. The agenda for the event will include both presentations (from accepted submissions and selected invited speakers) and a collaborative discussion to sketch a roadmap for Language Engineering in Online Reputation Management. The EU project Limosine (starting November 2011) will be used as a funding instrument to ensure that participation is representative and key players are engaged in the workshop. The workshop is held in coordination with the RepLab initiative, a CLEF 2012 evaluation initiative for systems dealing with Online Reputation Management challenges.</p><p>Note that the deadline is extended: <strong>22 February 2012</strong>. See <a
title="LREC workshop" href="http://www.limosine-project.eu/events/lrec2012" target="_blank">the website</a> for more information.</p> <img src="http://feeds.feedburner.com/~r/EdgarMeij/~4/WM7mypGgrBo" height="1" width="1"/>]]></content:encoded> <wfw:commentRss>http://edgar.meij.pro/lrec-2012-workshop-language-engineering-online-reputation-management/feed/</wfw:commentRss> <slash:comments>0</slash:comments> <feedburner:origLink>http://edgar.meij.pro/lrec-2012-workshop-language-engineering-online-reputation-management/</feedburner:origLink></item> <item><title>The University of Amsterdam at the TREC 2011 Session Track</title><link>http://feedproxy.google.com/~r/EdgarMeij/~3/hg-FWy6DZKQ/</link> <comments>http://edgar.meij.pro/university-amsterdam-trec-2011-session-track/#comments</comments> <pubDate>Wed, 25 Jan 2012 14:46:00 +0000</pubDate> <dc:creator>Edgar Meij</dc:creator> <category><![CDATA[Publications]]></category> <category><![CDATA[Unrefereed]]></category> <category><![CDATA[how-to-get-trec-2011-session-track-data-set]]></category> <category><![CDATA[Information retrieval]]></category> <category><![CDATA[Learning to rank]]></category> <category><![CDATA[linking-hub-data]]></category> <category><![CDATA[lori-buckland-nist]]></category> <category><![CDATA[Query modeling]]></category> <category><![CDATA[Semantic linking]]></category> <category><![CDATA[Semantic query analysis]]></category> <category><![CDATA[Semanticizing]]></category> <category><![CDATA[session-track-at-trec-2011]]></category> <category><![CDATA[session-trec-2011]]></category> <category><![CDATA[TREC Sessions]]></category> <category><![CDATA[trec-2011-session-track-data-set]]></category> <category><![CDATA[trec2011workingnotes]]></category> <category><![CDATA[university-of-amsterdam-trec]]></category> <guid isPermaLink="false">http://edgar.meij.pro/?p=493</guid> <description><![CDATA[We describe the participation of the University of Amsterdam’s ILPS group in the Session track at TREC 2011. The stream of interactions created by a user engaging with a search system contains a wealth of information. For retrieval purposes, previous interactions can help inform us about a user’s current information need. Building on this intuition, [...]]]></description> <content:encoded><![CDATA[<p>We describe the participation of the University of Amsterdam’s ILPS group in the Session track at TREC 2011.</p><p>The stream of interactions created by a user engaging with a search system contains a wealth of information. For retrieval purposes, previous interactions can help inform us about a user’s current information need. Building on this intuition, our contribution to this TREC year’s session track focuses on session modeling and learning to rank using session information. In this paper, we present and compare three complementary strategies that we designed for improving retrieval for a current query using previous queries and clicked results: probabilistic session modeling, semantic query modeling, and implicit feedback.</p><p>In our experiments we examined three complementary strategies for improving retrieval for a current query. Our first strategy, based on probabilistic session modeling, was the best performing strategy.</p><p>Our second strategy, based on semantic query modeling, did less well than we expected, likely due to topic drift from excessively aggressive query expansion. We expect that performance of this strategy would improve by limiting the number of terms and/or improving the probability estimates.</p><p>With respect to our third strategy, based on learning from feedback, we found that learning weights for linear weighted combinations of features from an external collection can be beneficial, if characteristics of the collection are similar to the current data. Feedback available in the form of user clicks appeared to be less beneficial. Our run learning from implicit feedback did perform substantially lower than a run where weights were learned from an external collection with explicit feedback using the same learning algorithm and set of features.</p><ul
class="papercite_bibliography"><li> <a
href="http://edgar.meij.pro/wp-content/papercite-data/pdf/trec-2011-huurnink.pdf" title='Download PDF' class='papercite_pdf'><img
src='http://edgar.meij.pro/wp-content/plugins/papercite/img/pdf.png' alt="[PDF]"/></a> B. Huurnink, R. Berendsen, K. Hofmann, E. Meij, and M. de Rijke, “The University of Amsterdam at the TREC 2011 Session Track,” in <span
style="font-style: italic">Proceedings of The Twentieth Text REtrieval Conference, TREC 2011</span>,  2011. <br/> <a
href="javascript:void(0)" id="papercite_9" class="papercite_toggle">[Bibtex]</a><div
class="papercite_bibtex" id="papercite_9_block"><pre><code class="tex bibtex">@inproceedings{TREC:2011:huurnink,
  Author = {Huurnink, Bouke and Berendsen, Richard and Hofmann, Katja and Meij, Edgar and de Rijke, Maarten},
  Booktitle = {Proceedings of The Twentieth Text REtrieval Conference, TREC 2011},
  Date-Added = {2011-10-22 12:22:18 +0200},
  Date-Modified = {2012-02-12 14:02:18 +0100},
  Editor = {Ellen M. Voorhees and Lori Buckland},
  Publisher = {National Institute of Standards and Technology ({NIST})},
  Title = {The University of Amsterdam at the {TREC} 2011 Session Track},
  Year = {2011}}</code></pre></div></li></ul> <img src="http://feeds.feedburner.com/~r/EdgarMeij/~4/hg-FWy6DZKQ" height="1" width="1"/>]]></content:encoded> <wfw:commentRss>http://edgar.meij.pro/university-amsterdam-trec-2011-session-track/feed/</wfw:commentRss> <slash:comments>0</slash:comments> <feedburner:origLink>http://edgar.meij.pro/university-amsterdam-trec-2011-session-track/</feedburner:origLink></item> <item><title>Team COMMIT at TREC 2011</title><link>http://feedproxy.google.com/~r/EdgarMeij/~3/78Mv1xjgEBg/</link> <comments>http://edgar.meij.pro/commit-trec-2011-microblog-track/#comments</comments> <pubDate>Wed, 25 Jan 2012 14:43:43 +0000</pubDate> <dc:creator>Edgar Meij</dc:creator> <category><![CDATA[Publications]]></category> <category><![CDATA[Unrefereed]]></category> <category><![CDATA[Information retrieval]]></category> <category><![CDATA[LOD]]></category> <category><![CDATA[Query modeling]]></category> <category><![CDATA[releasedtrec2011microblog]]></category> <category><![CDATA[Semantic linking]]></category> <category><![CDATA[Semantic query analysis]]></category> <category><![CDATA[Semantic search]]></category> <category><![CDATA[Semanticizing]]></category> <category><![CDATA[team-commit]]></category> <category><![CDATA[TREC Entity]]></category> <category><![CDATA[TREC Microblog]]></category> <category><![CDATA[trec-2011-microblog]]></category> <category><![CDATA[trec-2011-microblog-proceeding]]></category> <category><![CDATA[trec-2011-working-note]]></category> <category><![CDATA[trec-blogs-html-tag-filter-trec-star-trek]]></category> <category><![CDATA[trec-elc-2011-number-of-topics]]></category> <category><![CDATA[trec-entity-track-elc-2011-topics-proceedings]]></category> <category><![CDATA[trec-microblog-overview]]></category> <category><![CDATA[trec2011workingnotes]]></category> <category><![CDATA[university-of-amsterdam-commit-team]]></category> <guid isPermaLink="false">http://edgar.meij.pro/?p=486</guid> <description><![CDATA[We describe the participation of Team COMMIT in this year’s Microblog and Entity track. In our participation in the Microblog track, we used a feature-based approach. Specifically, we pursued a precision oriented recency-aware retrieval approach for tweets. Amongst others we used various types of external data. In particular, we examined the potential of link retrieval [...]]]></description> <content:encoded><![CDATA[<p>We describe the participation of Team COMMIT in this year’s Microblog and Entity track.</p><p>In our participation in the Microblog track, we used a feature-based approach. Specifically, we pursued a precision oriented recency-aware retrieval approach for tweets. Amongst others we used various types of external data. In particular, we examined the potential of link retrieval on a corpus of crawled content pages and we use semantic query expansion using Wikipedia. We also deployed pre-filtering based on query-dependent and query-independent features. For the Microblog track we found that a simple cut-off based on the z-score is not sufficient: for differently distributed scores, this can decrease recall. A well set cut-off parameter can however significantly increase precision, especially if there are few highly relevant tweets. Filtering based on query-independent filtering does not help for already small result list. With a high occurrence of links in relevant tweets, we found that using link retrieval helps improving precision and recall for highly relevant and relevant tweets. Future work should focus on a score-distribution dependent selection criterion.</p><p>In this years Entity track participation we focused on the Entity List Completion (ELC) task. We experimented with a text based and link based approach to retrieve entities in Linked Data (LD). Additionally we experimented with selecting candidate entities from a web corpus. Our intuition is that entities occurring on pages with many of the example entities are more likely to be good candidates than entities that do not. For the Entity track there are no analyses or conclusions to report yet; at the time of writing no evaluation results are available for the Entity track.</p><ul
class="papercite_bibliography"><li> <a
href="http://edgar.meij.pro/wp-content/papercite-data/pdf/trec-2011-commit.pdf" title='Download PDF' class='papercite_pdf'><img
src='http://edgar.meij.pro/wp-content/plugins/papercite/img/pdf.png' alt="[PDF]"/></a> M. Bron, E. Meij, M. Peetz, M. Tsagkias, and M. de Rijke, “Team COMMIT at TREC 2011,” in <span
style="font-style: italic">Proceedings of The Twentieth Text REtrieval Conference, TREC 2011</span>,  2011. <br/> <a
href="javascript:void(0)" id="papercite_11" class="papercite_toggle">[Bibtex]</a><div
class="papercite_bibtex" id="papercite_11_block"><pre><code class="tex bibtex">@inproceedings{TREC:2011:commit,
  Author = {Bron, Marc and Meij, Edgar and Peetz, Maria-Hendrike and Tsagkias, Manos and de Rijke, Maarten},
  Booktitle = {Proceedings of The Twentieth Text REtrieval Conference, TREC 2011},
  Date-Added = {2011-10-22 12:22:19 +0200},
  Date-Modified = {2012-02-12 14:02:18 +0100},
  Editor = {Ellen M. Voorhees and Lori Buckland},
  Publisher = {National Institute of Standards and Technology ({NIST})},
  Title = {Team {COMMIT} at {TREC 2011}},
  Year = {2011}}</code></pre></div></li></ul> <img src="http://feeds.feedburner.com/~r/EdgarMeij/~4/78Mv1xjgEBg" height="1" width="1"/>]]></content:encoded> <wfw:commentRss>http://edgar.meij.pro/commit-trec-2011-microblog-track/feed/</wfw:commentRss> <slash:comments>0</slash:comments> <feedburner:origLink>http://edgar.meij.pro/commit-trec-2011-microblog-track/</feedburner:origLink></item> <item><title>DutchHatTrick: Semantic query modeling, ConText, section detection, and match score maximization.</title><link>http://feedproxy.google.com/~r/EdgarMeij/~3/oq3nYODKkVk/</link> <comments>http://edgar.meij.pro/dutchhattrick-semantic-query-modeling-context-section-detection-match-score-maximization/#comments</comments> <pubDate>Wed, 25 Jan 2012 11:20:21 +0000</pubDate> <dc:creator>Edgar Meij</dc:creator> <category><![CDATA[Publications]]></category> <category><![CDATA[Unrefereed]]></category> <category><![CDATA[dutchhattrick]]></category> <category><![CDATA[nlp-repository-at-pittsburgh]]></category> <category><![CDATA[pittsburgh-university-trec-med]]></category> <category><![CDATA[Query modeling]]></category> <category><![CDATA[repository-semantic-slang]]></category> <category><![CDATA[Semantic linking]]></category> <category><![CDATA[Semantic query analysis]]></category> <category><![CDATA[semantic-slang]]></category> <category><![CDATA[TREC Medical]]></category> <category><![CDATA[trec-2011-data]]></category> <category><![CDATA[trec-2011-twitter-data]]></category> <category><![CDATA[trec-2011tweets-2011]]></category> <category><![CDATA[trec-medical-topics]]></category> <category><![CDATA[trec-twitter-2011-data-format]]></category> <category><![CDATA[trec2011workingnotestrecmedicalrecords]]></category> <category><![CDATA[university-medical-nlp]]></category> <category><![CDATA[university-of-pittsburgh-nlp-repository-medical-reports-format]]></category> <guid isPermaLink="false">http://edgar.meij.pro/?p=485</guid> <description><![CDATA[This report discusses the collaborative work of the ErasmusMC, University of Twente, and the University of Amsterdam on the TREC 2011 Medical track. Here, the task is to retrieve patient visits from the University of Pittsburgh NLP Repository for 35 topics. The repository consists of 101,711 patient reports, and a patient visit was recorded in [...]]]></description> <content:encoded><![CDATA[<p>This report discusses the collaborative work of the ErasmusMC, University of Twente, and the University of Amsterdam on the TREC 2011 Medical track. Here, the task is to retrieve patient visits from the University of Pittsburgh NLP Repository for 35 topics. The repository consists of 101,711 patient reports, and a patient visit was recorded in one or more reports.</p><p>Because the training set provided by the track organization was small and not made available until quite late in the competition, we decided to create a small training set ourselves. Not only did this allow us to test several ideas before submitting runs to TREC, it also led to several insights into the data. One finding was that synonyms are widely used. Query expansion was therefore deemed essential to achieve a reasonable performance. Query expansion has been used before in Information Retrieval (IR), and is often divided into statistical and knowledge-based query expansion. Statistical query expansion uses data derived from the corpus itself, and a well-known example is pseudo-relevance feedback . In contrast, we investigated knowledge-based query expansion, which uses a knowledge base such as an ontology or a dictionary to find related terms. This type of query expansion has not always proven to be successful. For instance, Hersh et al. found a decrease in overall search performance when using the Unified Medical Language System (UMLS) to find related terms. Liu et al. found slight improvements with scenario-specific expansion strategies using UMLS. In a previous TREC track, we also found reduced performance when using concept based query expansion , but found slightly improved results when using an approach combining concepts with a statistical model of related words . Similarly, Zhou found promising results when using combination of both the original words in the text and the synonyms found for concepts in the text.</p><p>An often-used resource for knowledge-based query expansion in the biomedical domain is the UMLS. However, initial explorations indicated that there is only limited overlap between terms used in topics and medical records and terms found in the UMLS. The main reason for this appears to be that the UMLS is mainly constructed from vocabularies used in classifying clinical data, but not intended to be used in text– mining. Terms in the UMLS tend to be more specific than what a physician would use in free-text reporting. For instance, a physician might use the term „upper endoscopy‟, but this term is not found in the UMLS. Instead, the term „upper GI endoscopy‟ is found. We have therefore explored a different source of synonyms: Wikipedia. We expected Wikipedia to have a better coverage of the terms encountered in medical records.</p><ul
class="papercite_bibliography"><li> <a
href="http://edgar.meij.pro/wp-content/papercite-data/pdf/trec-2011-schuemie.pdf" title='Download PDF' class='papercite_pdf'><img
src='http://edgar.meij.pro/wp-content/plugins/papercite/img/pdf.png' alt="[PDF]"/></a> M. Schuemie, D. Trieschnigg, and E. Meij, “DutchHatTrick: Semantic query modeling, ConText, section detection, and match score maximization,” in <span
style="font-style: italic">TREC 2011 Working Notes</span>,  2011. <br/> <a
href="javascript:void(0)" id="papercite_13" class="papercite_toggle">[Bibtex]</a><div
class="papercite_bibtex" id="papercite_13_block"><pre><code class="tex bibtex">@inproceedings{TREC:2011:schuemie,
  Author = {Schuemie, M. and Trieschnigg, Dolf and Meij, Edgar},
  Booktitle = {TREC 2011 Working Notes},
  Date-Added = {2011-10-22 12:14:30 +0200},
  Date-Modified = {2011-10-22 12:15:47 +0200},
  Title = {DutchHatTrick: Semantic query modeling, {ConText}, section detection, and match score maximization},
  Year = {2011}}</code></pre></div></li></ul> <img src="http://feeds.feedburner.com/~r/EdgarMeij/~4/oq3nYODKkVk" height="1" width="1"/>]]></content:encoded> <wfw:commentRss>http://edgar.meij.pro/dutchhattrick-semantic-query-modeling-context-section-detection-match-score-maximization/feed/</wfw:commentRss> <slash:comments>0</slash:comments> <feedburner:origLink>http://edgar.meij.pro/dutchhattrick-semantic-query-modeling-context-section-detection-match-score-maximization/</feedburner:origLink></item> <item><title>ECIR preprints published</title><link>http://feedproxy.google.com/~r/EdgarMeij/~3/-UVTj5j8cKI/</link> <comments>http://edgar.meij.pro/ecir-preprints-published/#comments</comments> <pubDate>Wed, 18 Jan 2012 08:09:50 +0000</pubDate> <dc:creator>Edgar Meij</dc:creator> <category><![CDATA[Blog]]></category> <category><![CDATA[ecir-papers]]></category> <category><![CDATA[ecir-preprints]]></category> <guid isPermaLink="false">http://edgar.meij.pro/?p=617</guid> <description><![CDATA[The camera-ready ver­sion of the ECIR papers, A Framework for Unsupervised Spam Detection in Social Networking Sites (with Maarten Bosma and Wouter Weerkamp) and Adaptive Temporal Query Modeling (with Hendrike Peetz, Wouter Weerkamp, and Maarten de Rijke) are available now. In the first paper, we report on the effectiveness of an unsupervised spam detection method for community-based [...]]]></description> <content:encoded><![CDATA[<p>The camera-ready ver­sion of the ECIR papers, <a
title="A Framework for Unsupervised Spam Detection in Social Networking Sites" href="http://edgar.meij.pro/framework-unsupervised-spam-detection-social-networking-sites/">A Framework for Unsupervised Spam Detection in Social Networking Sites</a> (with Maarten Bosma and <a
title="Wouter Weerkamp's homepage " href="http://wouter.weerkamp.com/" target="_blank">Wouter Weerkamp</a>) and <a
title="Adaptive Temporal Query Modeling" href="http://edgar.meij.pro/adaptive-temporal-query-modeling/">Adaptive Temporal Query Modeling</a> (with <a
title="Hendrike Peetz's homepage" href="http://peetz-intelligence.com/" target="_blank">Hendrike Peetz</a>, <a
title="Wouter Weerkamp's homepage " href="http://wouter.weerkamp.com/" target="_blank">Wouter Weerkamp</a>, and <a
title="Maarten de Rijke's homepage" href="http://staff.science.uva.nl/~mdr/" target="_blank">Maarten de Rijke</a>) are available now.</p><p>In the first paper, we report on the effectiveness of an unsupervised spam detection method for community-based websites, where users can indicate whether messages posted by others are spam. The collection of the user-generated messages that we used, their spam reports, and labels will be released soon, stay tuned.</p> <img src="http://feeds.feedburner.com/~r/EdgarMeij/~4/-UVTj5j8cKI" height="1" width="1"/>]]></content:encoded> <wfw:commentRss>http://edgar.meij.pro/ecir-preprints-published/feed/</wfw:commentRss> <slash:comments>0</slash:comments> <feedburner:origLink>http://edgar.meij.pro/ecir-preprints-published/</feedburner:origLink></item> <item><title>A comparison of five semantic linking algorithms on tweets</title><link>http://feedproxy.google.com/~r/EdgarMeij/~3/OfC6XGKX24o/</link> <comments>http://edgar.meij.pro/comparison-semantic-labeling-algorithms-twitter-data/#comments</comments> <pubDate>Wed, 11 Jan 2012 08:29:18 +0000</pubDate> <dc:creator>Edgar Meij</dc:creator> <category><![CDATA[Blog]]></category> <category><![CDATA[algorithm-to-compare-text-semantically]]></category> <category><![CDATA[clef-2012-replab]]></category> <category><![CDATA[compare-semantic-search-with-full-text-search]]></category> <category><![CDATA[DBpedia]]></category> <category><![CDATA[lrec-2012]]></category> <category><![CDATA[Microblogs]]></category> <category><![CDATA[Semantic linking]]></category> <category><![CDATA[Semantic search]]></category> <category><![CDATA[semantic-algorithms-compare]]></category> <category><![CDATA[semantic-text-api-compared]]></category> <category><![CDATA[semantic-versioni-compare]]></category> <category><![CDATA[Semanticizing]]></category> <category><![CDATA[spotlight-opencalais-comparison]]></category> <category><![CDATA[Text mining]]></category> <category><![CDATA[text-semantics-algorithms]]></category> <category><![CDATA[Twitter]]></category> <category><![CDATA[twitter-api-spam-algorithm]]></category> <category><![CDATA[twitter-hashtag-dbpedia]]></category> <category><![CDATA[what-all-content-analysis-algorithms-are-there]]></category> <category><![CDATA[Wikipedia]]></category> <guid isPermaLink="false">http://edgar.meij.pro/?p=591</guid> <description><![CDATA[Late last December, Yahoo! released a new version of their Content Analysis service and they announced that the initial version will be deprecated in 2012. Inspired by a recent post by Tony Hirst, entitled A Quick Peek at Three Content Analysis Services, this seemed like a perfect opportunity to test out various algorithms/APIs for semantically [...]]]></description> <content:encoded><![CDATA[<p>Late last December, Yahoo! released a new version of their <a
title="Yahoo! Content Analysis service" href="http://developer.yahoo.com/search/content/V2/contentAnalysis.html" target="_blank">Content Analysis service</a> and they <a
title="Yahoo! Opens Content Analysis Technology to all Developers" href="http://www.ysearchblog.com/2011/12/21/yahoo-opens-content-analysis-technology-to-all-developers/" target="_blank">announced</a> that the initial version will be deprecated in 2012. Inspired by a recent post by Tony Hirst, entitled <a
title="A Quick Peek at Three Content Analysis Services" href="http://blog.ouseful.info/2011/12/22/a-quick-peek-at-three-content-analysis-services/" target="_blank">A Quick Peek at Three Content Analysis Services</a>, this seemed like a perfect opportunity to test out various algorithms/APIs for semantically annotating text, in particular tweets. For my WSDM paper, <a
title="Adding Semantics to Microblog Posts" href="http://edgar.meij.pro/adding-semantics-microblogs/">Adding Semantics to Microblog Posts</a> (with Wouter Weerkamp and Maarten de Rijke), we have developed a gold-standard test collection for exactly this, i.e., automatically identifying concepts (in the form of Wikipedia articles) that are contained in or meant by a tweet.</p><p>What I wanted to do here is take <a
title="Dataset for “Adding Semantics to Microblog Posts”" href="http://edgar.meij.pro/dataset-adding-semantics-microblog-posts/">our recently released test collection</a> and compare several off-the-shelf annotation APIs. In the paper, we already compare various methods, including Tagme and DBpedia spotlight. There, we add to this a variant solely based on the anchor texts found in Wikipedia, called ‘CMNS’ in the paper. In this post, I also include the new Yahoo! service and a service called <a
title="Wikimeta" href="http://www.wikimeta.com/" target="_blank">Wikimeta</a>. I have excluded OpenCalais from this list, mainly because it doesn’t link to Wikipedia.</p><p>Highlights of the experimental setup:</p><ul><li>Approximately 500 tweets, with a maximum of 50 retrieved concepts, i.e., Wikipedia articles, per tweet.</li><li>The tweet is tokenized, i.e., punctuation and capitalization is removed. Twitter-specific “terms” such as mentions and URLs, are also removed. For hashtags, I remove the ‘#’ character but leave the term itself. Stopwords are removed. (More on this later.)</li></ul><p>First, some general observations with respect to each API.</p><ul><li>DBpedia Spotlight feels sluggish and actually takes the longest to annotate all tweets (approx. 30 minutes).</li><li>Tagme is blazingly fast, processing all tweets in under 60 seconds.</li><li>Yahoo! is also fast, but not very robust. It gives intermittent HTTP 500 responses to web service calls.</li><li>Wikimeta, well… First of all, the returned XML is not valid, containing unescaped ‘&amp;’ characters. After having manually fixed the output, it started nicely, but the web service seems to have crashed after processing 50 tweets. Update: things are back up and it finished within a few minutes.</li><li>Finally, our method is also quite fast; it finished processing all tweets in under 90 seconds. Obviously we have a local installation of this, so there is little networking overhead.</li></ul><p>Now, onto the results. Below, I report on a number of <a
title="Evaluation of ranked retrieval results " href="http://nlp.stanford.edu/IR-book/html/htmledition/evaluation-of-ranked-retrieval-results-1.html" target="_blank">metrics</a>, including average R-precision, i.e., precision at <em>R</em>, where <em>R</em> denotes the number of relevant concepts per tweet, reciprocal rank, i.e., the reciprocal of the rank of the first relevant concept, recall, and MAP (mean average precision)</p><h2 class="wp-table-reloaded-table-name-id-1 wp-table-reloaded-table-name">Comparison results</h2><table
id="wp-table-reloaded-id-1-no-1" class="wp-table-reloaded wp-table-reloaded-id-1"><thead><tr
class="row-1 odd"><th
class="column-1"></th><th
class="column-2">R-Prec</th><th
class="column-3">Recip. Rank</th><th
class="column-4">Recall</th><th
class="column-5">MAP</th></tr></thead><tbody
class="row-hover"><tr
class="row-2 even"><td
class="column-1">DBpedia Spotlight</td><td
class="column-2">0.2623</td><td
class="column-3">0.4301</td><td
class="column-4">0.3904</td><td
class="column-5">0.2865</td></tr><tr
class="row-3 odd"><td
class="column-1">Tagme</td><td
class="column-2"><b>0.4621</b></td><td
class="column-3"><b>0.6289</b></td><td
class="column-4">0.5973</td><td
class="column-5">0.4851</td></tr><tr
class="row-4 even"><td
class="column-1">Yahoo!</td><td
class="column-2">0.0785</td><td
class="column-3">0.1427</td><td
class="column-4">0.0690</td><td
class="column-5">0.0781</td></tr><tr
class="row-5 odd"><td
class="column-1">Wikimeta</td><td
class="column-2">0.0319</td><td
class="column-3">0.0573</td><td
class="column-4">0.0283</td><td
class="column-5">0.0314</td></tr><tr
class="row-6 even"><td
class="column-1">CMNS</td><td
class="column-2">0.4427</td><td
class="column-3">0.6275</td><td
class="column-4"><b>0.8239</b></td><td
class="column-5"><b>0.5247</b></td></tr></tbody></table><p>From this table it is clear that Tagme obtains high precision, with our method a close second. Reciprocal rank is high for both methods—a value of 0.6289 indicates the average rank of the first relevant concept lies around 1.6. Our method obtains highest recall–retrieving over 80% of all relevant concepts–and MAP, this time with Tagme as close second.</p><p>When running these experiments, it turned out that some methods use capitalization, punctuation, and related information to determine candidate concept links and targets; in particular Wikimeta and Yahoo! seem to be affected by this. So, in the next table you’ll find the same results, only this time without any tokenization performed (and also without any stopwords removed). Indeed, Wikimeta improves considerably and also Yahoo! improves somewhat. There seems to be a little gain for DBpedia Spotlight in this case.</p><h2 class="wp-table-reloaded-table-name-id-2 wp-table-reloaded-table-name">Comparison results — untokenized</h2><table
id="wp-table-reloaded-id-2-no-1" class="wp-table-reloaded wp-table-reloaded-id-2"><thead><tr
class="row-1 odd"><th
class="column-1"></th><th
class="column-2">R-Prec</th><th
class="column-3">Recip. Rank</th><th
class="column-4">Recall</th><th
class="column-5">MAP</th></tr></thead><tbody
class="row-hover"><tr
class="row-2 even"><td
class="column-1">DBpedia Spotlight</td><td
class="column-2">0.2650</td><td
class="column-3">0.4298</td><td
class="column-4">0.4273</td><td
class="column-5">0.2950</td></tr><tr
class="row-3 odd"><td
class="column-1">Tagme</td><td
class="column-2"><b>0.4553</b></td><td
class="column-3">0.6133</td><td
class="column-4">0.5813</td><td
class="column-5">0.4766</td></tr><tr
class="row-4 even"><td
class="column-1">Yahoo!</td><td
class="column-2">0.1094</td><td
class="column-3">0.1827</td><td
class="column-4">0.0985</td><td
class="column-5">0.1091</td></tr><tr
class="row-5 odd"><td
class="column-1">Wikimeta</td><td
class="column-2">0.2060</td><td
class="column-3">0.3347</td><td
class="column-4">0.2167</td><td
class="column-5">0.2047</td></tr><tr
class="row-6 even"><td
class="column-1">CMNS</td><td
class="column-2">0.4427</td><td
class="column-3"><b>0.6275</b></td><td
class="column-4"><b>0.8239</b></td><td
class="column-5"><b>0.5247</b></td></tr></tbody></table><p>To round up, some concluding remarks. Tweets are inherently different from “ordinary” text, and this evaluation has shown that the methods that perform best on short texts (for instance, the Tagme system) also perform best on tweets, when there is little data available for disambiguation. Wikimeta parses the input text and is thus helped by providing it with full-text (for as far as that goes with Twitter).</p><p>Finally, I discovered something interesting with respect to our test collection, namely that some of the contents already seem to be outdated. One of the tweets refers to “<a
title="Pia Toscano" href="http://en.wikipedia.org/wiki/Pia_Toscano" target="_blank">Pia Toscano</a>,” but she wasn’t in the annotators’ version of Wikipedia yet. As such, some systems retrieve her correctly, although the annotations deem her not relevant. “Dynamic semantics.” Sounds like a nice title for my next paper.</p><p> </p> <img src="http://feeds.feedburner.com/~r/EdgarMeij/~4/OfC6XGKX24o" height="1" width="1"/>]]></content:encoded> <wfw:commentRss>http://edgar.meij.pro/comparison-semantic-labeling-algorithms-twitter-data/feed/</wfw:commentRss> <slash:comments>2</slash:comments> <feedburner:origLink>http://edgar.meij.pro/comparison-semantic-labeling-algorithms-twitter-data/</feedburner:origLink></item> </channel> </rss><!-- Dynamic page generated in 1.047 seconds. --><!-- Cached page generated by WP-Super-Cache on 2012-05-18 09:21:28 --><!-- Compression = gzip -->

