De opening van het programma werd verzorgd door Marjan Vernooy (bekijk video). Zij is programmamanager van het SURFshare-programma. Zij gaf uitleg over de innovatiemethode van SURF en hoe in het vierjarig SURFshare aan vernieuwing van wetenschappelijke communicatie op basis van een repository infrastructuur wordt gewerkt. Marjan vertelde over een experiment met Teezir om te laten zien wat mogelijk is met text-mining technieken. Ze vertelde dat tijdens dit experiment bleek dat de content in de repositories lang niet altijd geschikt is voor text-mining activiteiten.
De tweede presentatie werd verzorgt door Maurice Vanderfeesten (bekijk video). Hij is project coördinator binnen het SURFshare-programma. Maurice gaf een uitleg over wat (repository) infrastructuur is en welke plek de Digital Author Identifier (DAI) daarbij inneemt. De DAI heeft internationale context via WorldCat en wordt op dit moment in institutionele context gebruikt om personen te koppelen aan hun onderzoeksresultaten en samenwerkingsverbanden. Maurice gaf aan dat er door de DAI tal van nieuwe toepassingen mogelijk worden. Waaronder publicatie-widgets, 'expert finding' en 'people like me' systemen. Hij gaf aan dat het de bedoeling was in de tweede helft van de middag de deelnemers in groepen zulk soort diensten gaan verzinnen op hasis van de 'ingrediënten' uit de repository infrastructuur en met behulp van de state-of-art op het gebied van zoektechnologie en semantisch-web technologie die in de volgende presentaties aan bod komen. De ingrediënten die Maurice bijdroeg waren: Publicaties, Leerobjecten, Research Projecten, en Researchers, met de eigenschappen: Persistente Identifier, Titel, Type, Digitale Auteur Identifier en een link/url naar een bestand.
Frank van Harmelen (Identifier: info:eu-repo/dai/nl/298805235) (bekijk video), hoogleraar Kennisrepresentatie aan de VU, hield een betoog over het koppelen van data waar hij met sprankelende en begrijpbare voorbeelden kwam. Door data aan concepten te verbinden kan er via redenaties door machines nieuwe kennis ontsloten worden. RDF (Resource Description Framework) is een veel terugkerende term waarmee beweringen kunnen worden gemaakt in de vorm van drie componenten Subject-Predicaat-Object, bij voorbeeld 'Frank' 'werkt_bij' 'de_VU' . Dit wordt ook wel een "tripple" genoemd. Elke component heeft een web-adres dat een representatie is van het concept in kwestie. Om meer logica in deze statements te verwerken is OWL (Ontology Web Language) uitgevonden. Nieuwe verbanden kunnen hiermee worden gelegd die nog niet eerder bekend zijn. Google kan alleen iets vinden wat al bekend is, omdat daar een web pagina over moet bestaan, met Linked-data kan dit wel. Bijvoorbeeld in China vindt iemand dat eiwit X de eigenschap Y vertoont. In Brazilië is een zieke Z uitgebroken die eigenschap Y heeft. De vraag "Welk eiwit is nodig om ziekte Z te bestrijden" levert geen resultaten op in Google omdat het nog niet is uitgevonden, maar dit komt wel naar voren via linked data. De ingrediënten die Frank bij droeg zijn de ontologiën en concepten databases uit het linked-data universum (www.linkeddata.org) en de MS Word Ontology add-in (http://research.microsoft.com/en-us/projects/ontology/) om delen van teksten te linken met concepten uit die ontologiën.
Maarten de Rijke (Identifier: info:eu-repo/dai/nl/08251822X ) (bekijk video), hoogleraar Information Retrieval (IR) aan de UvA, hield zijn betoog over drie zaken. De achtergrond van IR, de Pilots bij de UvA en de vervolgstappen. IR stond vroeger bekend om het zoeken naar documenten, nu is er een trend van zoeken naar eigenschapen binnen die documenten en relaties tussen die eigenschappen leggen. Met dit gegeven kan er gegeken worden naar drie verschillende toepassingen: Expert Finding (welke experts zijn er op basis van een document), Expert Profiling (welke expert categoriën zijn van toepassing op een persoon) en Similar Expert Finding (welke experts lijken op een persoon). Om deze toepassingen te ontwikkelen is er zoveel mogelijk context nodig om de persoon te beschrijven. In een academisch systeem van de Universiteit van Tilburg is dit verder ontwikkeld in WebWijs. Hier zijn gegevens van een persoon uit verschillende bronnen gebruikt,zoals publicaties, onderwijs leerobjecten, eigen homepages, telefoonboek lijsten en onderwijsprogramma's. De resultaten met het systeem van de Rijke bereiken een hoge nauwkeurigheid, dit komt omdat er rondom een expert veel bronnen uit verschillende contexten gekoppeld konden worden. Het systeem is als Open Source software beschikbaar; http://code.google.com/p/ears/ . Uit de discussie bleek dat expertfinding en het semanische web met dezelfde issues te kampen hadden. Namelijk die van een goede authorative identifier, specifiek in dit geval voor auteurs. Zonder deze linking pin is het heel erg moeilijk om expert finding toe te passen.
Stefan de Bruijn van Teezir (bekijk video), een bedrijf dat zich richt op het praktisch toepassen en productierijp maken van zoektechnologieën die in de universitaire wereld worden bedacht, heeft voor SURF een Expert finder gemaakt. Deze expert finder haalt de metadata uit Narcis. Elk metadatarecord bevat de DAI van de auteur en de link naar de PDF van de publicatie. Deze publicaties worden van de repositories gedownload en geïndexeerd en geannoteerd met een DAI. Uniek is dat de gebruiker niet hoeft na te denken over trefwoorden. Wanneer alles is geïndexeerd kan de gebruiker een bestand over het onderwerp uploaden waarbij hij een expert wil zoeken. Onderwater wordt er een Match gevonden voor welke auteurs publicaties hebben geschreven die overeenkomen met het ge-uploade document. Teezir heeft aangetoond dat het werkt, dat expert finding mogelijk is. Zie voor de demo: http://production.teezir.com/Surf/. De kwaliteit van het resultaat valt tegen, niet omdat het systeem niet werkt, maar vanwege de kleine bruikbare corpus in de repositories. Veel publicaties zijn nog niet gekoppeld aan een DAI, PDF-bestanden blijken niet downloadbaar terwijl de link wel in de metadata staat, of gedownloade PDF's zijn niet indexeerbare scans zonder OCR-tekst.
Tigran Spaan van Gridline (bekijk video), een bedrijf dat zich tot nu toe vooral heeft gericht op de overheid gaf een overzicht van hun dienstenpakket. Hun architectuur is voornamelijk geconcentreerd rond een belangrijk kern component, de Taal Server. Omdat in taal veel semantische relaties verscholen liggen en op dit moment nog veel platte tekst online is te vinden, lijkt het een logische zet om de taal als uitgangspunt te nemen voor het verwerken en koppelen van informatie. Gridline laat zien dat toepassingen niet alleen met zoeken te maken hebben, maar ook met on-the-fly (tijdens het typen) hulp, zoals de toepassing voor ambtenaren om minder complexe taal te gebruiken in hun nota's en brieven aan burgers.
Jan Velterop (Identifier: http://conceptwiki.org/index.php/Concept:114791653) van NBIC (Netherlands Bio Informatics Center) (bekijk video), laat zien hoe je een spreekwoordelijke naald uit een hooiberg haalt en information overload voorkomt met notificaties van nano-publicaties. Uit het verhaal van Frank van Harmelen bleek al dat we informatie-eenheden het beste kunnen koppelen aan concepten die een webadres hebben. Deze informatie eenheden en hun relaties tussen elkaar uit de beschikbare teksten halen gebeurd met taal technologie die we van de vorige sprekers hebben gezien. Deze informatie eenheden en hun relaties komen in de concept cloud terecht. Deze noemen we nano-publicaties. Wanneer nieuwe relaties ontstaan tussen concepten is er blijkbaar een nieuw onderzoek geweest die deze nano-publicatie heeft aangemaakt. Door alleen artikelen te lezen op basis waarvan een nieuwe nano-publicatie is binnengekomen kan de informatie overload overwonnen worden. Taal en Information Retrieval technologie is nodig om uit platte tekst weer meer betekenis te halen, maar in feite moeten we in de toekomst geen platte tekst meer op slaan, maar rijke tekst. De oproep van Jan Veltrop is daarom ook om de repositories te ont-PDF-en (dePDFy). In de Concept Web Alliance wordt gebruik gemaakt van een wiki (http://conceptwiki.org), waarin relaties binnen wiki-items gekoppeld worden aan concepten. Binnen de Concept wiki krijgen alle Auteurs een eigen pagina met een voorgemaakte set aan publicaties waarvan door de machine bedacht wordt dat deze van de betreffende auteur afkomstig is. De DAI en andere auteur identifiers kunnen hier een bust aan geven.