Monthly Archives: September 2007

Hoe het met “gezocht: search” gaat?

Een tijdje geleden vroeg ik jullie op deze blog naar input over website search oplossingen. Een maand later is een korte update misschien op zijn plaats?

xapian logoLaat ons eerst de oplossingen even overlopen die in de comments van mijn eerdere blogpost werden voorgesteld: pvandewyngaerde linkte naar Xapian en Strigi. Over Strigi kunnen we kort zijn: het is een desktop search en geen website search, volgende dus. De andere link was inderdaad direct veelbelovender: Xapian is een open source search library in c++. Omega is een voorbeeld-implementatie van Xapian in perl. Ik vond niet veel documentatie over Omega, dus even geïnstalleerd en mee gespeeld. Eerste probleem: alle configuratie zit in txt-files, niet van dien aard dat onze business-collega’s daar direct mee aan de slag kunnen. Tweede probleem: crawlen van websites wordt niet ondersteund. Omega gaat er namelijk van uit dat je website lokaal (op dezelfde machine) staat en indexeert statische html via het filesysteem. Voor echte crawling verwijst de wiki naar wget (zo heb je je site toch lokaal) of htdig. Niet handig om het zachtjes uit te drukken en “as such” dus toch niet echt bruikbaar voor onze doeleinden.

lucene logoLuc stelde Nutch voor. Nutch is een broertje van het quasi alomtegenwoordige Lucene; open source, ook onder de rokken van de Apache foundation en ook java. Nutch is een mooi uitgangspunt voor een website search, maar features als stemming en logical operators worden niet ondersteund. Configuratie is heel flexibel (want via tekstfiles), maar er is anderzijds ook hier geen ‘leuke webinterface’ om de boel te administreren. In mijn nota’s (maar ik vind niet direct terug waar ik die info gevonden heb) lees ik tenslotte dat Nutch out of the box geen ‘collections’ ondersteund. Alles wordt dus in 1 index bewaard, wat voor onze implementatie (een 10-tal sites in 2 of 3 talen die we ook apart willen kunnen bevragen) nodig was.

Omdat ik ook maar een onwetend eenzaat in een groot telecom-bedrijf zonder eigen (web-)developers ben, schreven we een tijd geleden ook een paar bedrijven aan met de vraag een oplossing voor ons te formuleren en budgetteren. We kregen 4 nutch logooffertes, 2 voor custom-built solutions en 2 product-gebaseerde voorstellen. De 2 “build” oplossingen gingen beiden uit van Lucene als “core”, de ene met Nutch, de andere met Compas (een high-level api voor Lucene met integratie van Spring, Hibernate, JDBC, …) erbovenop. Omwille van de risico’s verbonden aan custom development (scope-bepaling, functionele analyse en development van de administratie-schermen om er maar enkele te noemen) en omwille van de strikte deadline besloten we om niet te opteren voor nog te ontwikkelen oplossingen.

gast logoDe 2 “buy”-gebaseerde voorstellen lagen betrekkelijk ver uit elkaar; aan de ene kant hadden we Fast, een enterprise search solution die veel meer kan dan website search alleen, maar met een licentieprijs en een doorlooptijd voor installatie en configuratie die natuurlijk navenant waren.

In het andere voorstel kwamen we gelukkig een oude bekende tegen: Searchblox is een op Lucene gebaseerde mid-market search-oplossing. Crawling en indexing, de search-interface (incl. stemming en fuzzy search), een goeie searchblox logobackend voor administratie, een REST-api en de mogelijkheid om met xslt de business logica van de presentatie van zoekresultaten te wijzigen, zijn standaard functionaliteiten die in 1 eenvoudig te deployen WAR zitten. U raadt het al; omwille van doorlooptijd, geboden functionaliteit en kostprijs opteerden we uiteindelijk inderdaad voor Searchblox. Benieuwd wat dat gaat geven!

Het grote Gilles Peterson eerbetoon deel 2

Je hebt zo van die radiomomenten die in het koppeke blijven hangen, zo ook de Worldwide waar ik het vorige vrijdag al over had. In die aflevering van 30 augustus (op Stubru uitgezonden op 2 9 september) zaten oa ook ‘onze’ Zap Mama, Seun Kuti (zoon van) en The Eternals Jimi Tenor (“Tuesday” “Too Many People (Do the Wrong Thing)”, bijzonder maf nummer, niks van terug te vinden op zijn site), maar ook nobele onbekenden als Tawiah (luister naar het prachtige “Every step” op haar MySpace) en Larry Heard met “You Rock Me”.

Van 2 earcatchers vond ik een YouTube-ken, bij deze:

CRS (ofte de nieuwe supergroep van Lupe Fiasco, Kanye West en Pharrell Williams), “US placers”, met een fantastische Thom Yorke-van-Radiohead-sample:

CRS – Us Placers

Watch this video on YouTube.

en Little Dragon (nieuwe groep van Yukimi Nagano, ook gast-zangeres bij Koop) met het herfstig-intimistische goudklompje “Twice”:

Little Dragon – Twice

Watch this video on YouTube.

<edit> Het is ongelofelijk teleurstellend hoe in de comments op “US Placers” rap- en Radiohead-fanboys elkaar in de haren vliegen over hoe fantastisch hun idool wel is en hoe slecht en onbetekenend de andere. Met oogkleppen op zie je nu eenmaal minder. Het is juist de kracht van GP’s Worldwide (en van bv. de programmatie op KCRW, een ander muzikaal fenomeen voor mij) dat die niet bij 1 stijl of bij 1 format blijven plakken.

Futtta’s vrijdagse dansplaat: Roland Appel – Dark Soldier

roland appelAfgelopen zondag is Stubru na een te lange zomer terug begonnen met het uitzenden van Gilles Peterson’s Worldwide. Ik heb de mp3 van die show hier op mijn desktop staan en ik kan U verzekeren, ik heb direct weer bijzonder opwindende muziek gehoord!

Het meest in het hoofd blijven hangen; Roland Appel met “Dark Soldier”, uit op Sonar.

Het is bijna weekend, dus luister maar even naar onderstaande mp3 om alvast een beetje in de mood te komen:

[audio:http://media.sonarkollektiv.com:8000/sonark/DE-P96-07-00098.mp3]

Followup: coScripter voor Firefox

Naar aanleiding van mijn kort experiment met de coScripter Firefox add-on, mailde ik IBM over mijn problemen met de onbetrouwbare resultaten. Hun antwoord vertaald en samengevat:

“Je bent in aanraking gekomen met één van de probleempjes waar we nog aan werken. De ‘run’-knop geeft omwille van verschillende redenen inderdaad een onvoorspelbaar resultaat. We kunnen bijvoorbeeld niet altijd zien wanneer de pagina volledig in de browser is ingeladen en de pagina kan al verschillen met wat de auteur van het script zag. Voorlopig kun je de ‘step’-knop beter gebruiken om stap voor stap door een script te lopen.”

En over het probleem van coScripter op meertalige sites:

“Het klopt inderdaad dat scripts werken op basis van de tekst op de pagina. Een script dat opgenomen is op een Spaans-talige pagina, zal vermoedelijk niet werken op diezelfde pagina in het Engels omdat de nmaen van buttons en links verschillend zijn.”

Ik merkte overigens ook dat coScripter het moeilijk heeft met een pagina die verschillende forms bevat, zeker als die geen eigen id hebben of als de input elementen overheen die verschillende forms dezelfde id hebben. Aangezien veel webapplicaties het niet altijd even nauw nemen met de naming van formulieren in hun html, vrees ik dat er in coScripter nog heel wat zal moeten veranderen om echt bruikbaar te zijn op het wilde-wereld-web.

Maar kom, de vriendelijke IBM-dame noemde me in haar mail een “early adopter”. Enerzijds is dat altijd een compliment, anderzijds betekent dat evengoed “laat ons gerust, we zijn nog niet klaar”. Daar kan best ik mee leven, eigenlijk …

sp.a na het rapport Janssens (en het debacle Gennez in A’pen)

cover van “wat ging er mis”De verkiezingsuitslag van 10 juni laatstleden was een serieuze opdoffer voor rode rakkers. Net als zovelen vroeg ik me af wat er was fout gelopen, maar een antwoord formuleren was minder vanzelfsprekend. De sp.a droeg oud-voorzitter, reclamemaker maar vooral ook socioloog en stemmenkanon Patrick Janssens op om die analyse ten gronde te maken. Het resultaat is de pdf die sinds begin september van de sp.a-website te downloaden is. Ik heb die 30-tal pagina’s ondertussen een paar keer doorgenomen, soms diagonaal, soms aandachtig lezend en hernemend. Het rapport is “een verzameling van gegevens en opinies die de discussie de komende maanden verder kan stimuleren”. Hieronder mijn -lichtgewicht- bijdrage aan die discussie. Leest U mee, Kameraden Gennez en De Bruyn?

Trends en hoe er aan te ontsnappen
Hard feit: er is een onmiskenbaar dalende trend in de verkiezingsresultaten van de socialistische partij (BSP, SP en later sp.a). Dat is overigens een Europees fenomeen. De socialistische partij dondert op 45 jaar tijd van pakweg 30% naar rond de 20%. Maar die trend is allerminst heilig, want ze kon op enkele momenten positief doorbroken worden; in ’85 en ’87 bijvoorbeeld en in 2003. Omgekeerd zijn er ook jaren waarin het resultaat duidelijk onder die algemene trend uit leek te komen; in 1999 en nu, in 2007. Wat liep er fout in 1999 en 2007 dat goed liep in de jaren ’80 en in 2003? De mate waarin de SP(.a) de inzet van de verkiezingen was, misschien?

De SP stond bij de verkiezingen in 1985 en 1987 als belangrijkste oppositiepartij voor verandering na de roomsblauwe regeringen Martens-Verhofstadt. In 1995 kon Tobback met een sterke campagne (“Uw sociale zekerheid”) de impact van de Augusta-affaire zelfs nog counteren. Het sterke vernieuwingsproject dat werd ingezet door o.a. Janssens, het gratis-verhaal van Stevaert en het kartel met Spirit, verzekerden de sp.a in 2003 tenslotte ook van een bijzonder sterk resultaat. Aan de andere kant van de trend, draaide de campagne in 1999 vooral rond de dioxinecrisis en voedselveiligheid; winst voor Agalev dus, mee ten koste van de SP (dat toen slechter scoorde dan sp.a in 2007).

2007: Waar was de sp.unk?
De campagne in 2007 werd in Vlaanderen gedomineerd door de keuze tussen oud (“open” Verhofstad) en nieuw (“goed bestuur” Leterme). De twee hoofdrolspelers positioneerden zich vooral met ferme standpunten over “rechtse” thema’s als staatshervorming, politie, justitie, veiligheid en andere economische besognes. De sp.a kwam er met zijn 6 (en later zelfs 8!) centrale “zachte” thema’s c.q. slogans niet aan te pas. Vande Lanotte hing er bij als het derde wiel aan de wagen, gesust door de zekerheid van regeringsdeelname misschien?

Maar verkiezingen worden zelden gewonnen door partijen die er met hun campagne “een beetje bijhangen”. Janssens poot op pagina 26 voor mij dan ook de essentie neer:

“Een stem voor sp.a was niet echt nodig. Het was moeilijk om een reden te bedenken om voor de Vlaamse socialisten te stemmen. De partij had de frisheid en de dynamiek van 2003 ergens onderweg verloren. Een nieuw wervend project was helaas niet van de grond geraakt. En de geloofwaardigheid van haar bestuurders was aangetast. Toch was er quasi zekerheid over regeringsdeelname, in eender welke formule. Dat werd ook niet onder stoelen of banken gestoken. En dat straalde af in negatieve zin. Hoe doordacht en doorwrocht de inspanningen ook waren, sp.a wist het laken niet naar zich toe te trekken. De partij was niet de inzet van de verkiezingen. De kiezer voelde het zo aan.”

Het ontbrak de campagne inderdaad aan “spunk“, dames en heren, de sp.a stond er helemaal niet. Niet met de verwarrende campagne, maar ook niet met de mensen op de lijst. Want vooral die “aangetaste geloofwaardigheid van haar bestuurders” (meer daarover te kort op pagina 25 van het rapport, onder de titel “Politiek falen en onvermogen”) moet ons zorgen baren. Het is immers zeer de vraag of Caroline Gennez (en Freya Van Den Bossche, maar die heeft al voor de eer bedankt) die geloofwaardigheid wel heeft. Het feit dat ze het dit weekend bij interne verkiezingen bij sp.a-afdeling Antwerpen niet gehaald heeft, is in dat opzicht niet hoopgevend. Caroline zei het overigens ook al in een interview met De Morgen: er is momenteel geen natuurlijke leider binnen de partij.

Een nieuw project, toch, pretty please?
Wat moet er dan gebeuren? Ik denk dat Spirit eerst en vooral moet worden losgelaten. Laat die sympathieke jongens en meisjes zichzelf opnieuw bewijzen, laat ze hun eigen plaatsje in het politieke spectrum verdienen. In de toekomst kunnen de wagonnetjes misschien terug aan elkaar worden gekoppeld in het kader van een nieuw project, maar nu was Spirit quasi onzichtbaar en ze leken als kartelpartner weinig of geen toegevoegde waarde te bieden.

Neem dan de tijd om aan de rol van oppositie-partij te wennen. Zoek nieuwe bulldogs en caféuitbaters om de partij een duidelijk links profiel aan te meten, dat ‘plakt’ bij zowel de ‘oude’ als de ‘nieuwe’ achterban (over dat schisma valt er ook één en ander interessants te lezen in Janssens’ document).

En werk ondertussen vooral verder aan wat Janssens op pagina 20 van zijn rapport beschreef:

“In het najaar 2006 werd er achter de schermen druk gewerkt aan een nieuw progressief project. De doelstelling was de totstandkoming van een sociaalprogressieve projectlijst. Er vonden vele gesprekken plaats met mogelijke onafhankelijke kandidaten en organisaties. Het opzet was dat het kartel sp.a-spirit zou uitgebreid worden met twee nieuwe pijlers: enerzijds een groep van geëngageerde, onafhankelijke mensen die hun verantwoordelijkheid in de politiek wilden opnemen; anderzijds met een bundeling van middenveldorganisatie of actiegroepen die zich rond een specifiek punt of thema wilden associëren met het progressieve kartel. Er werd gezocht naar een nieuwe overkoepelende naam voor dit project en zelfs de datum voor de persconferentie om het project te lanceren lag vast. Deze opbouw lag volledig in de lijn van de vernieuwing en verbreding van de partij en zou een nieuwe, wervende stap in dit sociaalprogressieve verhaal gevormd hebben. Alle inspanningen bleken echter tevergeefs. Een aantal cruciale ‘spelers’ haakten af, de drempelvrees bij het merendeel van de middenveldorganisaties was te groot en ondertussen verzeilde dit verhaal steeds meer in pre-electoraal vaarwater.”

Ik kan me niet ontdoen van het idee dat de sp.a er wel zou hebben gestaan als bovenstaande eind 2006 wel was gelukt. Of misschien niet de sp.a, want ze zochten blijkbaar een nieuwe overkoepelende naam. Misschien mag ik dan toch nog sp.unk voorstellen, als het in de toekomst zo ver komt? ;-)

Google Reader nu ook met search!

Lang gewacht, nog langer verwacht, een search in uw favoriete RSS-reader. En kijk; daar blinkt ie! Joepie! Screenshotje volgt, de trein wacht niet eh ;-)

Update: screenshot hieronder. De search lijkt op het eerste zicht niet bijster snel, maar dat zou met de grote hoeveelheid feeds die ik volg te maken kunnen hebben?

google reader search