Adresse und Kontakt

AG Netzbasierte Informationssysteme
FU Berlin
Königin-Luise-Straße 24-26
14195 Berlin

Tel.: +49-30-838-75221
Fax: +49-30-838-75220

This site is no longer maintained. You see a static copy as of April 1 2016.

Ermittlung von örtlichen Assoziationen zu Personen und Organisationen aus Web-Quellen

Für Geotagging und Geokodierung stehen für einige Medien (z.B. Bilder) und Informationsarten (z.B. Anschriften) vielfältige Verfahren und Dienste zur Verfügung. Die Zuordnung von Orten zu Personen und Organisationen gestaltet sich aus verschiedensten Gründen (Zeitbezug, Mobilität, mehrfache Verortung) schwierig. In der Arbeit soll ein pragmatischer Weg gefunden werden um Personen und Institutionen einen räumlichen Bezug zu geben, der nicht immer feingranular sein muss und eine Qualitätsabstufung tragen kann.

Die konkrete Anwendung sind Arbeiten an der Web-Site Lombardi Networks mit der Zeichnungen erschlossen werden sollen die Personen und Organisationen in losen Bezügen im Rahmen von Finanzskandalen oder verdecktem Waffenhandel zeigen. Für eine erweiterte Visualisierung sollen die Akteure regional zugeordnet werden, mithin das Layout der vorhandenen Netzwerke an Geokoordinaten in einer Karte ausgerichtet werden. Die Akteure sind durch Namen identifiziert, so existiert eine Liste von Namen die in verschiedenen Arbeiten auftreten oder in Literatur zum Künstler.

In der Arbeit sollen verschiedene Dienste – z.B. dbpedia, Open Calais oder der Analyse von themenspezifischen Textbeständen – geeignet verwendet werden um zu einem Namen eine räumliche Zuordnung geeigneter Granularität (Land, Stadt etc.) zu finden. Dazu ist eine entsprechende Heuristik zu entwickeln, ihre Ergebnisse zu evaluieren um gegebenenfalls die Heuristik zu verfeinern. Die erstellte Software … [...Weiterlesen/more...]

Analyse von synchronen Kommunikationsstrukturen in der Open Source Software Entwicklung

Bei der Entwicklung von Open Source Software ist der Chat ein wichtiges Instrument der synchronen Kommunikation. Es werden aktuelle Änderungen am Source Code dokumentiert, Probleme bei der Softwareentwicklung diskutiert, Nutzerfragen beantwortet oder aber auch Diskussionen zu den unterschiedlichsten Themen geführt.

Die Frage ist, was für Personen beteiligen sich an den Gesprächen? Wie viele sind aktiv oder hören einfach nur zu? Wie lang „hören“ nicht aktive Nutzer zu, bevor sie aktiv werden? Ist es möglich, bei den aktiven Nutzern bestimmte Kommunikationsrollen zu identifizieren? Welche Formen der Partizipation existieren innerhalb des Chats? An welchen Themen beteiligen sich die Nutzer an der Diskussion? Beteiligen sich Nutzer in Abhängigkeit von der Art des Thema an der Diskussion?

Um diese Frage beantworten zu können, ist es notwendig, bestehende Kommunikationsstrukturen im Zeitverlauf zu untersuchen und die Beteiligung der einzelnen Nutzer zu analysieren.

Im Rahmen dieser Arbeit sollen bestehende Kommunikationsstrukturen im open source software Projekt MediaWiki untersucht werden. Bestehende IRC (Internet Relay Protocol) Logdaten (Übersicht über Channels) sollen programmatisch in eine Netzwerkbeschreibung überführt, beteiligte Personen und ihre Interaktionen beschrieben und analysiert werden. Eine Analyse der Netzwerke kann mit Hilfe bestehender Werkzeuge/Bibliotheken wie beispielsweise visone, gephi oder igraph erfolgen. Ebenfalls werden Werkzeuge, wie beispielsweise PieSpy [...Weiterlesen/more...]

Referenznetzwerke in juristischen Textbeständen

Rechtstexte wie Gesetze, Verordnungen und Urteile werden verstärkt online publik gemacht. Die Datenbestände sind ein interessanter Korpus für Analysen von Referenzen innerhalb und zwischen diesen Texten. Innerhalb von Gesetzen wird direkt per Verweis auf andere Gesetze verwiesen. Diese Referenzen lassen sich hinreichend gut extrahieren, analysieren und visualisieren. Aber Gesetze stehen nicht nur explizit mit anderen Gesetzen in Verbindung, sondern viel häufiger auch durch die „Rechtsfolgenorm“, als die Regelung die an anderer Stelle die Folgen eines bestimmten Tatbestands festlegt.

Genau diese zu beherrschen und anzuwenden ist Teil der juristischen Ausbildung und die eigentliche Herausforderung dabei. Nachvollziehbar wird die Rechtsfolgenorm in der Praxis durch Urteile, die auf die in der Urteilsfindung angewandten Gesetze verweisen. Führt man diese Verweise mit den expliziten Verweisen in Gesetzestexten zusammen, erhält man ein riesiges Netzwerk aus Gesetzen und ihren Verweisen, das ohne sinnvolle Unterstützung kaum überschaubar ist, inhaltlich aber einen hohen Wert hat.

Die Analyse von Netzwerken ist ein verbreitetes Instrument um den Aufbau, bestehende Abhängigkeiten und Entwicklungen in Informationsstrukturen offenzulegen. Bekannte Studien basieren auf Beziehungen zwischen Webseiten im World Wide Web, auf Referenzen zwischen akademischen Artikeln aber auch auf juristischen Referenzen bei Urteilen.

In der Arbeit soll ein Rahmen konzipiert und implementiert werden mit dem sich … [...Weiterlesen/more...]

DigiPolis: Selbst-Organisierender Semantischer Speicherdienst (S4)

Im Rahmen des vom Bundesministerium für Bildung und Forschung geförderten Verbundprojekts „DigiPolis“ entwickelt die AG NBI einen verteilten selbst-organisierenden semantischen Speicherdienst (S4) auf der Basis von naturinspirierten Algorithmen und Schwarmintelligenz. Im Zuge dieser Entwicklung sind verschiedene, für Abschlussarbeiten passende Themen zu bearbeiten:

  • Erstellung einer vergleichenden Studie zwischen unterschiedlichen Organisationsprinzipien (Hash Tables, Lookup Trees,..) für verteilte Systeme mit dem Ziel, für S4 passende Einsatzszenarien zu identifizieren und zu beschreiben.
  • Entwurf, Implementierung und Analyse eines integrierten Evaluationswerkzeuges, mit dem S4 für verschiedene Konfigurationen und Datensets getestet werden kann. Wichtiger Punkt ist die Aufzeichnung von Testresultaten für nachgelagerte Untersuchungen.
  • Untersuchung und Umsetzung eines Verfahrens zur Vermeidung von Überlast auf den Netzwerkverbindungen zwischen den verschiedenen Knoten („Overpathing“) für S4.
  • Untersuchung, Erstellung und Implementierung von Heuristiken für die Einstellungen verschiedene Parameter des selbstorganisierenden Systems.
  • Untersuchung und Umsetzung eines Verfahrens zur Behandlung von Ausfällen und Wiedereingliederung einzelner Knoten des verteilten Systems.

Sollten Sie an einem dieser Themen Interesse haben, wenden Sie sich bitte an einen der unten genannten Betreuuer.

Art
Bachelorarbeit
Wichtig: Wegen der begrenzten Projektlaufzeit können leider keine weiteren Master- oder Diplomarbeiten zu diesen Themen vergeben werden. Bacheloararbeiten müssen spätestens Ende August angemeldet werden.

Voraussetzungen
Kenntnisse in Programmierung mit Java, Vorkenntnisse in Verteilten … [...Weiterlesen/more...]

Visualisierung der Autorenbeiträge/der Artikelqualität in Wikipedia zur Beeinflussung des Nutzerverhaltens

Mittlerweile existieren eine Vielzahl von unterschiedlichen Ansätzen, in denen die Qualität von Autorenbeiträgen oder die Qualität von  Artikeln untersucht wird. Innerhalb dieser Studien werden zumeist bestimmte Aspekte untersucht und visualisiert, wie beispielsweise die Editieraktivität von Autoren in der Wikipedia mit sogenannten Chromograms [1], Änderungen auf Diskussionsseiten mit History Flow Diagrams [2] oder aber auch die Ko-Autorenschaft zwischen Artikeln basierend auf Netzwerken [3]. Ebenfalls werden Nutzeränderungen direkt im Wiki angezeigt wie bei Wiki–Dashboard [4]. Daneben existieren aber auch Visualisierungen, in denen der rein visuelle Aspekt im Mittelpunkt steht, wie beispielsweise in [5].

Die Frage der in dieser Diplomarbeit nachgegangen werden soll ist aber, wie durch Visualisierungen zur Artikelqualität bzw. zum Editierverhalten die dem Nutzer direkt zur Verfügung gestellt werden, das Nutzerverhalten indirekt beeinflusst wird oder indirekt beeinflusst werden kann. Dazu soll zunächst ein Überblick über bestehende Ansätze zur Nutzeraktivität und Artikelqualität erfolgen. Diese Ansätze sollen auf ihre Nutzbarkeit bzw. Erweiterbarkeit hinsichtlich der Verwendung in dieser Forschung untersucht werden. Dabei geht es vor allem darum, Kriterien zu ermitteln, die eine solche vergleichende Bewertung erlauben. Dazu sollte auf bestehende Literatur aus den Bereichen der Informationsvisualisierung (z.B. [6], [7]) und Visual Analytics [8] zurückgegriffen werden. Die Ergebnisse sollen genutzt werden, um eine eigene Visualisierung … [...Weiterlesen/more...]

Wer schreibt die Wikipedia?

Die Wikipedia ist nun mittlerweile 10 Jahre alt und noch immer helfen viele Freiwillige bei deren weiteren Auf- und Ausbau. Ein häufig genannte These ist, dass Wikipedia nicht die Arbeit Vieler ist, sondern vor allem von einer Kerngruppe geschrieben wurde. Dazu bestehen bereits vielfältige Untersuchungen, mit teilweise recht unterschiedlichen Ergebnissen. Wie dem auch sei, die Frage ist, ob die Art der Beiträge sich nicht von der bestehenden Qualität der Beiträge unterscheidet und das ganz bestimmte Personen zu ganz bestimmten Zeitpunkten an der Erstellung der Artikel beteiligen. Ein erster Ansatzpunkt der Qualitätsbeurteilung der Beiträge ist das vorhandene Kategorisierungssystem in der Wikipedia. Hier werden Beiträge nach vordefinierten Kriterien bestimmten Qualitätsstufen zugeordnet. Diese Arbeit kann helfen, ein verbessertes Verständnis für vorhandene Artikelerstellungsprozesse in der Wikipedia zu erlangen.

Zugrunde liegender Datensatz: Wikipedia

Literatur:

  • A. Kittur, E. H. Chi, B. A. Pendleton, B. Suh, and T. Mytkowicz. Power of the few vs. wisdom of the crowd: Wikipedia and the rise of the bourgeoisie. In 25th Annual ACM Conference on Human Factors in Computing Systems (CHI 2007), San Jose, CA., 2007.
  • K. Stein and C. Hess. Does it matter who contributes: a study on featured articles in the german wikipedia. In HT ’07: Proceedings of the
[...Weiterlesen/more...]

Unternehmensbeteiligung in open-source Projekten: Wie ehrenamtlich ist die Entwicklung von open source Software am Beispiel von Apache?

Die Bedeutung von open-source Softwareprojekten ist mittlerweile unbestritten. Es existieren eine Reihe sehr erfolgreicher und bekannter Projekte, wie beispielsweise Linux. In einer aktuellen Studie der Linux Foundation wurde zwischen Dezember 2008 und Januar 2010 der zum Linux-Kernel zugefügte Quellcode untersucht. Ergebnis dieser Analyse war, dass 75% des Quellcodes von Personen beigetragen wurde, die in Unternehmen angestellt sind, während nur 18% der Beiträge auf Personen zurückgeführt werden konnten, die sich ehrenamtlich beteiligt haben [1].

In dieser Arbeit soll der Frage nachgegangen werden, wo und wie sich Unternehmen bei der Entwicklung von open-source Software beteiligen. Ersteres soll mit Hilfe der Analyse vorhandener Kommunikationsdaten der Mailinglists, aus Commit-Daten aus Source-Code-Management-Systemen und Fehlermeldungen aus der genutzten Bug Tracking Software  erfolgen. Die unterschiedlichen Repositories sollen in einer Datenbank zusammengeführt werden, was neben anderen bestehenden Herausforderungen eine Entity Resolution [2] erfordert, da Nutzer sich oft mit unterschiedlichen E-Mail-Adressen und abweichenden Namen in den verschiedenen Systemen angemeldet haben.

Um die Frage nach dem „wie“ zu beantworten, sollen die gewonnenen Erkenntnisse aus dem ersten Teil der Arbeit genutzt werden und mit vorhandenen Ansätzen aus der Literatur verglichen werden. Beispielsweise werden unterschiedliche Modell der Unternehmensbeteilung unterschieden, wie das Coding Model, das Support Model und das Management Model [3]. Innerhalb … [...Weiterlesen/more...]

Neue Themen für Abschlussarbeiten bei NBI

Neue Themen für Abschlussarbeiten bei NBI:

[...Weiterlesen/more...]

Normennetzwerke: Werkzeug zur Generischen Analyse von Standards

Normen und Standards sind Voraussetzung für erfolgreiche vernetzte Systeme aller Art. Dies reicht von naheliegenden offenen Systemen wie dem Web bis zu Alltäglichkeiten wie einer europaweit einheitlichen Stromsteckdosenform. Die Standards und Normen selber sind zumeist sehr strukturierte Dokumente, da oft über ihre Form eine Norm oder ein Standard existiert.

Elektronische Dokumentensammlungen wie die W3C Standards, die Standards der ECMA oder die wenigen frei zugänglichen ISO Standards stellen Normen und Standards kostenlos bereit. Interessant ist jeweils die Analyse der Verweisstruktur beispielsweise auf den Ebenen der Referenzierung oder der Erweiterung oder Neuformulierung von Standards und Normen. Die Bachelorarbeit Normennetzwerke: RFCs
an der FU Berlin hat dies exemplarisch für die RFC-Standards gezeigt.

In der ausgeschriebenen Arbeit soll dieser Vorgehensweise verallgemeinert und ein Analysewerkzeug für Normennetzwerke erstellt werden. Algorithmen und Werkzeuge sollen konfigurierbar sein in Bezug auf:

  • Startpunkt der Analyse im Web und deren Struktur zum Auffinden einzelner Standards
  • Dokumentenstruktur und Extraktionskonfiguration
  • Charakteristische Referenzierungsweise anderer Normen
  • Charakteristische  Markierung von Überarbeitungen
  • Ermittlung von Netzwerkmetriken

Art der Arbeit: Diplom- oder Masterarbeit

Voraussetzungen: Kenntnisse in Textextraktion,  Crawling, Netzwerkanalyse, Statistik

Betreuer: Prof. Robert Tolksdorf

Weitere Informationen: Sprechstundentermin bei Prof. Robert Tolksdorf nehmen… [...Weiterlesen/more...]

Kunstnetzwerke: Künstler und öffentliche Nennungen

Im Kunstmarkt existiert eine fachspezifische Öffentlichkeit die einerseits inhaltliche Diskussionen führt, andererseits auch den Marktwert von Kunst durch die Häufigkeit und Qualität der Nennung von Künstlern beeinflusst. Zum Portfolio eines Künstlers gehört zunehmend auch eine Sammlung öffentlicher Nennungen, das Archiv des Fotographiekünstlers Michael Najjar ist ein Beispiel für die Vielfalt solcher Nennungen.

In der Arbeit soll ein System erstellt werden, das regelmäßig Medien die sich mit Kunst beschäftigen (Zeitschriften, Web-Sites – Liste1 oder Liste2 aber auch Kunstsendungen im TV) durchsucht und Nennungen ermittelt. Dazu ist jeweils eine Art Inhaltsverzeichnis zu klassifizieren und darin Namen zu ermitteln. Diese Namen sollen dann als Netzwerk in Verbindung mit dem sie nennenden Medium gesetzt werden. Auf diesem Netzwerk ist eine Analyse über übliche Netzwerkmetriken durchzuführen die auch temporale Aspekte berücksichtigt („Künstler X wird in letzter Zeit auffällig häufig genannt“). Sämtliche Software ist unter die BSD oder Apache Lizenz zu stellen.

Art der Arbeit: Diplom- oder Masterarbeit

Voraussetzungen: Kenntnisse in grundlegenden Web-Technologien und Netzwerken

Betreuer: Prof. Robert Tolksdorf

Weitere Informationen: Sprechstundentermin bei Prof. Robert Tolksdorf nehmen… [...Weiterlesen/more...]

AG Netzbasierte Informationssysteme, http://www.ag-nbi.de
Königin-Luise-Straße 24-26, 14195 Berlin, Tel.: +49-30-838-75221, Fax: +49-30-838-75220