Please use this identifier to cite or link to this item: http://repository.vnu.edu.vn/handle/VNU_123/145
Title: MODULE D'EXTRACTION FOCALISE ET ANALYSE AUTOMATIQUE LINGUISTIQUE DU WEB
Authors: GAUME, Bruno
NGUYEN, Hong San
Issue Date: 2007
Abstract: Ce stage se déroule dans un cadre d'une collaboration entre l'Institut de Recherche en Informatique de Toulouse (IRIT) et l' Équipe de Recherche en Syntaxe et Sémantique (ERSS). Notre objectif est de développer un outil informatique pour la construction automatique des corpus à partir du web en utilisant les outils analyse linguistique existés. Il s'agit de la construction d'un crawl focalisé du web et de l'intégration des outils d'analyse linguistique pour analyser les pages Web. Dans un premier temps, nous présentons un modèle de crawl focalisé qui parcourait le Web pour télécharger les pages concernées à un sujet spécifique. Le crawl doit faire sortie deux résultats importants: les contenus textuelle des pages Web et le graphe des hyperliens des pages Web. Dans un deuxième temps, nous faisons une études sur les outils d'analyse linguistique TreeTagger, Syntex et Upery et les intégrons dans le système pour l'analyse des pages Web. Nous effectuons aussi le prétraitement des textes récupérés par le crawl avant de les passer à des outils linguistique. Le résultat final est des corpus analysés qui parlent d'un sujet spécifique.
URI: http://repository.vnu.edu.vn/handle/VNU_123/145
Appears in Collections:IFI - Master Theses

Files in This Item:
Thumbnail

  • File : stage-nguyen_hong_san.pdf
  • Description : 
  • Size : 1.03 MB
  • Format : Adobe PDF


  • Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.