Sophie

Sophie

distrib > Mandriva > 2010.1 > x86_64 > media > contrib-release > by-pkgid > 92eb73d944cd78155470e3889ce822c1 > files > 8

acabit-fr-4.3-6mdv2010.0.noarch.rpm

VERSION ACABIT pour le Français du 3/11/2004
---------------------------------------------

Beatrice Daille
daille@lina.univ-nantes.fr

Utilisation
-----------
Version perl au minimum 5.8 
Suite d'instructions à lancer :

	cd nom_du_repertoire_acabit
	perl -C fr_stat.pl nom_du_fichier_entree
	perl -C fr_tri.pl [nom_du_fichier_sortie]

Note: 
1) Fichier de sortie par défault : out.xml
2) Ne pas detruire les fichiers txt generes lors des etapes intermediaires
3) Ne pas lancer deux processus simultanés


LE FICHIER D'ENTREE DOIT ETRE CODE EN UTF-8
pour convertir un fichier codé latin1 en utf8, utiliser la commande
	iconv -f latin1 -t utf8 fichier_latin1 > fichier_utf8

LES FICHIERS PERL SONT AUSSI CODES EN UTF8

Format d'entrée
---------------

Corpus segmente, étiqueté et lemmatise.
Programme d'etiquetage : étiqueteur de Brill pour le français
Programme de lemmatisation : lemmatiseur FLEMM

Le fichier d'entrée doit être balisé comme suit:

<record>
<AN> ...</AN>
<TI> ... </TI>
<AB> 
<ph_nb=xxx> ... <ph>
....
<ph_nb=xxx> ... <ph>
</AB>
</record>
<record>
...
</record>

*Balise <record> : marquage des différents textes
*Balise <AN>     : information concernant le texte
*Balise <TI>     : titre
*Balise <AB>     : corps du texte
*Balise <ph_nb=xxx> : phrase numero xxx  

Exemple de fichier entree  : exemple_fr.txt


format special de la balise <AN> : <AN> nn/CAR/nn -/- mmmmmmm/XXX/mmmmmmm </AN>
	  avec nn = année et mmmmmmm=identificateur du fichier 
	
Fichiers de sorties 
-------------------

out.xml

REA/temp.txt
REA/temp2.txt
REA/temp3.txt
REA/temp3_bis.txt 

REA/ensemble.txt   
REA/relationnel.txt  
REA/tiret.txt
REA/inversion.txt  
REA/prefixe.txt      

REA/res.txt
REA/newindex.txt 
REA/tri.txt

out.xml
-------

Fichier de sortie au format XML.

Contient la liste des candidats termes après regroupement
morphologique classé selon le loglike.


REA/relationnel.txt  
-------------------

Regroupement des termes après detection des adjectifs relationnels.


REA/inversion.txt  
-----------------

Regroupement des termes après detection des inversions.

REA/prefixe.txt      
---------------

Regroupement des termes après detection des prefixes.

REA/ensemble.txt   
----------------

Regroupement des termes après detection des suffixes.

REA/tiret.txt
-------------

Regroupement des termes après detection des tirets.

REA/newindex.txt
----------------

Nouvel index des termes après le regroupement des
variantes de termes.

REA/temp.txt
------------

Liste de termes avec leurs statistiques

Chaque ligne correspond à un couple (premier lemme/ dernier lemme). 
Les informations pour chaque couple sont, dans l'ordre :
- son identifiant unique
- le nombre de termes commencant par ce premier lemme
- le nombre de termes finissant par ce dernier lemme
- le premier lemme
- le dernier lemme
- le type de structure
- la suite de lemmes de chaque terme simplifie trouve 
  comportant ce premier et ce dernier lemme 


REA/temp2.txt
-------------

C'est le fichier ou  apparait chaque terme trouve  (autant de fois que
d'occurences dans le texte) avec les informations suivantes et
leur emplacement dans le texte

Chaque ligne correspond à  un terme trouve, a ses caracteristiques et
a ses references : 
- le premier lemme
- le dernier lemme
- l'identifiant unique du couple (premier lemme/ dernier lemme)
- la suite de flexions de chaque terme
- la suite d'etiquettes de chaque terme
- la suite de lemmes de chaque terme
- la structure du terme (NA, NPN, ...)
- le type du terme (BASE, MODIF, COORD, ...)
- l'annee
- le numero de texte
- le numero de phrase
- un booleen pour dire si le terme a ete trouve dans un titre (1) ou
dans le corps du texte (0)

REA/temp3.txt et REA/temp3_bis.txt
----------------------------------

Fichiers avec la liste des adjectifs relationnels

Chaque ligne correspond à un adjectif detecte :
- le lemme de l'adjectif
- le numero de l'iteration à laquelle il a ete trouve. 
  (1 = directement) c'est-a-dire lors de cette phase

temp3.txt contient l'ensemble des adjectifs 
avant la detection des adj dans les coordinations.

temp3_bis.txt contient l'ensemble des adjectifs 
après la detection des adj dans les coordinations.



REA/res.txt
-----------

Fichier resultat des couples de termes listes dans temp.txt trouvé
tries selon le loglike. 
Il tient compte des regroupements morphologiques.


REA/tri.txt
-----------

Fichier resultat des occurrences de termes listees dans temp2.txt
regroupées (sans prise en compte des regroupements morphologiques) 

Le fichier est compose d'une alternance de lignes de 2 formes differentes :
-  "Mot Mot :" pour presenter les mots des termes
- "* Infos sur le terme" qui fournit des renseignements sur les
occurrences de ce terme 


Chaque ligne correspondant aux renseignements sur les occurrences du
terme à la forme suivante :
- l'identifiant unique du couple (premier lemme/ dernier lemme)
- le premier lemme
- le dernier lemme
- la suite de flexions de chaque terme
- la suite d'etiquettes de chaque terme
- la suite de lemmes de chaque terme
- la structure du terme (NA, NPN, ...)
- le type du terme (BASE, MODIF, COORD, ...)
- une suite non nulle de references entre parentheses :
  * l'annee
  * le numero de texte
  * le numero de phrase
  * un booleen pour dire si le terme a ete trouve dans un titre (1) ou
   dans un resume (0)