Sophie: acabit-fr-1:4.3-6mdv2010.0 noarch

acabit-fr-4.3-6mdv2010.0.noarch.rpm

VERSION ACABIT pour le Français du 3/11/2004
---------------------------------------------

Beatrice Daille
daille@lina.univ-nantes.fr

Utilisation
-----------
Version perl au minimum 5.8 
Suite d'instructions Ã  lancer :

	cd nom_du_repertoire_acabit
	perl -C fr_stat.pl nom_du_fichier_entree
	perl -C fr_tri.pl [nom_du_fichier_sortie]

Note: 
1) Fichier de sortie par dÃ©fault : out.xml
2) Ne pas detruire les fichiers txt generes lors des etapes intermediaires
3) Ne pas lancer deux processus simultanÃ©s


LE FICHIER D'ENTREE DOIT ETRE CODE EN UTF-8
pour convertir un fichier codÃ© latin1 en utf8, utiliser la commande
	iconv -f latin1 -t utf8 fichier_latin1 > fichier_utf8

LES FICHIERS PERL SONT AUSSI CODES EN UTF8

Format d'entrÃ©e
---------------

Corpus segmente, Ã©tiquetÃ© et lemmatise.
Programme d'etiquetage : Ã©tiqueteur de Brill pour le franÃ§ais
Programme de lemmatisation : lemmatiseur FLEMM

Le fichier d'entrÃ©e doit Ãªtre balisÃ© comme suit:

<record>
<AN> ...</AN>
<TI> ... </TI>
<AB> 
<ph_nb=xxx> ... <ph>
....
<ph_nb=xxx> ... <ph>
</AB>
</record>
<record>
...
</record>

*Balise <record> : marquage des diffÃ©rents textes
*Balise <AN>     : information concernant le texte
*Balise <TI>     : titre
*Balise <AB>     : corps du texte
*Balise <ph_nb=xxx> : phrase numero xxx  

Exemple de fichier entree  : exemple_fr.txt


format special de la balise <AN> : <AN> nn/CAR/nn -/- mmmmmmm/XXX/mmmmmmm </AN>
	  avec nn = annÃ©e et mmmmmmm=identificateur du fichier 
	
Fichiers de sorties 
-------------------

out.xml

REA/temp.txt
REA/temp2.txt
REA/temp3.txt
REA/temp3_bis.txt 

REA/ensemble.txt   
REA/relationnel.txt  
REA/tiret.txt
REA/inversion.txt  
REA/prefixe.txt      

REA/res.txt
REA/newindex.txt 
REA/tri.txt

out.xml
-------

Fichier de sortie au format XML.

Contient la liste des candidats termes aprÃ¨s regroupement
morphologique classÃ© selon le loglike.


REA/relationnel.txt  
-------------------

Regroupement des termes aprÃ¨s detection des adjectifs relationnels.


REA/inversion.txt  
-----------------

Regroupement des termes aprÃ¨s detection des inversions.

REA/prefixe.txt      
---------------

Regroupement des termes aprÃ¨s detection des prefixes.

REA/ensemble.txt   
----------------

Regroupement des termes aprÃ¨s detection des suffixes.

REA/tiret.txt
-------------

Regroupement des termes aprÃ¨s detection des tirets.

REA/newindex.txt
----------------

Nouvel index des termes aprÃ¨s le regroupement des
variantes de termes.

REA/temp.txt
------------

Liste de termes avec leurs statistiques

Chaque ligne correspond Ã  un couple (premier lemme/ dernier lemme). 
Les informations pour chaque couple sont, dans l'ordre :
- son identifiant unique
- le nombre de termes commencant par ce premier lemme
- le nombre de termes finissant par ce dernier lemme
- le premier lemme
- le dernier lemme
- le type de structure
- la suite de lemmes de chaque terme simplifie trouve 
  comportant ce premier et ce dernier lemme 


REA/temp2.txt
-------------

C'est le fichier ou  apparait chaque terme trouve  (autant de fois que
d'occurences dans le texte) avec les informations suivantes et
leur emplacement dans le texte

Chaque ligne correspond Ã   un terme trouve, a ses caracteristiques et
a ses references : 
- le premier lemme
- le dernier lemme
- l'identifiant unique du couple (premier lemme/ dernier lemme)
- la suite de flexions de chaque terme
- la suite d'etiquettes de chaque terme
- la suite de lemmes de chaque terme
- la structure du terme (NA, NPN, ...)
- le type du terme (BASE, MODIF, COORD, ...)
- l'annee
- le numero de texte
- le numero de phrase
- un booleen pour dire si le terme a ete trouve dans un titre (1) ou
dans le corps du texte (0)

REA/temp3.txt et REA/temp3_bis.txt
----------------------------------

Fichiers avec la liste des adjectifs relationnels

Chaque ligne correspond Ã  un adjectif detecte :
- le lemme de l'adjectif
- le numero de l'iteration Ã  laquelle il a ete trouve. 
  (1 = directement) c'est-a-dire lors de cette phase

temp3.txt contient l'ensemble des adjectifs 
avant la detection des adj dans les coordinations.

temp3_bis.txt contient l'ensemble des adjectifs 
aprÃ¨s la detection des adj dans les coordinations.



REA/res.txt
-----------

Fichier resultat des couples de termes listes dans temp.txt trouvÃ©
tries selon le loglike. 
Il tient compte des regroupements morphologiques.


REA/tri.txt
-----------

Fichier resultat des occurrences de termes listees dans temp2.txt
regroupÃ©es (sans prise en compte des regroupements morphologiques) 

Le fichier est compose d'une alternance de lignes de 2 formes differentes :
-  "Mot Mot :" pour presenter les mots des termes
- "* Infos sur le terme" qui fournit des renseignements sur les
occurrences de ce terme 


Chaque ligne correspondant aux renseignements sur les occurrences du
terme Ã  la forme suivante :
- l'identifiant unique du couple (premier lemme/ dernier lemme)
- le premier lemme
- le dernier lemme
- la suite de flexions de chaque terme
- la suite d'etiquettes de chaque terme
- la suite de lemmes de chaque terme
- la structure du terme (NA, NPN, ...)
- le type du terme (BASE, MODIF, COORD, ...)
- une suite non nulle de references entre parentheses :
  * l'annee
  * le numero de texte
  * le numero de phrase
  * un booleen pour dire si le terme a ete trouve dans un titre (1) ou
   dans un resume (0)