scratch/content/html/fr/blog/2010-02-18-split-a-file-by-keyword.md

----- 
isHidden:       false
menupriority:   1
kind:           article
created_at:           2010-02-18T15:29:14+02:00
title: découper un fichier par mots clés
author_name: Yann Esposito
author_uri: yannesposito.com
tags:
    - awk
    - shell
    - script

-----

Assez bizarrement, je n'ai trouvé aucun outil UNIX pour découper un fichier par mot clé. 
Alors j'en ai fait un en `awk`. Je le met ici principalement pour moi, mais ça peut toujours servir à quelqu'un d'autre.
Le code suivant découpe un fichier pour chacune de ses ligne contenant le mot `UTC`.

<div><code class="perl">
#!/usr/bin/env awk
BEGIN{i=0;}
/UTC/ { 
    i+=1;
    FIC=sprintf("fic.%03d",i); 
} 
{print $0>>FIC}
</code></div>

En réalité, j'avais besoin de cet outils pour avoir un fichier par jour. Chaque ligne contenant UTC ayant le format suivant :

<pre class="twilight">
Mon Dec  7 10:32:30 UTC 2009
</pre>

J'en suis finallement arrivé au code suivant :

<div><code class="perl">
#!/usr/bin/env awk
BEGIN{i=0;}
/UTC/ {
    date=$1$2$3; 
    if ( date != olddate ) {
        olddate=date;
        i+=1;
        FIC=sprintf("fic.%03d",i); 
    }
} 
{print $0>>FIC}
</code></div>
nettoyage fr 2010-04-29 14:59:14 +00:00			`-----`
Récupération de la dernière version du contenu. 2010-03-12 13:30:42 +00:00			`isHidden: false`
			`menupriority: 1`
			`kind: article`
Etapes avec lnkto + feeds non fonctionnels 2010-03-30 14:39:12 +00:00			`created_at: 2010-02-18T15:29:14+02:00`
Traductions + corrections 2010-04-26 14:48:52 +00:00			`title: découper un fichier par mots clés`
Added author_name et uri for feed 2010-05-09 12:53:46 +00:00			`author_name: Yann Esposito`
			`author_uri: yannesposito.com`
Récupération de la dernière version du contenu. 2010-03-12 13:30:42 +00:00			`tags:`
			`- awk`
			`- shell`
			`- script`

			`-----`

Traductions + corrections 2010-04-26 14:48:52 +00:00			`Assez bizarrement, je n'ai trouvé aucun outil UNIX pour découper un fichier par mot clé.`
			Alors j'en ai fait un en `awk`. Je le met ici principalement pour moi, mais ça peut toujours servir à quelqu'un d'autre.
			Le code suivant découpe un fichier pour chacune de ses ligne contenant le mot `UTC`.
Récupération de la dernière version du contenu. 2010-03-12 13:30:42 +00:00
new version working (almost) 2010-04-15 09:45:50 +00:00			`<div><code class="perl">`
Récupération de la dernière version du contenu. 2010-03-12 13:30:42 +00:00			`#!/usr/bin/env awk`
			`BEGIN{i=0;}`
			`/UTC/ {`
			`i+=1;`
			`FIC=sprintf("fic.%03d",i);`
			`}`
			`{print $0>>FIC}`
new version working (almost) 2010-04-15 09:45:50 +00:00			`</code></div>`
Récupération de la dernière version du contenu. 2010-03-12 13:30:42 +00:00
Traductions + corrections 2010-04-26 14:48:52 +00:00			`En réalité, j'avais besoin de cet outils pour avoir un fichier par jour. Chaque ligne contenant UTC ayant le format suivant :`
Récupération de la dernière version du contenu. 2010-03-12 13:30:42 +00:00
			`<pre class="twilight">`
			`Mon Dec 7 10:32:30 UTC 2009`
			`</pre>`

Traductions + corrections 2010-04-26 14:48:52 +00:00			`J'en suis finallement arrivé au code suivant :`
Récupération de la dernière version du contenu. 2010-03-12 13:30:42 +00:00
new version working (almost) 2010-04-15 09:45:50 +00:00			`<div><code class="perl">`
Récupération de la dernière version du contenu. 2010-03-12 13:30:42 +00:00			`#!/usr/bin/env awk`
			`BEGIN{i=0;}`
			`/UTC/ {`
			`date=$1$2$3;`
			`if ( date != olddate ) {`
			`olddate=date;`
			`i+=1;`
			`FIC=sprintf("fic.%03d",i);`
			`}`
			`}`
			`{print $0>>FIC}`
new version working (almost) 2010-04-15 09:45:50 +00:00			`</code></div>`