Liens connexes

Dépêche modérée par

Dépêche éditée par

: Faites parler vos fichiers avec hachoir-metadata

Posté par Victor STINNER (page perso, ). Modéré le 19 décembre 2006.
0
Tous les jours, nous manipulons des dizaines de fichiers binaires sans vraiment se soucier de leur format ou de connaître toutes les informations qu'ils contiennent. Pourtant, ils sont souvent accompagnés de métadonnées qui renseignent sur leur origine et leur contenu : auteur, nom du logiciel, date de création, durée, taille, codec, genre, etc. Ces informations permettent une classification fine et des recherches multicritères très fines.

Hachoir-metadata, programme basé sur la bibliothèque Hachoir, permet de lire ces informations et les présente de manière synthétique. Tous les formats courants sont reconnus : image (JPEG, PNG, GIF, ICO...), vidéo (AVI, WMV, FLV, MKV...), audio (MP3, wav, Ogg, WMA...), archive (zip, gzip, bzip2, tar...).

Les informations sont triées par pertinence (ex les dimensions d'une image sont plus importantes que la méthode de compression). Pour les formats contenant plusieurs « documents », chaque document possède sa propre section (ex : les flux audio, vidéo et les informations générales sont séparés). Contrairement à certains outils où la présentation est calquée sur le format de fichier, hachoir-metadata classe des informations de manière générique (ex : le champ 'duration' est partagée pour une vidéo ou un son).

Hachoir-metadata n'est sûrement pas une révolution, il existe déjà une multitude de bibliothèques pour extraire les métadonnées. Mais, pour les formats supportés, il donne d'aussi bons résultats que ses concurrents voire parfois meilleurs. Au passage, essayez également le programme hachoir-urwid pour explorer vos fichiers en profondeur et découvrir d'autres informations passées sous silence.

> Lire la suite (32 commentaires, moyenne: 2,8).   [dépêche : 1796 caractères]

Formats supportés

Installation

Pour l'installation, le plus simple est d'utiliser la commande sudo easy_install hachoir-metadata (idem pour hachoir-urwid) qui télécharge tout ce qui faut.

Si vous n'avez pas cette commande (easy_install) : installez le paquet python-setuptools avec votre outil de gestion de paquets. En dernier recours, utilisez la commande sudo python ez_setup.py hachoir-metadata avec le fichier http://peak.telecommunity.com/dist/ez_setup.py.

Bien sûr, de vrais paquets Debian, Gentoo, etc. seraient appréciés.

Rapport de bogue

Si vous trouvez un bogue, envoyez-moi le message d'erreur complet et le fichier posant problème par courriel (victor.stinner chez haypocalc.com). Si le fichier pèse plus d'1 Mo, n'envoyez que le début (dd if=fichier of=fichier1Mo bs=1024 count=1024).

Idées

Il serait intéressant d'écrire des greffons pour les logiciels Konqueror, Nautilus, etc. permettant de lire les métadonnées par un simple survol sur un fichier.

hachoir-strip

La bibliothèque Hachoir supportant l'édition depuis peu, un programme à l'opposé d'hachoir-metadata a été développé : hachoir-strip. Il supprime les métadonnées pour ne conserver que les données les plus importantes. Il ne travaille pas directement sur le fichier spécifié en entrée, il sauvegarde le résultat dans un nouveau fichier.

Cette discussion est archivée, il n'est plus possible de laisser des commentaires.

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.

Bug sur Debian SID

Posté par José JORGE (Jabber id, page perso, ) le 19/12/2006 à 08:51. (lien). Évalué à 4.

Traceback (most recent call last):
File "/usr/bin/hachoir-metadata", line 11, in ?
import hachoir
ImportError: No module named hachoir

... et puis un jour, les systèmes GNU/linux seront simples à utiliser ;-)

Ca avance

Posté par Hervé Leroux (page perso, ) le 19/12/2006 à 09:08. (lien). Évalué à 7.

Bjr,

Ca fait plaisir de voir cette petite appli qui avance. Courage, et félicitations à l'équipe !

Documents bureautique

Posté par Alex. (page perso, ) le 19/12/2006 à 09:47. (lien). Évalué à 2.

Est ce qu'on peut imaginer hachoir-metadata récupérer les méta-données d'un document OpenOffice, PDF, MS Word ... ?

Alex.

.

Posté par Ernest H (Jabber id, ) le 19/12/2006 à 13:43. (lien). Évalué à 2.

Je devrais peut-être créer un ticket sur le trac de hachoir ou sur celui de python-setuptools à moins que ce ne soit un bug de python. Voilà mon problème :
je trouve le mécanisme d'installation de easy_install vraiment désagréable : je n'ai aucune envie de le laisser écrire n'importe où surtout en tant que root. Donc je me fais une installation dans un répertoire personnel. Il se trouve que j'avais déjà py-setuptools installé (une dépendance d'un autre truc), mais aussi py-urwid.
easy_install hachoir-urwid marche presque bien, mais je ne comprends pas pourquoi il installe une autre version de urwid. Bon, je laisse faire, hachoir-urwid marche.
Comme je suis con, j'enlève le fichier urwid-machin.egg qu'il m'a mis (a-t-il installé autre chose ?). Et évidemment, ça ne marche plus. hachoir ne veut pas trouver la version d'urwid que j'ai, même en faisant un PYTHONPATH qui me semblait bon.

Donc. Est-il possible d'installer hachoir ailleurs que dans /usr/lib/.../site-packages/ sans installer les dépendances en doublon ?

une solution pour des archives corrompues ?

Posté par Tony Flow () le 19/12/2006 à 17:21. (lien). Évalué à 1.

Récemment j'ai recherché un outils me permettant de récupérer les données d'un fichier zip corrompu. Je n'espère pas retrouver la totalité de l'archive, mais je me dis que sur un zip qui fait plus d'1Go, ya au moins moyen de récupérer quelques fichiers...

Et à mon grand désarroi, je n'ai rien trouvé ! J'ai en lointain souvenir une commande du genre pkzipfix par exemple... En fait tout ce que google m'a apporté était des solutions proprio commerciales, parfois en shareware, sous windows. D'où ma frustration !

Je n'avais pas pensé au Hachoir (que je n'ai pas encore eu l'occasion d'essayer), mais un rapprochement vient de ce faire dans ma petite tête : Est-ce une utilisation possible de ce couteau suisse ?

Merci de m'éclairer sur ce point qui me semble interessant, surtout si aucun autre outils n'existe sous linux pour faire cela. Sinon si vous en connaissez, profitez-en pour les signaler ;)

Paquets Debian

Posté par Victor STINNER (page perso, ) le 20/12/2006 à 10:09. (lien). Évalué à 2.

On peut trouver tout le bazar en vrac dans:
http://plumbear.free.fr/hachoir/

et le repository bien rangé dans l'arborescence sous:
http://plumbear.free.fr/debian/

Merci à Michel Casabona (aka plumbear).

Revenir en haut de page