L’outil d’audio-fingerprinting de Last.fm est sorti

Là vous criez , vous pleurez devant ce titre barbare.

Maintenant, vous vous calmez et vous allez vous coucher moins bête en apprenant ce qu’est l’audio-fingerprinting. (le billet est bien long, armez vous de lunettes à triple foyer et de temps)

Aussi appelé acoustic-fingerprinting, cette technologie consiste à créer un code unique à partir d’un son. Un algorithme dédié permet d’identifier un morceau et ensuite par comparaison, on peut détecter une quantité de choses énorme : associer les infos concernant le morceau, surveiller si un son est diffusé à tel ou tel endroit (en surveillant les supports), etc. Les possibilités sont grandes.

Ce qui va nous intéresser ici, c’est l’utilisation qui peut être faite des audio-fingerprint dans le cadre d’un service comme Last.Fm ou comme Musicbrainz (j’utilise les deux services). Last.fm, pour bien fonctionner nécessite que les données ID3 Tag concernant les morceaux écoutés par ses membres soient correctes. Cela implique que soit : – la personne se charge d’avoir des données correctes et exactes / – soit que les morceaux aient été récupérés bien tagués.

Un morceau mal tagué (il peut être bien nommé, par exemple Muse – Time is Running Out.mp3 mais avoir de mauvaises « méta données » qui indiqueront peut être ‘artist : Queen’) peut soit empêcher Last.fm de rattacher ce que vous écoutez à sa base de données, soit induire le système à croire que vous écoutez Queen ou, si le morceau est très mal tagué « Artist one », ou encore « Artist unknown ».

Un petit truc qui m’énerve toujours : les morceaux mal nommés:
Fichiers audio mal nommés

MusicBrainz est un service très pratique qui dispose de clients PC / Mac permettant d’assister l’utilisateur dans le renommage / retaggage de ses fichiers. Je l’utilise car il me permet d’avoir des fichiers vraiment « clean » au niveau nommage sachant que tous mes morceaux sont nommés ainsi : Artiste – Morceau.mp3. MusicBrainz Picard qui est le logiciel client pour Windows est vraiment pratique pour ça : on glisse et on dépose les fichiers dans l’interface et ensuite on peut faire correspondre un album avec les morceaux que l’on a ajouté pour corriger toutes les données nécessaires grâce à la base de données immense de MusicBrainz.

Ici je viens de déposer un fichier mal nommé et je trouve les données associés grâce au net :file-before-analysis.png
On a associé les données et on enregistre :
file-fetch.jpg
Et là, mon fichier est bien tagué, bien renommé :
file-correct.jpg

Voilà pour cette assez grosse description de MusicBrainz, je reviens sur Last.fm :

En créant un outil de fingerprinting des morceaux de ses utilisateurs (plus d’infos sur le blog Last.fm), Last.fm va pouvoir améliorer sa précision car le système va collecter une quantité énorme de données sur les morceaux et notamment les titres mal tapés, les erreurs d’orthographe etc.

Cette précision rend donc le système bien plus efficace et j’espère très hautement qu’à terme, Last.fm rende son application de faire ce que fait Musicbrainz Picard : renommer et retaguer les fichiers mal tagués. D’ailleurs , si Gregory de Last.fm passe par ici et qu’il peut nous éclairer 🙂

13 commentaires

  1. Une bonne explication consisterait simplement à traduire : audio-fingerprinting = indexation d’empreintes audio uniques et reconnaissables.

    Problème : le manque de standard autour de ce concept qui impose de recalculer les empreintes pour chaque comparaison. Vivement que ça change.

  2. Hum, y’a t il un rapport entre le finger-printing et la water-marking?
    Car perso je reçois des morceaux de maison de disque (pour une activité de radio) qui sont watermarké et au vu de ton explication j’ai l’impression que c’est la même chose…

  3. Alex : non , l’audio-fingerprinting c’est prélever l’empreinte numérique d’un morceau tandis que le water-marking c’est insérer une sorte de trace dans le morceau 🙂

  4. Ah on m’appelle ! 😉

    Nous prévoyons en effet également, à terme, de nous servir de ces données afin d’aider nos utilisateurs à taguer correctement leurs fichiers musicaux.

    Par ailleurs, comme le spécifiait RJ sur notre blog (http://blog.last.fm), nous comptons développer une API permettant d’accéder à ces meta-données « propres » à partir de fingerprints.

    NB: nous ne comptons par pour autant cesser notre collaboration avec l’excellent MusicBrainz pour l’utilisation duquel nous avons une license.

    Autre post intéressant (en anglais):
    http://blogs.sun.com/plamere/entry/massaging_messy_music_metadata

  5. C’est bien expliqué 😉

    Je suis également le genre de personne assez maniaque pour bien nommer et insérer les « données ID3 » de mes mp3 correctement.
    Pour ça j’utilise iTunes (qui renomme aussi le fichier), mais d’autres players le font aussi bien.

    J’ai une petite question concernant le sujet.
    Lorsque j’importe de la musique dans mon lecteur favori et qu’il va chercher les informations des morceaux, il s’agit d’audio-fingerprinting ?

  6. Gregory : merci beaucoup d’être venu. Je sais que tu as une bonne petite veille 🙂

    Je compte beaucoup sur le programme « à la MusicBrainz » mais fait par Last.fm car celui-ci est très pratique et je voudrais une version Mac 🙂

    Pour le partenariat avec MusicBrainz c’est en effet bien de le conserver quand on voit la base de données qu’ils ont. En tout cas j’attends le soft last.fm . Si tu as une ETA là dessus , je prends

    Rémi : idem je suis maniaque. J’angoisse un peu de passer mes mp3 sur iTunes quand j’aurais mon iMac mais bon on verra 🙂

  7. « il peut être bien nommé, par exemple Muse – Time is Running Out.mp3 » >>> le hasard fait bien les choses! :mrgreen:

    sinon une question me taraude , est ce avec ce procédé (l’audio-fingerprinting ) que Free (ou tout autres F.A.I) scanne les serveurs pour y découvrir des mp3, et videos coprightés ?

  8. Rémi j’avais oublié de répondre : je pense que quand iTunes va chercher des infos sur tes morceaux, c’est juste en utilisant les ID3 tags et le nom de fichier

    Muse321 : pas à ce que je sache , de méoire ils se basent sur les noms de fichiers 🙂

  9. Gonzague : En fait je voulais parler de l’importation d’un CD. Je pense que ça passe par CDDB comme pour Winamp et peut-être WMP.

    Est-ce qu’il s’agissait déjà d’audio-fingerprinting?

  10. Sympa pour améliorer Last.fm c’est sûr ! Mais quand je tombe sur un fichier mal tagué, je le complète et ça prend 2 secondes : car c’est aussi bien d’avoir le bon titre quand on le balance sur son baladeur qui n’a pas d’audio-fingermachin 😀

  11. Salut! je me permet de poster un commentaire longtemps après la parution de ton billet, mais en tant qu’ « addict » de Last Fm je me pose quelques questions…

    Comment est-ce que tu taggues(?) tes fichiers en cas de Featuring? Est-ce qu’il y a des standards ou au moins des règles tacites?

    Pour ma part, je retaggue systématiquement sous la forme Artiste1 – Chanson Feat. Artiste2

    Sur Last FM en particulier on voit fleurir les Artistes1 – Chanson featuring artiste2 voire même Artiste1 feat artiste2 – chanson

    Et puis comment faire quand plusieurs artistes sont invités…

    un vrai casse tête entre les Starring, featuring et autres with…

    Bref, tout ça pour dire que souvent les utilisateurs me frustrent dans leur manque de rigueur de scrobblage…

    No-life oui, mais No-life avec des principes!

    A bientôt.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *