La poésie sur internet
Votre session va bientôt expirer. Souhaitez-vous rester connecté ?
Temps restant :
Il faut être inscrit et connecté pour répondre à un topic.
Par : Tontonjacques
Après quelques mois d’expérience, j’ai décidé de regrouper mes impressions sur la génération d’une version musicale interprétée d’un texte. Je ne suis nullement spécialiste, et il ne s’agit ici que des impressions d’un pékin moyen. Si d’autres ont des éléments d’expérience différents ou complémentaires, ça m’intéresserait bien sûr.
Il existe une version gratuite de suno en ligne, pour vous faire une première idée (suno.com) ; cependant, d’une part elle ne vous autorise que 50 crédits par jour, d’autre part elle est basée sur la version 3.5 (le son est mauvais, et les résultats médiocres). Pourquoi suno ? Ben, après un rapide tour d’horizon, c’est ce qui m’a semblé le plus correct et compréhensible, avec des temps de génération et des tarifs acceptables. J’aurais sans doute préféré un logiciel français, mais on m’a indiqué que les ingénieurs étaient actuellement occupés à mettre au point une nouvelle version du Minitel (je crois) ; par ailleurs, je ne prétends nullement effectuer ici un comparatif point par point, moi, c’est surtout le résultat, simple et rapide, qui m’intéresse.
Pour commencer à travailler sérieusement, il faut s’abonner : ça coûte actuellement 10,80 euros TTC par mois, ce qui me semble raisonnable (pour 2.500 crédits / mois ; il existe une formule plus « pro », et plus chère). Attention, si vous ne résiliez pas à temps, ils continueront à vous prélever 10 euros tous les mois sur votre compte bancaire, du simple fait que vous avez donné le numéro de votre carte bleue. La résiliation toutefois fonctionne plutôt bien et sans histoire (j’ai testé, avant de me réabonner ; il faut juste résilier au moins 5 jours avant la date d’échéance).
En général, une génération vous coûte 10 crédits, mais elle produit 2 versions ; certains bricolages plus complexes coûtent plus cher. Ça me semble quand même raisonnable, en principe (et pour le moment) – même si on gâche énormément.
Le logiciel évolue assez rapidement, il faut essayer de se tenir au courant : le symptôme le plus évident pour le client lambda est l’apparition d’une nouvelle version (à laquelle vous avez droit d’office si vous êtes abonné).
En tout cas, il n’y a pas lieu, à mon avis, de décréter par avance que « c’est de la m... », pas plus que « c’est génial » : il faut essayer.
Le cadre :
- Suno, comme d’autres logiciels d’IA, permet de créer des textes, mais je préfère oublier, tant le résultat me semble médiocre ; je ne l’utilise que pour générer des interprétations musicales, ayant écrit le texte moi-même.
- Il ne faut pas non plus espérer générer des mélodies ultra-originales ou géniales, puisque le principe, c’est d’utiliser ce qui existe déjà (d’où d’ailleurs virulentes rouspétances des compositeurs et interprètes humains, qui sont pillés sans vergogne).
- Il est inutile aussi de vouloir appliquer l’IA à n’importe quel texte : un poème didactique par exemple, ou trop « dense » (pas de strophes), ou comprenant beaucoup de termes abstraits, etc., ne fera jamais une bonne chanson (ce serait pareil avec un compositeur-interprète humain). Concernant les poèmes en vers libres, non ou peu rimés, et aux vers de longueurs variables, les résultats me semblent médiocres aussi ; mieux vaut (à mon avis) les faire « dire » alors par suno (balise [Spoken]), quitte à bénéficier de l’accompagnement minimal qu’il vous proposera.
- Ne pas espérer obtenir du premier coup une version super, ou alors purement par chance (comme au Loto)
- L’utilisation actuelle, par les jeunes surtout (en « slunge », « grunge soft throat », « dubstep » ou « surf rock », quoi que cela puisse signifier), me semble en général à pleurer, raison pour laquelle je ne « publie » jamais rien sur suno. Pas de confiture pour les cochons. (Il doit y avoir des trucs bien aussi, mais je n’ai pas la patience de creuser).
- Le logiciel génère des fichiers .mp3, qu’il est ensuite très facile de « downloader » et réutiliser sur son ordi. Attention, si le texte n’est pas de vous, le principe des droits d’auteur s’applique, si l’auteur est mort depuis moins de 70 ans (avec bien entendu cas particulier pour les anciens combattants...)
- il existe des outils intégrés, plus ou moins « pro », mais que j’utilise assez peu. S’il s’agit juste de faire un « fading out », mieux vaut utiliser Audacity, ça fait le même effet et c’est gratuit. On peut toutefois « éclater » une version en autant de pistes qu’utilisées par le logiciel (une par instrument et par voix), et réutiliser ensuite ces morceaux à sa guise (y compris dans Audacity) : mais trop compliqué et chronophage pour moi.
Générer une chanson (Remarques) :
- La première fois, on se dit : wow, pour un logiciel américain, il prononce drôlement bien le français. C’est normal, puisqu’il ne fait que repiquer dans un stock de chansons en français.
- Mais rapidement, on s’aperçoit que ce n’est pas si parfait que ça. Généralement, même si tout le reste est acceptable, il y a UN mot, UNE syllabe, qui est prononcé(e) tout de travers, et ça énerve (je me suis demandé s’ils ne le faisaient pas exprès, juste pour faire bouffer ses « crédits » au client ? Le problème, c’est que si vous faites un « remix », il prononcera peut-être mieux… mais l’accompagnement aura changé.
- Il a tendance à reprendre, en fin de chanson (sans qu’on lui demande rien), soit la totalité du texte, soit une ou plusieurs strophes, soit au moins le dernier vers (la durée de l’accompagnement était excessive aussi au début, mais j’ai l’impression qu’ils l’ont raccourcie).
- Parfois ça sonne bien tout de suite, parfois pas du tout, et il n’est pas évident (actuellement) de lui dire : laisse tomber, trouve-moi quelque chose d’autre ; il s’accroche à sa première idée.
- Le choix de la voix (masculine ou féminine) marche plutôt bien ; en revanche, si vous souhaitez plusieurs voix différentes dans une même chanson, c’est la cata, et vous avez beau étudier les tutos sur YouTube, censés vous expliquer comment faire, ça ne marche PAS, ou alors purement par hasard. J’ai par exemple généré une version (en français) du Roi des Aulnes, de Goethe, j’étais satisfait du texte (normal, c’est moi qui l’avais écrit) et de l’accompagnement (notamment le rythme de galop que j’avais essayé de lui faire adopter), bref, c’était super, MAIS : je voulais quatre voix différentes (le narrateur, le père, le fils, et – non, pas le Saint-Esprit – le Roi des Aulnes, et là, rien à faire. Déjà, trouver une voix d’enfant, ce n’est pas évident, il paraît que c’est parce qu’il existe peu de chansons interprétées par des enfants (ou alors, bien niaiseuses), mais je suis allé jusqu’à accepter une voix de femme à la place. Malgré des dizaines de tentatives toutefois, il s’obstine à me remplacer une voix mâle profonde par une douce voix féminine, et réciproquement, ce qui bien sûr fout tout en l’air.
- ce qui agace, c’est qu’on ne peut absolument pas savoir, parmi les notations que vous lui fournirez, lesquelles seront prises en compte et lesquelles ignorées. Par prudence, je les lui donne en anglais (ce qui m’a permis de me rappeler que ces pignoufs de rosbifs ont gardé deux « h » à « rhytmic », par exemple), mais j’ai beau lui dire que je veux de la contrebasse (« bass » en anglais », ou « double bass », ou simplement le mot français), il fait comme s’il n’avait rien entendu. Et pourtant il connaît la contrebasse, j’en ai bien entendu dans d’autres versions générées par lui. Certains mots semblent OK, par exemple « sad », triste, « accordion », « acoustic guitar » ou « valse-musette » (en français), mais impossible d’avoir une liste de ce qui est compris ou non. Je commence toujours par « french », pour mettre les choses au clair et éviter qu’il ne me prononce certains mots à l’américaine, et si je veux que ce soit clair et bien articulé, j’ajoute « male chanson », ça, ça marche pas mal. Mais au total, ça reste très aléatoire.
- il est inutile de partir avec en tête une idée bien précise de ce que vous voulez, car il vous sortira autre chose de toutes façons, même si ça peut s’en rapprocher. Au fond, j’apprécie plutôt, car cela permet d’entendre des versions auxquelles on n’aurait jamais pensé a priori, et de découvrir des mélodies et des voix qu’on ne connaissait pas (elles sont un peu arrangées, mais parfois aussi reconnaissables). C’est le charme de l’inattendu, de la surprise. J’ai par exemple apprécié une version en français d’un poème de Essenine, même si une russophone m’a rétorqué que ça ne valait rien et que de toutes façons, la voix devait être un baryton (ce qu’elle n’était pas). Je pense qu’elle était trop accrochée à son idée du poème, et s’attendait à l’entendre exactement comme elle l’imaginait. Niet.
- peut-être faut-il tenir compte du décalage horaire, et travailler de préférence aux heures où les Américains roupillent ? du moins en ai-je l’impression.
- enfin, sachez que la limite de longueur maximale d’un texte (5.000 caractères je crois ? je ne sais plus au juste) n’est pas respectée rigoureusement, si vous approchez de la limite la fin sera remplacée par de la bouillie ; mais en général c’est bien suffisant.
Améliorer la prononciation
- La première chose à faire, si la mélodie vous semble « potable », c’est de corriger les défauts de prononciation, en bricolant le texte et les indications :
- d’abord en précisant toujours « french » au départ (mais si votre texte comprend des mots étrangers, c’est fichu en général : j’ai vainement essayé de lui faire prononcer le prénom « Agneta » à la suédoise dans un texte français, de guerre lasse j’ai remplacé par « Anita », et là, ça a marché. Il faut ruser).
- puis, le problème des « e muets » (ou caducs). Vous souhaitez par exemple qu’il les prononce, mais il s’en fiche. Ce serait facile à implémenter à mon avis, en écrivant E majuscule, comme dans « boulEvard », mais sans doute ne veulent-ils pas se casser la tête, vu le nombre de langues gérées. Alors on peut essayer d’écrire « eu » (bouleuvard) : parfois ça marche, parfois pas (et parfois c’est pire). Parfois il tient compte des e muets dès le départ...
- c'est le même principe pour les diérèses et synérèses : si vous voulez qu'il prononce "inquiet" sur 3 syllabes, mieux vaut écrire "inquiyè" par exemple.
- ensuite, les liaisons (une des joyeusetés du français). Si vous ne lui dites rien, parfois il les fera, parfois non, quitte à obtenir des hiatus à la place. Personnellement, je les marque, j’écris par exemple « les vent z’et la pluie » ou « rôdait t’alentour » , ça marche pas mal, sauf quand il fait une pause juste avant la liaison, parce que là, ça sonne carrément mal. Là aussi, ce serait facile à implémenter, en écrivant par exemple « rôdait_alentour », mais suno est développé aux USA… Avis aux candidats au développement d’une IA française.
- les « h » initiaux (aspirés ou non) sont d’ailleurs une autre cause récurrente de souci. On peut forcer la liaison comme dit plus haut, en revanche, pour forcer le h aspiré, c’est moins commode.
- parfois, le défaut de prononciation est carrément incompréhensible. Ainsi, il a le plus grand mal à prononcer correctement le mot « muets » (j’ai entendu « mouettes », entre autres). Déjà, j’écris alors « ü » au lieu de « u », mais dans ce cas ça ne suffit pas ; finalement, j’ai obtenu une prononciation correcte en écrivant « mü ai ». De toutes façons, comme il n’est pas censé comprendre le texte, on s’en fiche (mais il « comprend » quand même souvent le ton général, et génère des images IA en rapport, par exemple, s’il trouve le mot « saule », il mettra un saule dans l’image). Il s’est avéré incapable de prononcer « imagination » aussi, j’ai essayé de découper le mot en morceaux… avec plus ou moins de bonheur. Dans la version 5 surtout, pour une raison incompréhensible, il a enfin tendance à prononcer « é » les « e » simples, non accentués.
- en général, le rythme proposé est assez correct, mais parfois on a des pauses (césures) ou des intonations inattendues (comme automNEU au lieu de auTOMne) ; j’essaie alors de lui faire générer une nouvelle version. On peut aussi essayer d’accentuer les pauses (quand il enchaîne trop vite), en ajoutant un signe de ponctuation, comme la virgule, ou un retour à la ligne.
Améliorer la mélodie
Une fois que la prononciation vous semble bonne, vous pouvez essayer d’améliorer la mélodie aussi (instruments, tempo, hauteur, mélodie proprement dite…) grâce aux indications (internes ou externes au texte). Là, c’est carrément au petit bonheur la chance d’après mon expérience, ou alors peut-être faut-il être expert, mais je n’ai pas envie non plus de passer ma vie (et d’user mes crédits) sur une version médiocre. Quand vraiment « ça veut pas », je laisse juste tomber.
Améliorer l’interprétation
Il vaut mieux lui indiquer précisément ce que vous attendez de lui, par exemple si c’est une chanson avec un refrain, lui répéter le refrain aux endroits exacts où vous les souhaitez ; cela limitera les initiatives douteuses de sa part.
Il est facile de changer la voix, notamment de passer de « male » à « female », ou l’inverse, même si ce ne sera pas toujours pris en compte immédiatement, on dirait qu’il essaie d’abord de purger son cache ou je ne sais quoi ; il faut parfois être patient. J’obtiens aussi des voix (masculines par exemple) différentes en lui précisant « dreamy », « deep », « powerful », ou autre, mais il y a une bonne part d’aléatoire là aussi.
En général, il vaut bien mieux lui indiquer un style connu (blues, reggae, jazz, calypso, hard rock, waltz, valse-musette ou autre) que de le laisser improviser totalement par lui-même, car là, il vous sortira effectivement une vague musique « d’ascenseur » (je dirais plutôt de bar de nuit), au piano, ni faite ni à faire.
Conclusion
Ça évolue vite, c’est clair. Avec suno, ils en sont à la version 5 (bêta), même si parfois je préfère la 4.5, moins « catégorique » ; mais quand on remixe notamment, on peut toujours choisir la version avec laquelle on souhaite travailler.
Il y a sûrement un tas de fonctionnalités que je ne connais pas, mais ça m’intéresse peu, et comme dit, je ne suis pas spécialiste. J’en apprends toutefois un peu plus à chaque fois. Dommage qu’ils ne semblent pas intéressés par les retours (surtout étrangers), chez suno ; ils ont peut-être leur propre panel d’utilisateurs.
En bref, il ne faut pas s’attendre à des miracles, mais quand on n’est pas soi-même musicien, et qu’on n’a pas sous la main de musicien humain (qui ferait d’ailleurs parfois pire), je trouve que ce n’est pas une mauvaise solution, vu le prix.
Quand même, choisissez bien le texte que vous voulez mettre en musique, écoutez attentivement la version générée, essayez de la corriger le cas échéant, et si c’est trop mauvais : poubelle !
Posté à 18h12 le 08 nov. 25
Édité à 19h12 le 08 nov. 25 par Tontonjacques
Merci à vous.
Je ne sais écrire que sous l'impulsion d'une musique alors, quand je poste le bazar que j'ai écrit j'aime bien mettre la musique aussi. Pour respecter les règles du site j'ai dû trouver une solution et j'ai découvert "suno" par hasard et généré ma 1ere musique tres vite. J'ai été scotchée. Je suppose que j'ai pu bénéficier d'un essai gratuit car je n'ai rien payé mais j'imagine que la prochaine fois on me réclamera ma CB.
Y a t- il un engagement ? Cela m'enmbêterait de devoir m'engager. Je deteste m'engager. Rien que le mot me hérisse.
Et donc ce truc là écrit ? Mazette! Bientôt les gens n'auront même plus besoin de penser une IA le fera à leur place.
Merci pour votre retour sur cette application.
Posté à 19h42 le 08 nov. 25
Non, on peut utiliser la version gratuite autant qu’on le veut, même si elle me semble assez limitée. Mais cela permet déjà de se familiariser un peu avec l’outil.
Il n’y a pas d’« engagement » à proprement parler, mais à partir du moment ou vous fournissez votre numéro de carte bleue, ils considèrent que vous êtes d’accord pour qu’ils vous prélèvent le montant indiqué (actuellement 10,80€ TTC) tous les mois sur votre compte, mieux vaut ne pas l’oublier. Vous pouvez résilier à tout moment, je l’ai fait par exemple pour me « mettre en pause » pendant deux mois avant de me réabonner, aussi bien l’abonnement que la résiliation ont été très rapides (il faut quand même résilier au moins 5 jours avant la date d’échéance, sinon ils risquent de vous prélever un mois de plus). Pourvu que ça dure.
Je dirais que si les conditions actuelles sont maintenues, ça me paraît honnête au regard des résultats obtenus, même si 2.500 crédits, si on est un peu perfectionniste, c’est vite consommé.
Posté à 21h58 le 08 nov. 25
Oh la la Tontonjacques... Que tout cela est bien décrit mais compliqué
...
Perso, pour L'Eau Vive je préfère comme d'habitude chercher des voix humaines "en chair et en os" pour dire les poèmes ou les trouver directement sur des sites comme ici
... en les illustrant par des photos trouvées sur Pixabay ou Pexels libres de droit et les transformer ensuite en vidéo ...
: J'y rajoute parfois grâce à Audacity que tu mentionnes et qui est gratuit, des musiques dénichées sur Pixabay Musique et gratuites elles aussi ...
Posté à 09h50 le 10 nov. 25
Édité à 09h58 le 10 nov. 25 par Stenanais
C'est un autre angle de vue. Personnellement, j'aime beaucoup les chansons, mais comme dit, tout texte poétique ne fera pas forcément une bonne chanson. En tout cas, d'entendre un de ses textes interprété par suno lui donne souvent une nouvelle jeunesse, à mon avis, et ça me semble intéressant.
Posté à 21h21 le 10 nov. 25
@Tontonjacques... En fait quand je parle de "mettre en voix" un poème il s'agit de le lire à voix haute, pas de le transformer en chanson... La musique n'est qu'un support à mon "interprétation" du poème
...
Posté à 21h57 le 10 nov. 25
Édité à 22h02 le 10 nov. 25 par Stenanais
Oui, c'est pourquoi je dis que c'est un autre "angle de vue". On peut parfaitement vouloir "dire" simplement un poème, quitte à l'accompagner musicalement, plus ou moins discrètement...
Posté à 10h30 le 11 nov. 25
D'accord, je n'avais pas compris l'angle de vue
...
Posté à 20h53 le 11 nov. 25
Il faut être inscrit et connecté pour répondre à un topic.