Ce matin j’ai dĂ©couvert un petit microđŸŽ™ïždans le coin en bas Ă  gauche sur mon GSM Samsung. Il apparaĂźt chaque fois que je dois taper du texte quelque part. Je ne sais pas pourquoi mais, aujourd’hui, je me suis dit tout d’un coup: “tiens? je vais essayer”…

J’avais dĂ©jĂ  fait quelques tests auparavant, mais je n’avais pas Ă©tĂ© trĂšs satisfait du rĂ©sultat des retranscriptions Speech to Text. Il fallait souvent tout recorriger une fois que le texte Ă©tait Ă©crit… Ça demandait plus de travail que d’Ă©crire directement. Pareil pour l’Ă©criture au stylet, c’Ă©tait bien joli mais ça ne fonctionnait pas bien.

Eh bien, c’est terminĂ© ce temps-lĂ : ce n’est plus du tout le cas! đŸ„ł

ArrivĂ© au bureau, j’ouvre mon ami ChatGPT et je lui demande comment faire pour installer tout ça sur mon PC. Il m’explique dĂ©jĂ  que sous Windows, la commande Windows + H permet d’avoir dĂ©jĂ  de la retranscription ce que je ne savais pas. C’est assez basique, c’est pas trĂšs pratique, c’est lent mais ça fait le travail.

Sous Linux il me parle d’OpenWhispr et de Vocalinux, deux applications dont je n’avais jamais entendu parler. Il s’agit de deux programmes de retranscription d’Ă©chantillons vocaux qui peuvent se baser tous les 2 sur une sorte de “moteur” qui s’appelle Whisper, un outil/format d’OpenAI (je n’ai pas creusĂ©…). ChatGPT me dit que je prĂ©fĂ©rerai certainement utiliser Vocalinux car c’est plus pour les geeks comme moi (il me connaĂźt bien). Il me dit que je peux commencer par utiliser directement whisper.cpp qui est un moteur speech-to-text open-source qui peut tourner localement sur ma machine. J’essaye donc d’installer whisper.cpp. C’est trĂšs facile et, en ligne de commande, je peux facilement retranscrire des fichiers wav, ou ce qui sort de mon micro. Ça marche plutĂŽt bien, mĂȘme avec le modĂšle nommĂ© “small”.

Je me lance ensuite dans l’installation de Vocalinux. ChatGPT me propose toute une sĂ©rie de commandes assez bas niveau mais je vois directement sur le site web de Vocalinux qu’on peut l’installer en une seule ligne de commande! Je l’exĂ©cute et hop, aprĂšs quelques questions basiques, tout est configurĂ©.

Il suffit alors de lancer Vocalinux qui apparait maintenant dans la liste des programmes de la machine, de presser 2x la touche Control, parler et terminer en pressant Ă  nouveau 2x Control. Le texte est insĂ©rĂ© automatiquement dans n’importe quelle application de la machine sous le curseur! C’est complĂštement dingue.

Encore plus dingue: on peut choisir la langue. Et donc si je choisis “espagnol” mais que je parle en français, la phrase est automatiquement retranscrite en espagnol sous mon curseur!

Je commence alors Ă  faire des essais un petit peu partout. Mes premiers consistent Ă©videmment Ă  communiquer mon Ă©merveillement Ă  mes contacts WhatsApp, … qui s’empressent d’installer ça sur leur GSM!

RĂ©pondre Ă  des mails devient un jeu d’enfant. RĂ©pondre Ă  des messages Teams, facebook ou autre se fait maintenant quelques secondes… Quel confort!

Alors, Ă©videmment, il faut repasser un peu sur le texte qui est gĂ©nĂ©rĂ© si on veut un texte publiable. Ce n’est pas parfait, mais la qualitĂ© est dĂ©jĂ  exceptionnelle et tout Ă  fait satisfaisante pour du “chat”. Et puis, peut-ĂȘtre qu’avec d’autres modĂšles plus gros, il y aurait mĂȘme moyen d’avoir une qualitĂ© encore meilleure?

Ce systĂšme va vraiment me changer la vie. Je vais pouvoir communiquer des prompts aux intelligences artificielles de maniĂšre vraiment trĂšs trĂšs rapide. C’Ă©tait souvent ça qui me limitait: je ne prenais pas le temps d’Ă©crire tout ce que j’avais en tĂȘte lorsque j’interrogeais des IA.

Autre application que je vois: simplement faire un rapide rĂ©sumĂ© d’une rĂ©union de travail qui vient se passer. Il n’est pas rare que je passe une demi-heure, voire une heure, aprĂšs une rĂ©union, Ă  synthĂ©tiser tout ce qui a Ă©tĂ© dit, Ă  remettre ça en page, Ă  restructurer…. Dans le futur ça va ĂȘtre fait en quelques minutes. Il n’y aura plus qu’un repassage rapide sur la forme et tout sera terminĂ©.

Les possibilités sont vraiment illimitées. Je ne compte pas toutes les applications dans lesquelles je pourrai utiliser ce genre de technologie.

Demain je testerai Handy qui est l’Ă©quivalent sous Windows.


Notes aprĂšs quelques jours d’utilisation

Utiliser speech-to-text est vraiment un game changer comme on dit (je parle comme sur LinkedIn 😁). Ça apporte un vrai boost dans ma façon de travailler comme je n’ai jamais connu. Ou plutĂŽt: …comme je suis en train de connaĂźtre aussi avec les agents IA pour coder (Codex, Copilot).

J’ai donc installĂ© Handy sur Windows et ça marche extrĂȘmement bien, peut-ĂȘtre mĂȘme mieux que vocalinux (en fait c’est trĂšs similaire). J’ai utilisĂ© le moteur Parakeet au lieu de whisper. Ce moteur est mis en avant par Handy. Et c’est vrai qu’il marche extrĂȘmement bien. La vitesse est incroyable. Du moins avec ma carte graphique.

Je me dis tout le temps que le speech-to-text m’offre des possibilitĂ©s infinies. Je me rends compte aujourd’hui (et uniquement aujourd’hui) Ă  quel point j’Ă©tais bloquĂ© par le fait de ne pas exprimer facilement mes idĂ©es sur papier. Ecrire rapidement un mail, Ă©crire un prompt, mettre sur papier ce qui me passe par la tĂȘte, … Auparavant je ne sĂ©lectionnais que le plus important et je laissais tomber le reste. MĂȘme ce blog me semblait un vrai travail. Aujourd’hui ça ne l’est plus. Je vais ouvrir une page et simplement parler devant mon Ă©cran.

Je me demande aussi: puisque la vitesse d’Ă©criture est un problĂšme, est-ce que j’aurais dĂ» apprendre Ă  Ă©crire Ă  la machine Ă  Ă©crire avec mes dix doigts quand j’Ă©tais petit? Ah ah, peut-ĂȘtre. Ça m’aurait permis d’avoir cette facilitĂ© au dĂ©but de ma carriĂšre jusqu’Ă  maintenant. Mais aujourd’hui ça ne servirait plus Ă  rien!

Je suis d’un cĂŽtĂ© surexcitĂ© Ă  l’idĂ©e de tout ce que je peux faire. Et d’un autre cĂŽtĂ©, je suis apaisĂ© parce que je me dis que je vais pouvoir faire tout ça Ă  partir de maintenant. Le temps devant moi, qui me semblait trop court, s’est maintenant complĂštement ralenti. En fait, je me rends compte que beaucoup de tĂąches me semblaient compliquĂ©es parce qu’il fallait Ă©crire beaucoup! Aujourd’hui qu’il n’y a plus cette barriĂšre, beaucoup de tĂąches deviennent faisables, mĂȘme quand je suis fatiguĂ©!

Et le fait que j’ai ce systĂšme sur tous mes appareil que j’utilise, tĂ©lĂ©phone compris, est trĂšs confortable. J’envisage par exemple d’utiliser d’utiliser beaucoup plus Notion Ă  partir d’aujourd’hui. Pareil pour ce blog qui risque d’ĂȘtre beaucoup plus enrichi qu’avant!