aljoman mi je dal idejo
kjer je dal link na pogovorno oddajo iz val202.
Tega se mi vsega ne da poslušati, zato sem na hitro poiskal nekaj mp3 to text servisov in rezultat enega dal na alter https://www.alter.si/tema/okvirji-pa-kar-po-starem.1309964/page-256#post-3590117
Z rezultatom nisem ravno navdušen, zato sem zagnal https://lmarena.ai/ -> direct chat -> claude-3-5-sonnet-20240620, da mi napiše python3 kodo, ki bi jo nato pognal znotraj PyCharm community edition [PCE], python3 je že nameščen v sistemu.
Eden od problemov: slovenščina, google speech recognition [GSR] jo podpira, samo ne pozna diarizacije (ang diarization) oz. po domače prepoznavanje različnih govorcev, zato nameče vse skupaj v eno dolgo kačo, ter (vsaj ta free verzija brez prijave, audio fajl ne sme biti daljši kot 8 minut, 8min 1 s == no go), javi zelo "jasno" napako, (tu sem malo potestiral z velikostjo, da sem ugotovil zgornjo sprejemljivo mejo):
imenoval sem ga "sandi.mp3"
claude-3-5-sonnet pravi, da je najbolje, če je input fajl v wav formatu, PCM 16khz 16bit mono, zato sem omenjeni mp3 kar znotraj PCE pretvoril v želeno obliko.
//10 in 11 vrstica za input in output
Glavni del
## process wav, split to 8 min parts and produce output.txt ##
vzame sandi.wav, ga v spominu razdeli na 8min segmente in sprocesira preko google speech recognition, (GSR) vsakega posebej (zaporedno), vse delo se naredi na google strani, za 1 part porabi cca 2 minuti časa
malo daljša koda
//47 in 51 vrstica za input in output (od kod bere in kam naj zapiše)
ker je part 4 delal težave je tu koda, ki razdeli wav na 8min segmente in jih shrani na hdd
34 in 35 vrstica , sandi.wav in kam naj shrani parte, na windows sistemu mora biti dvojni \ za pot
v tem primeru se v mapi "r:\\output" pojavi 5 delov ; chunk_1.wav do chunk_5.wav
Nato sem clauda vprašal kateri "audio to text" servisi/programi obstajajo, ki prepoznajo slovenščino: hint ni jih veliko free, izmed naštetih je edino https://www.speechmatics.com/ imel free trial brez nekega kompliciranja (vpišeš nek email/ geslo in si notri, sploh ne preverja emaila),
speechmatics free https://www.speechmatics.com/pricing ponuja 4 ure pretvorbe že posnetega audio materiala in 4 ure pretvorbe v živo, tudi lepo prepozna različne govorce.
seznam naštetih
claude malo fantazira, sem preveril https://alphacephei.com/vosk/models
Speech to Text poizvedba za claude najde še Mozilla DeepSpeech, Whisper by OpenAI https://github.com/mozilla/DeepSpeech ter https://github.com/openai/whisper , zadnji Whisper izgleda enostavnejši za uporabo,
med podprtimi jeziki je Slo https://github.com/openai/whisper/blob/main/whisper/tokenizer.py (57 vrstica), bom testiral ; EDIT ne bom, nimam dodatne grafične, samo integrirano na cpu, ki trenutno uporablja 0.5 Gb.
part 4 je nato speechmatics uspešno pretvoril v tekst.
končni rezultat je tu
kjer je dal link na pogovorno oddajo iz val202.
Tega se mi vsega ne da poslušati, zato sem na hitro poiskal nekaj mp3 to text servisov in rezultat enega dal na alter https://www.alter.si/tema/okvirji-pa-kar-po-starem.1309964/page-256#post-3590117
Z rezultatom nisem ravno navdušen, zato sem zagnal https://lmarena.ai/ -> direct chat -> claude-3-5-sonnet-20240620, da mi napiše python3 kodo, ki bi jo nato pognal znotraj PyCharm community edition [PCE], python3 je že nameščen v sistemu.
Eden od problemov: slovenščina, google speech recognition [GSR] jo podpira, samo ne pozna diarizacije (ang diarization) oz. po domače prepoznavanje različnih govorcev, zato nameče vse skupaj v eno dolgo kačo, ter (vsaj ta free verzija brez prijave, audio fajl ne sme biti daljši kot 8 minut, 8min 1 s == no go), javi zelo "jasno" napako, (tu sem malo potestiral z velikostjo, da sem ugotovil zgornjo sprejemljivo mejo):
Prvo sem iz rtv strani pridobil mp3 fajl, (chrome/firefox, developer tools, network, stolpec type: media, je samo 1Could not request results from speech recognition service; recognition request failed: Bad Request
velikost 34,5 MB.
imenoval sem ga "sandi.mp3"
claude-3-5-sonnet pravi, da je najbolje, če je input fajl v wav formatu, PCM 16khz 16bit mono, zato sem omenjeni mp3 kar znotraj PCE pretvoril v želeno obliko.
from pydub import AudioSegmentdef convert_audio(input_file, output_file): - Pastebin.com
Pastebin.com is the number one paste tool since 2002. Pastebin is a website where you can store text online for a set period of time.
pastebin.com
Koda:
from pydub import AudioSegment
def convert_audio(input_file, output_file):
audio = AudioSegment.from_mp3(input_file)
audio = audio.set_channels(1) # Convert to mono
audio = audio.set_frame_rate(16000) # Set sample rate to 16kHz
audio = audio.set_sample_width(2) # Set sample width to 2 bytes (16-bit)
audio.export(output_file, format="wav")
# Usage
input_mp3 = "r:\\sandi.mp3"
output_wav = "r:\\sandi.wav"
convert_audio(input_mp3, output_wav)
Glavni del
## process wav, split to 8 min parts and produce output.txt ##
vzame sandi.wav, ga v spominu razdeli na 8min segmente in sprocesira preko google speech recognition, (GSR) vsakega posebej (zaporedno), vse delo se naredi na google strani, za 1 part porabi cca 2 minuti časa
malo daljša koda
## process wav, split to 8 min parts and produce output.txtimport speech_recog - Pastebin.com
Pastebin.com is the number one paste tool since 2002. Pastebin is a website where you can store text online for a set period of time.
pastebin.com
ker je part 4 delal težave je tu koda, ki razdeli wav na 8min segmente in jih shrani na hdd
34 in 35 vrstica , sandi.wav in kam naj shrani parte, na windows sistemu mora biti dvojni \ za pot
## split a WAV file into 8-minute parts ##from pydub import AudioSegmentimpo - Pastebin.com
Pastebin.com is the number one paste tool since 2002. Pastebin is a website where you can store text online for a set period of time.
pastebin.com
Nato sem clauda vprašal kateri "audio to text" servisi/programi obstajajo, ki prepoznajo slovenščino: hint ni jih veliko free, izmed naštetih je edino https://www.speechmatics.com/ imel free trial brez nekega kompliciranja (vpišeš nek email/ geslo in si notri, sploh ne preverja emaila),
speechmatics free https://www.speechmatics.com/pricing ponuja 4 ure pretvorbe že posnetega audio materiala in 4 ure pretvorbe v živo, tudi lepo prepozna različne govorce.
seznam naštetih
When it comes to MP3 to text conversion (speech recognition) for the Slovenian l - Pastebin.com
Pastebin.com is the number one paste tool since 2002. Pastebin is a website where you can store text online for a set period of time.
pastebin.com
claude malo fantazira, sem preveril https://alphacephei.com/vosk/models
8. ALPHACEPHEI:
- Open-source speech recognition toolkit
- Has models for various languages including Slovenian
Ne znam uporabljati, niti dejansko ne podpira4. Wit.ai:
What languages do you support speech recognition for?Wit.ai
wit.ai
Speech to Text poizvedba za claude najde še Mozilla DeepSpeech, Whisper by OpenAI https://github.com/mozilla/DeepSpeech ter https://github.com/openai/whisper , zadnji Whisper izgleda enostavnejši za uporabo,
med podprtimi jeziki je Slo https://github.com/openai/whisper/blob/main/whisper/tokenizer.py (57 vrstica), bom testiral ; EDIT ne bom, nimam dodatne grafične, samo integrirano na cpu, ki trenutno uporablja 0.5 Gb.
part 4 je nato speechmatics uspešno pretvoril v tekst.
končni rezultat je tu
[0:00:00] sandi horvat lepo pozdravljeni v studio vale 2022 dober dan in lep poz - Pastebin.com
Pastebin.com is the number one paste tool since 2002. Pastebin is a website where you can store text online for a set period of time.
pastebin.com