Poszukuję programu, który z dyktafonu a raczej nagrania WAV/MP3 przerobi mi tekst najlepiej do Worda. Program jest mi potrzebny od zaraz więc proszę o nazwy programów i sugestie. Oczywiście w grę wchodzi język Polski.
http://skrybot.pl/produkty/rozpoznawanie-mowy-skrybot-domowy/
(uprzedzam że nie testowałem więc nie oznacza to że jakoś specjalnie ten program polecam)
Wydaje mi się też że jest jakaś wtyczka do Chrome, ale czy daje możliwość odsłuchu z pliku -nie wydaje mi się. Generalnie polecam byś zrobił mały zwiad w internecie używając jako hasła-klucza: speech to text.
Jest jeszcze MagicScribe - www.magicscribe.pl Drogi, ale zdaje się, że przez ich stronę można skorzystać z tego mechanizmu - patrz dział Pomoc. Kiedyś ten program znajdował się na płycie dołączonej do magazynu “Chip” 06/2011.
Ja tam nie wierzę w tego typu programy przerabiające dowolne teksty. A, jeśli nawet coś tam zapiszą, to poprawianie (choćby znaki interpunkcyjne, duże czy małe litery, przekłamania, błędy ortograficzne itd.) zajmie więcej czasu niż samodzielne zapisanie z odsłuchu.
A,przy reklamacjach napiszą, że trzeba wyraźniej mówić, a nie bełkotać.
No, ale spróbować można. Napisz jeśli znajdziesz coś interesującego w tej materii. Na pewno było by dużo ludzi zainteresowanych takim programem, a autor takiego programu dorobił by się niezłego majątku.
Podejrzewam że to nagranie z jakiegoś wykładu, więc niewyraźna będzie mowa
Daj sobie spokój,. przepisz to lepiej
a jak to jakaś audioksiążka, to też nie przepisze tego program dobrze, i tak trzeba będzie wszystko przeczytać, poprawiać, a po za tym tekst z takiej mp3 będzie w internecie.
Nie wykłady a wywiady. MagicScribe nagrywa z mikrofonu a mie potrzeba z wav.
W zakładce pomoc piszą tak:
KROK 1 Zarejestruj się. Wpisz poprawny adres e-mail w formularzu rejestrującym. Na podany adres będą wysyłane pliki rozpoznane.
KROK 2 Skonfiguruj urządzenie rejestrujące mowę. Wyłącz wzmocnienie, “efekty” mikrofonu. Jeśli masz podłączony więcej niż jeden mikrofon wyłącz pozostałe - w chwili nagrywania musi być aktywny tylko jeden mikrofon.
KROK 3 Nagraj notatkę do rozpoznania i zapisz na dysk.
KROK 4 Wczytaj plik z nagraniem do odpowiedniego katalogu _Nagrania, Nagrania-prawo, Nagrania-medycyna (_wymagany format mp3)
KROK 5 Odbierz maila z rozpoznanym plikiem - plik tekstowy znajduje się również w katalogu Rozpoznane
Jak więc widać obsługują również pliki dźwiękowe, a nie tylko strumień z mikrofonu. Wav można przekonwertować do mp3.
Pewnie ktoś tam siedzi i mozolnie wpisuje ręcznie teksty.
Rozpoznawanie mowy, te wbrew pozorom jedno z trudniejszych zagadnień w świecie komputerów choć przeciętnemu człowiekowi wydaje się takie proste. Przecież już nawet 7 latek potrafi słuchać co mówi nauczyciel i zapisać to w kajecie.
Człowiek z łatwością rozpoznaje co mówi drugi człowiek bo zaangażowana jest w ten proces cała jego inteligencja i doskonałe zmysły do których daleko tym mechanicznym stworzonym przez człowieka jak mikrofony czy głośniki.
Mówimy bardzo nie precyzyjnie (wszyscy), ale to absolutnie nie przeszkadza w zrozumieniu drugiego człowieka. Jeżeli sprawozdawca sportowy mówi: "Lewandowski strzelił go ", to przed zakończeniem tego tekstu już wiemy jak brzmi ostatni wyraz tego tekstu. Z szybkością błyskawicy te dane są analizowane w mózgu i z bazy danych w mózgownicy dobierane są słowa które mogą pasować do dalszego ciągu.
Gdy jednak napiszę: 'żołnierz strzelił…", to mamy już całkiem inne skojarzenia bo rozumiemy wypowiadane teksty i nie prędko komputery będą tak kojarzyły.
Jak ważne są to procesy w analizie mowy łatwo sprawdzić samu słuchając obcokrajowca mówiącego w nieznanym nam języku.
Przecież, to jeden bełkot. Proszę spróbować napisać to co mówi chińczyk chociażby tylko literując w naszym języku lub wyławiając tylko jakieś sylaby. Czasami gdy próbujemy coś przekazać obcokrajowcowi słabo znającemu nasz język to mówimy bardzo powoli pojedynczymi sylabami czy nawet literami, a przecież nie jest on głuchy.
Dlaczego natura stworzyła mechanizm aby mowa mogła być nie precyzyjna, a jednak zrozumiała?
W środowisku naturalnym ważne jest nie tylko otrzymanie jakiejś informacji ale jak szybko ona do nas dociera, i czasami może być to kwestia przeżycia.
Komputer to taki właśnie obcokrajowiec, a nawet jeszcze gorzej i strasznie trudno mu nas zrozumieć. A zrozumienie to polega na analizowaniu zapisanej fali dźwiękowej i porównywaniu jej z zapisami w bazie danych.
Wielu ludzi szuka też programów przy pomocy których dało by się wyodrębnić z nagrania głos śpiewaka bez podkładu muzycznego lub na odwrót. To równie trudny problem bo wszystkie dźwięki są z miksowane, spłaszczone. Ucho ludzkie świetnie jednak rozdziela te różne dzięki . Fala dźwiękowa jest tworem przestrzennym, trójwymiarowym i do naszego ucha docierają poszczególne jej elementy z różnym opóźnieniem. Zabawnie jest czasami gdy widzimy jak dwóch polityków w TV zaczyna mówić jednocześnie bo nic wówczas nie rozumiemy. Gdybyśmy jednak w tym czasie byli w studio to bylibyśmy w stanie rozróżniać co mówi każdy z nich. Pokazuje to jak niedoskonale są mechaniczne urządzenia i jak genialnym tworami są zmysły wytworzone przez naturę i nie tylko u człowieka.
Witam Was wszystkich,
reprezentuje barwy Newton Technologies – firmy, która zajmuje się technologią rozpoznawania głosu. W ramach bezpłatnych testów proponuję Wam dostęp do naszego nowego narzędzia BEEY, pozwalającego na szybkie i dokładne przetwarzanie plików audio oraz edycji tekstu.
Nadmienię, iż BEEY świetnie się sprawdza w przygotowaniu protokołów z oficjalnych spotkań, posiedzeń, konferencji, wywiadów czy rozpraw sądowych.
Jeśli zależy Wam, aby szybko i tanio stworzyć transkrypcję do Waszych nagrań - zapraszam do testów.
M: 694 784 095
E: marek.markiewicz@newtontech.pl