Były prowadzący NPR twierdzi, że Google ukradło jego głos dla NotebookLM

David Greene – głos, który przez lata towarzyszył porannym godzinom wielu Amerykanów – wstaje z fotela i idzie do sądu. Pozew przeciwko Googleowi twierdzi, że funkcja podcastowa w NotebookLM wykorzystała brzmienie jego głosu bez zgody. To nie jest tylko sprawa jednego reportera czy jednej firmy – to test na granicy technologii, własności i przyzwoitości.

Głos, który znały miliony

Greene to postać dobrze rozpoznawalna – wieloletni prowadzący Morning Edition w NPR i obecny współprowadzący programu Left, Right & Center. W pozwie – jak podaje źródło – zarzuca Google’owi, że funkcja generowania podcastów w NotebookLM sklonowała lub bardzo przypomina jego głos. Pozwy o podobnym charakterze zdobywają teraz rozgłos, bo technologia potrafi zrobić to, co jeszcze kilka lat temu brzmiało jak science fiction – oddać niuanse, barwę, sposób mówienia konkretnej osoby. Dla słuchacza różnica może być minimalna – dla osoby, której głos wykorzystano, konsekwencje są realne.

Pod maską dzieje się magia

Jak to wygląda technicznie? Systemy TTS i modele mowy trenuje się na olbrzymich zbiorach danych – nagraniach, transkrypcjach, próbkach. Dzięki modelom transformacyjnym i uczeniu głębokiemu można odwzorować intonację, tempo i barwę. Efekt – jeśli ktoś usłyszy fragment wygenerowany przez NotebookLM – może pomyśleć, że to prawdziwy materiał z archiwum radia. Problem zaczyna się, gdy treningowe zbiory zawierają nagrania rozpoznawalnych osób bez ich autoryzacji – wtedy powstaje konflikt między technicznym osiągnięciem a prawami do wizerunku głosowego.

Prawnicze echo

Pozwy tego typu otwierają kilka pytań – czy głos jest elementem tożsamości objętej ochroną podobnie jak wizerunek czy nazwisko, jak daleko sięga zgoda zawarta w regulaminach platform, i jakie odszkodowania można domagać się za użycie „głosu” bez pozwolenia. Google zapewne będzie argumentować, że technologia uczy się na publicznie dostępnym materiale albo że wygenerowane nagrania nie są bezpośrednim kopiowaniem konkretnych nagrań. Greene i prawnicy mogą natomiast podnosić, że to właśnie efekt końcowy – głos, którego odbiorcy słuchają i identyfikują – stanowi naruszenie. Spodziewajmy się długiej batalii sądowej i możliwych precedensów, które ukształtują reguły użycia modeli mowy.

Co to znaczy dla twórców i słuchaczy?

Dla dziennikarzy i prezenterów to sygnał alarmowy – ich głos to narzędzie pracy i element marki osobistej. Dla firm technologicznych to ostrzeżenie, że rozwój bez jasnych zasad etycznych i prawnych może skończyć się sporami i wizerunkowymi stratami. A dla słuchaczy – wymieszanie prawdziwych nagrań z syntetycznymi może podkopywać zaufanie do mediów audio. Nie chodzi tylko o imitację – chodzi o to, kto decyduje, jaka wersja rzeczywistości trafi do naszych uszu.

I na koniec – pogadajmy przy piwie

Sprawa Greena przeciw Googleowi to nie prosta anegdota o „sklonowanym głosie” – to sygnał, że granica między tym, co nagrane, a tym, co wygenerowane, szybko się zaciera. Ktoś powinien ustawić zasady gry – prawnicy, regulatorzy, branża, a może wszyscy naraz. A póki co – trzymajcie rękę na pulsie i głos na straży; bo jutro może okazać się, że dzwoni do nas ktoś, kto brzmi znajomo, ale ma zupełnie inne intencje.

Głos, który znały miliony

Pod maską dzieje się magia

Prawnicze echo

Co to znaczy dla twórców i słuchaczy?

I na koniec – pogadajmy przy piwie

Brakuje zestawu dla Ciebie?