Công nghệ AI làm giả giọng nói người như thật gây tranh cãi

06:06 21/09/2021

(VietQ.vn) - Sau video deepfake, AI giả giọng nói đã đến giai đoạn chín muồi khiến nhiều người lo ngại về những tác động tiêu cực bên cạnh ứng dụng thực tiễn của nó.

Theo The Verge, giờ đây mọi người có thể dùng AI giả giọng nói của mình với thao tác đơn giản, nhanh gọn. Chỉ cần nói liên tục vào micro trong tối thiểu 30 phút, AI sẽ xử lý dữ liệu đó trong khoảng vài giờ. Sau đó, người dùng chỉ cần nhập nội dung cần nói vào khung hội thoại, "bản sao" sẽ nhắc lại với giọng nói gần như giống hệt bản gốc, đến mức người thân và bạn bè không nhận ra.

Công nghệ này đã xuất hiện và phát triển vài năm gần đây nhờ trí tuệ nhân tạo nhưng chưa được nhiều người biết đến. Trước đây, giọng nói nhân tạo được làm ra bằng cách ghi lại giọng của người lồng tiếng rồi cắt ra thành những âm thanh nhỏ lẻ và nối lại để tạo thành từ mới. Giờ đây, mạng thần kinh nhân tạo có thể sinh ra giọng nói từ những dữ liệu chưa được sắp xếp. Dù chất lượng chưa hoàn hảo, cách này vẫn nhanh, tiện lợi và đưa ra giọng nói chân thực hơn.

Chỉ cần vài thao tác đơn giản, người dùng có thể tạo ra bản sao giọng nói như thật. Ảnh: Veritone

Kỹ thuật làm giả giọng nói không quá đặc biệt nên đã có nhiều công ty khởi nghiệp cung cấp dịch vụ này, từ các ứng dụng chỉ tập trung vào giọng nói nhân tạo như Respeecher, Resemble AI cho đến công ty lớn như Veritone, Descript.

Công nghệ này được xem như một ứng dụng mới lạ của AI, nhưng cũng gây tranh cãi về vấn đề đạo đức và lo ngại về hệ luỵ nghiêm trong của nó. Hồi tháng 7, phim tài liệu về đầu bếp Anthony Bourdain gây tranh cãi về mặt đạo đức do nhà làm phim dùng AI để giả giọng vị đầu bếp quá cố.

Đến tháng 8, công ty Sonantic công bố đã tạo ra bản sao giọng nói của Val Kilmer. Sau khi điều trị ung thư vòm họng, giọng nói của nam diễn viên này đã bị thay đổi. Khác với tình huống của Bourdain, công chúng ủng hộ và khen ngợi AI trong trường hợp này.

Trước đó, vào tháng 4/2020, rapper Jay-Z kiện kênh YouTube Vocal Synthesis vì dùng AI nhái giọng rap của mình. Kênh Vocal Synthesis thậm chí bắt chước giọng Barack Obama và Donald Trump như một trò đùa, nhưng lại khiến nhiều người e ngại. "Liệu tuyên bố chiến tranh của Thủ tướng Canada mà bạn nghe qua đài phát thanh là thật? Hoặc đơn giản là người đàn ông đang nói chuyện qua điện thoại hỏi về mật khẩu email có đúng là bố bạn?", HowToGeek bình luận.

Tranh cãi về AI giả giọng nói.

Các chuyên gia công nghệ dự đoán các ứng dụng cung cấp dịch vụ AI giả giọng sẽ phát triển mạnh những năm tới. Những startup trong lĩnh vực này hy vọng người nổi tiếng sẽ sử dụng công nghệ để sao chép và cho thuê giọng nói nhằm tăng thu nhập.

Veritone vừa tung ra dịch vụ cho phép người nổi tiếng dùng giọng AI của mình cho những mục đích như thu radio mà không cần đến trường quay. Những ứng dụng tương tự vẫn chưa phổ biến nhưng gần đây, Bruce Willis đã cho phép hình ảnh deepfake của mình được dùng trong quảng cáo tại Nga. Điều này mở ra hy vọng cho tương lai của bản sao giọng nói điện tử.

Diễn viên lồng tiếng quan tâm công nghệ nhân bản giọng nói

Khi nhân bản giọng nói ngày càng trở nên hiệu quả, công nghệ ngày càng được các diễn viên lồng tiếng và cả thế giới tội phạm mạng quan tâm. Phần mềm có thể nhận ra không chỉ giọng của bạn - mà còn cả âm sắc, cao độ, nhịp độ, cách nói và nhịp thở của bạn. Và giọng nói nhân bản có thể được điều chỉnh để khắc họa bất kỳ cảm xúc nào cần thiết - chẳng hạn như tức giận, sợ hãi, hạnh phúc, yêu thương hay buồn chán.

Tim Heller, nghệ sĩ và diễn viên lồng tiếng người Mỹ 29 tuổi, nói rằng công nghệ độc đáo giúp anh đảm bảo công việc hơn. Để có được giọng nói nhân bản của mình, Heller tìm đến doanh nghiệp có trụ sở tại Boston tên là VocaliD - một trong những công ty đang cung cấp dịch vụ ngày càng phổ biến này.

Khi Tim Heller lần đầu tiên nghe thấy giọng nói nhân bản của mình, anh nói nó chính xác đến mức "đáng kinh ngạc". Nhân bản giọng nói được hiểu là sử dụng một chương trình máy tính để tạo ra một bản sao tổng hợp, có thể điều chỉnh được từ giọng nói của một người. Từ bản ghi âm của ai đó đang nói chuyện, phần mềm có thể sao chép giọng nói của người đó. Đó là tiến bộ gần đây trong công nghệ mà máy tính tạo ra âm thanh ngày nay được cho là chính xác đến khó tin.

Tim Heller, nghệ sĩ lồng tiếng và diễn viên người Mỹ.

Bên cạnh lợi ích của giọng nói nhân tạo đối với người nổi tiếng, công nghệ này còn nhiều ứng dụng khác trong thực tế. Có thể trong tương lai sẽ có những trò chơi dùng chính giọng của người chơi để lồng tiếng. Những cha mẹ bận rộn có thể để giọng nói nhân tạo kể chuyện cho con khi không ở cạnh.

Công cụ cho tội phạm mạng

Tuy nhiên, mặc dù sự tinh vi ngày càng tăng của nhân bản giọng nói có tiềm năng thương mại rõ ràng, điều đó cũng dẫn đến mối lo ngại ngày càng tăng rằng công nghệ có thể được sử dụng trong thế giới tội phạm mạng để lừa đảo. Cùng với các video giả do máy tính tạo ra, nhân bản giọng nói còn được gọi là "deepfake".

Công nghệ có thể được sử dụng trong thế giới tội phạm mạng để lừa đảo.

Chuyên gia an ninh mạng Eddy Bobritsky nhận định có một "nguy cơ bảo mật rất lớn" đi kèm với những tiếng nói tổng hợp. Bobritsky, ông chủ Công ty Minerva Labs của Israel, bình luận: "Khi nói đến email hoặc tin nhắn văn bản, chúng ta biết rằng việc mạo danh người khác trong nhiều năm là khá dễ dàng. Nhưng, cho đến nay, nói chuyện qua điện thoại với người mà bạn tin tưởng và biết rõ là một trong những cách phổ biến nhất để đảm bảo rằng bạn thực sự quen thuộc với người đó". Nhưng Bobritsky tuyên bố điều đó hiện đang thay đổi.

Trên thực tế, một trường hợp như vậy được Wall Street Journal báo cáo năm 2019, với một nhà quản lý người Anh được cho là đã bị lừa chuyển 220.000 euro cho bọn tội phạm lừa đảo sử dụng bản sao giọng nói ông chủ người Đức của ông. Bobritsky cho biết thêm: "Cần phải thực hiện các bước để đối phó với công nghệ mới này và những mối đe dọa mà nó mang lại.

Các công ty trên khắp thế giới đã và đang làm điều này, như trang tin tức chuyên về trí tuệ nhân tạo Venture Beat đưa tin. Những công ty như vậy có thể giám sát âm thanh để xem liệu nó có phải là giả hay không, tìm kiếm các dấu hiệu nhận biết như sự lặp lại, tiếng ồn kỹ thuật số và việc sử dụng những cụm từ hoặc từ nhất định. Trong khi đó, các chính phủ và cơ quan thực thi pháp luật cũng đang xem xét vấn đề.

Ngọc Mai (t/h)