AI này có thể giả giọng nói của bạn chỉ sau ba giây

Trí tuệ nhân tạo (AI) hiện đang có một thời điểm và gió tiếp tục thổi vào cánh buồm của nó với tin tức rằng Microsoft đang nghiên cứu một AI có thể bắt chước giọng nói của bất kỳ ai sau khi được cho ăn một đoạn mẫu ngắn trong ba giây.

Công cụ mới, có tên là VALL-E, đã được đào tạo trên khoảng 60.000 giờ dữ liệu giọng nói bằng tiếng Anh, mà Microsoft cho biết là “lớn gấp hàng trăm lần so với các hệ thống hiện có”. Sử dụng kiến ​​thức đó, những người tạo ra nó tuyên bố rằng nó chỉ cần một chút đầu vào giọng nói nhỏ để hiểu cách tái tạo giọng nói của người dùng.

người đàn ông nói vào điện thoại
Fizkes/Shutterstock

Ấn tượng hơn, VALL-E có thể tái tạo cảm xúc, tông giọng và môi trường âm thanh có trong mỗi mẫu, điều mà các chương trình AI giọng nói khác gặp khó khăn. Điều đó mang lại cho nó một hào quang thực tế hơn và mang lại kết quả của nó gần hơn với thứ gì đó có thể được coi là lời nói chân thực của con người.

Khi so sánh với các đối thủ chuyển văn bản thành giọng nói (TTS) khác, Microsoft cho biết VALL-E “vượt trội đáng kể so với hệ thống TTS zero-shot tiên tiến nhất về độ tự nhiên của giọng nói và độ tương đồng của người nói.” Nói cách khác, VALL-E nghe giống người thật hơn là các AI đối thủ gặp phải đầu vào âm thanh mà chúng chưa được đào tạo.

Trên GitHub, Microsoft đã tạo một thư viện mẫu nhỏ được tạo bằng VALL-E. Hầu hết các kết quả đều rất ấn tượng, với nhiều mẫu tái tạo âm điệu và giọng nói của người nói. Một số ví dụ kém thuyết phục hơn, cho thấy VALL-E có thể không phải là sản phẩm hoàn chỉnh, nhưng nhìn chung kết quả đầu ra rất thuyết phục.

Tiềm năng to lớn — và rủi ro

Một người thực hiện cuộc gọi video trên thiết bị Microsoft Surface chạy Windows 11.
Microsoft/Unsplash

Trong một bài báo giới thiệu về VALL-E, Microsoft giải thích rằng VALL-E “có thể tiềm ẩn những rủi ro khi sử dụng sai mô hình, chẳng hạn như nhận dạng giọng nói giả mạo hoặc mạo danh một người nói cụ thể”. Một công cụ có khả năng tạo ra bài phát biểu nghe có vẻ chân thực như vậy làm dấy lên bóng ma về những trò giả sâu ngày càng thuyết phục hơn, có thể được sử dụng để bắt chước bất cứ thứ gì, từ một đối tác lãng mạn trước đây đến một nhân vật quốc tế nổi bật.

Để giảm thiểu mối đe dọa đó, Microsoft cho biết “có thể xây dựng một mô hình phát hiện để phân biệt xem một đoạn âm thanh có được tổng hợp bởi VALL-E hay không”. Công ty cho biết họ cũng sẽ sử dụng các nguyên tắc AI của riêng mình khi phát triển công việc của mình. Những nguyên tắc đó bao gồm các lĩnh vực như công bằng, an toàn, quyền riêng tư và trách nhiệm giải trình.

VALL-E chỉ là ví dụ mới nhất về thử nghiệm của Microsoft với AI. Gần đây, công ty đang nỗ lực tích hợp ChatGPT vào Bing, sử dụng AI để tóm tắt các cuộc họp Nhóm của bạn và ghép các công cụ nâng cao vào các ứng dụng như Outlook, Word và PowerPoint. Và theo Semafor, Microsoft đang tìm cách đầu tư 10 tỷ đô la vào OpenAI, nhà sản xuất ChatGPT, một công ty mà họ đã đầu tư số tiền đáng kể vào.

Bất chấp những rủi ro rõ ràng, các công cụ như VALL-E có thể đặc biệt hữu ích trong y học, chẳng hạn như giúp mọi người lấy lại giọng nói sau tai nạn. Khả năng sao chép giọng nói với một bộ đầu vào nhỏ như vậy có thể rất hứa hẹn trong những tình huống này, miễn là nó được thực hiện đúng cách. Nhưng với tất cả số tiền đã được chi cho AI — của cả Microsoft và những người khác — rõ ràng là nó sẽ không sớm biến mất.

Đề xuất của biên tập viên






Call Now Button