Danh sách bài viết

Công nghệ AI giúp dựng lại chân dung gần như tạc chỉ từ giọng nói

Cập nhật: 08/09/2023

Các nhà khoa học tại Học viện Công nghệ Massachusetts (MIT-Mỹ) lần đầu tiên thành công trong việc ứng dụng thuật toán để tái tạo lại chân dung chỉ từ giọng nói.

Bạn có thể đã nghe nói về máy ảnh được hỗ trợ bởi AI (trí tuệ nhân tạo) có thể nhận ra mọi người chỉ bằng cách phân tích các đặc điểm trên khuôn mặt của họ, nhưng điều gì sẽ xảy ra nếu có một cách để trí thông minh nhân tạo tìm ra bạn trông như thế nào chỉ bằng âm thanh của giọng nói và không cần so sánh giọng nói với cơ sở dữ liệu?

Đó chính xác là những gì mà một nhóm các nhà khoa học tại Phòng thí nghiệm Khoa học Máy tính và Trí tuệ Nhân tạo MIT (CSAIL) đã và đang nghiên cứu, kết quả công việc của họ thật ấn tượng.

Mặc dù thuật toán AI có tên là có tên là Speech2Face, vẫn chưa thể tìm ra các đặc điểm khuôn mặt chính xác của con người chỉ bằng giọng nói của họ, nhưng nó chắc chắn có rất nhiều chi tiết đúng.

Thuật toán AI có tên là Speech2Face được các nhà khoa học tại Phòng thí nghiệm Khoa học máy tính và Trí tuệ nhân tạo (CSAIL) của MIT phát triển, giúp tái tạo lại khuôn mặt của một người chỉ bằng một đoạn ghi âm ngắn giọng nói và kết quả rất ấn tượng.

“Mô hình của chúng tôi được thiết kế để tiết lộ các mối tương quan thống kê tồn tại giữa các đặc điểm trên khuôn mặt và giọng nói của người nói.

Dữ liệu đào tạo mà chúng tôi sử dụng là tập hợp các video giáo dục từ YouTube và không đại diện cho toàn bộ dân số thế giới", những người sáng tạo của Speech2Face cho biết.


Nhiệm vụ của nhóm nghiên cứu là tái tạo lại hình ảnh khuôn mặt của một người từ đoạn ghi âm ngắn giọng nói. (Ảnh: Speech2Face).

Đầu tiên, các nhà nghiên cứu thiết kế và đào tạo một mạng neuron nhân tạo học sâu, bằng cách sử dụng hàng triệu video từ YouTube và internet lúc mọi người đang nói chuyện. 

Trong quá trình đào tạo này, AI đã học được mối tương quan giữa âm thanh của giọng nói và người nói trông như thế nào. Những mối tương quan đó cho phép AI đưa ra những phỏng đoán tốt nhất về độ tuổi, giới tính và quốc tịch của người nói.

Không có sự tham gia của con người trong quá trình đào tạo. AI chỉ được cung cấp một lượng lớn video và có nhiệm vụ tìm ra mối tương quan giữa đặc điểm giọng nói và đặc điểm khuôn mặt.

Sau khi được đào tạo, AI đã rất giỏi trong việc tạo ra các bức chân dung chỉ dựa trên các bản ghi âm giọng nói giống với những gì người nói thực sự trông như thế nào.

Hình ảnh thực tế của người nói (trái) và hình được tái tạo bởi AI từ giọng nói của họ (phải).
Hình ảnh thực tế của người nói (trái) và hình được tái tạo bởi AI từ giọng nói của họ (phải). (Ảnh: Speech2Face).

Để phân tích thêm độ chính xác của việc tái tạo khuôn mặt, các nhà nghiên cứu đã xây dựng "bộ giải mã khuôn mặt". Bộ giải mã sẽ tạo ra một bản tái tạo tiêu chuẩn cho khuôn mặt của một người từ hình ảnh tĩnh của họ khi bỏ qua "các biến thể không liên quan", chẳng hạn như tư thế chụp ảnh và ánh sáng. Điều này cho phép các nhà khoa học dễ dàng so sánh các bản tái tạo giọng nói với các đặc trưng thực tế của người nói.

Một lần nữa, kết quả của AI rất gần với khuôn mặt thật trong rất nhiều các trường hợp được nghiên cứu từ nhiều độ tuổi, giới tính và dân tộc khác nhau.

Hình ảnh thực tế của người nói (bên trái), hình được tái tạo bởi AI
Hình ảnh thực tế của người nói (bên trái), hình được tái tạo bởi AI từ ảnh chụp của họ (ở giữa) và hình được tái tạo bởi AI từ giọng nói của họ (bên phải). (Ảnh: Speech2Face)

AI tái tạo chân dung từ giọng nói, có thể tạo ra hình ảnh hoạt hình của một người trên điện thoại hoặc cuộc gọi hội nghị truyền hình khi danh tính của người đó không xác định và họ không muốn chia sẻ khuôn mặt thực của mình.

Các nhà nghiên cứu đã viết trong bài báo được công bố tại một hội thảo về thị giác máy tính và nhận diện mẫu (CVPR): "Các khuôn mặt được tái tạo cũng có thể được sử dụng trực tiếp để gán cho giọng nói do máy tạo ra được sử dụng trong các thiết bị gia đình và trợ lý ảo".

Cơ quan thực thi pháp luật cũng có thể sử dụng AI để tạo ra một bức chân dung của kẻ tình nghi từ bằng chứng duy nhất là một đoạn ghi âm giọng nói. Tuy nhiên, các ứng dụng của chính phủ chắc chắn sẽ là chủ đề của rất nhiều tranh cãi và tranh luận liên quan đến quyền riêng tư và đạo đức.

AI tạo chân dung chỉ từ giọng nói.
AI tạo chân dung chỉ từ giọng nói. (Ảnh: Nhóm nghiên cứu Speech2Face)


Nguồn: /

Dùng AI để tạo ra các loại bia có hương vị hấp dẫn hơn

Các ngành công nghệ

Trí tuệ nhân tạo (AI) đang ngày càng đóng vai trò quan trọng, hỗ trợ cho con người trong nhiều lĩnh vực khác nhau. Giờ đây, các nhà khoa học đang muốn nhờ AI để giúp tạo ra những loại bia ngon hơn.

Trung Quốc tiến gần hơn chip lượng tử nhờ tạo ra nguồn sáng mới

Các ngành công nghệ

Các nhà nghiên cứu Trung Quốc sử dụng loại chất bán dẫn thông thường để tạo ra nguồn sáng lượng tử - thành phần quan trọng để chế tạo chip lượng tử.

Robot thụ phấn 6 tay hoạt động trong nhà kính

Các ngành công nghệ

Nhờ có 6 cánh tay, robot Stickbug có thể thụ phấn cho nhiều bông hoa cùng lúc với tốc độ 1,5 lần thụ phấn mỗi phút.

Tốc độ 6G trong thử nghiệm mới - nhanh hơn 500 lần so với 5G

Các ngành công nghệ

Một tập đoàn gồm các công ty ở Nhật Bản đã chế tạo thiết bị không dây 6G tốc độ cao đầu tiên trên thế giới.

Robot hình người đa năng tự phát triển đầu tiên của Trung Quốc

Các ngành công nghệ

Robot hình người Tiangong cao 1,63 m và nặng 43 kg trình làng tại Khu phát triển kinh tế - công nghệ Bắc Kinh hôm 27/4.

Tạo ra quần áo, túi xách có thể sạc điện thoại

Các ngành công nghệ

Các nhà khoa học Trung Quốc vừa giới thiệu loại túi xách và vải có thể sạc điện thoại vô cùng tiện lợi.

AI phát hiện 3 bệnh ung thư nguy hiểm chỉ với một giọt máu khô

Các ngành công nghệ

Một công cụ mới, với sự trợ giúp của trí tuệ nhân tạo (AI), có thể phát hiện 3 loại ung thư nguy hiểm nhất trong vòng vài phút, chỉ cần một giọt máu khô.

Các nhà khoa học Hàn Quốc phát triển phương pháp sản xuất nhanh kim cương trong 150 phút

Các ngành công nghệ

Các nhà khoa học phát triển quy trình sản xuất kim cương nhân tạo với kim loại lỏng ở mức nhiệt khoảng 1.000 độ C và áp suất thấp.

Thiết bị sản xuất điện nhiệt hạch đạt nhiệt độ 37 triệu độ C

Các ngành công nghệ

FuZe là thiết bị nhỏ giá rẻ có thể đạt nhiệt độ năng lượng nhiệt hạch nhanh chóng và đáp ứng nhu cầu điện của con người trong tương lai.

Google Maps sắp có tính năng mới siêu hữu ích, không còn lo đi lạc dù đi vào vùng mất sóng

Các ngành công nghệ

Với tính năng mới này, người dùng sẽ luôn biết vị trí của mình, không cần lo sợ đi lạc khi mất mạng di động hay đi vào những vùng mất sóng.