Smartphone
chỉ có thể biến giọng nói thành văn bản, nhưng AI này biến giọng nói thành khuôn mặt một cách chính xác.
Những bức ảnh được t?
??o ra nhờ ánh sáng, nhưng nếu chân dung của mọi người có thể được t?
??o ra bằng âm thanh giọng nói của họ thì sao? Một AI đang được nghiên cứu để tái tạo lại khuôn mặt một người
chỉ bằng đoạn ghi âm giọng nói ngắn của người đó, kết quả thu được rất ấn tượng và có hơi đáng sợ.
Các nhà khoa học trí tuệ nhân tạo tại Phòng thí nghiệm Khoa học Máy tính và Trí tuệ Nhân tạo MIT (CSAIL) lần đầu tiên công bố về thuật toán AI có tên là Speech2Face trong một bài báo vào năm 2019 và tiếp tục hoàn thiện cho đến nay.
Đầu tiên, các nhà nghiên cứu đã thiết kế và đào tạo một mạng neuron sâu (Deep neural Network) bằng cách sử dụng hàng triệu video cảnh mọi người nói chuyện từ YouTube và Internet. Trong quá trình đào tạo này, AI đã học được mối tương quan giữa âm thanh của giọng nói và diện mạo của người nói. Những mối tương quan này cho phép nó đưa ra phỏng đoán tốt nhất về độ tuổi, giới tính và sắc tộc của người nói.
Con người không trực tiếp tham gia vào quá trình đào tạo, vì các nhà nghiên cứu không cần phải phân loại thủ công bất kỳ dữ liệu nào - AI
chỉ đơn giản là được cung cấp một lượng lớn video và có nhiệm vụ tìm ra mối tương quan giữa các đặc điểm giọng nói và đặc điểm khuôn mặt.
Sau khi được đào tạo, AI dường như rất giỏi trong việc t?
??o ra các bức ảnh chân dung giống người thật khi
chỉ dựa trên bản ghi âm giọng nói. AI này hoạt động tốt hơn khi các đoạn ghi âm dài hơn.
Bên trái là khuôn mặt th?
?t và bên phải là mặt được AI t?
??o ra từ giọng nói
Để phân tích thêm độ chính xác của việc tái tạo khuôn mặt, các nhà nghiên cứu đã xây dựng một "bộ giải mã khuôn mặt" để t?
??o ra bản tham chiếu từ khuôn mặt gốc, bỏ qua những thứ không liên quan như tư thế và ánh sáng. Điều này cho phép các nhà khoa học dễ dàng so sánh hình ảnh tạo từ giọng nói với ảnh khuôn mặt của người nói.
Một lần nữa, kết quả của AI rất gần với khuôn mặt thật trong phần lớn các trường hợp.
Bên trái là mặt thật, ở giữa là khuôn mặt tham chiếu, bên phải là ảnh t?
??o ra bởi AI
Có một số trường hợp AI gặp khó khăn trong việc hình dung người nói trông như thế nào. Các yếu tố như trọng âm, ngôn ngữ và cao độ giọng nói là những yếu tố gây ra sự không khớp giữa giọng nói và khuôn mặt, trong đó giới tính, tuổi tác hoặc dân tộc không chính xác.
Những người có giọng cao (bao gồm cả các bé trai) thường được coi là nữ trong khi những người có giọng thấp được coi là nam. Một người đàn ông châu Á nói
tiếng Anh dẫn đến ngoại hình không giống người châu Á hơn so với khi anh ta nói
tiếng Trung Quốc.
AI đôi khi bị sai giới tính, chủng tộc, độ tuổi
Các nhà nghiên cứu cho biết họ đã có những cân nhắc về quyền riêng tư và đạo đức xung quanh dự án này. Tất cả các kế hoạch sử dụng thực tế (nếu có) cần phải được kiểm tra cẩn thận.
Cơ quan thực thi pháp luật có thể sử dụng AI để tạo chân dung kẻ tình nghi nếu bằng chứng duy nhất là một đoạn ghi âm giọng nói. Tuy nhiên, điều này có thể gây ra rất nhiều tranh cãi liên quan đến quyền riêng tư và đạo đức.
Mặt khác, nó có thể có tác động tiêu cực đến các nhà sáng tạo nội dung trên YouTube và TikTok, những người đang cố gắng bảo vệ cuộc sống riêng tư của họ khi
chỉ lồng
tiếng và không xuất hiện trước ống kính.
Dù một AI có thể t?
??o ra những chân dung chính xác của mọi người
chỉ từ giọng nói của họ là khái niệm hấp dẫn và thứ tưởng như
chỉ có trong khoa học viễn tưởng, nhưng đó không phải mục tiêu của các nhà nghiên cứu. Họ cho biết nghiên cứu nhằm cung cấp một cái nhìn toàn diện hơn về mối tương quan giữa khuôn mặt với giọng nói và có th?
?? m?? ra các cơ hội nghiên cứu và ứng dụng mới.
(Theo Pháp lu?
?t và Bạn đọc, Petapixel)
Đây là thời đại một bã kẹo cao su cũng có thể tiết lộ khuôn mặt bạn
Từ một sợi tóc cho đến vảy da chết, nước bọt dính trên miệng cốc cà phê, bã kẹo cao su hay đầu lọc thuốc lá. Bạn nghĩ những dấu vết này có thể tiết lộ thông tin gì của mình?
Nguồn bài viết : Thống kê XSMT