Danh sách bài viết

Những ví dụ cho thấy VideoPoet của Google sẽ trở thành đối thủ cạnh tranh đáng gờm của Sora của OpenAI

Cập nhật: 22/03/2024

Người dùng sẽ sớm chứng kiến VideoPoet và những hậu bối của nó sản sinh ra những video chân thực đến kinh ngạc.


Hoạt hóa bức tranh Mona Lisa từ hai hướng dẫn: "Một người phụ nữ quay ra nhìn về ống kính" và "Một người phụ nữ đang ngáp".

Khi làn sóng trí tuệ nhân tạo sinh chữ đang trên đà ổn định với những sản phẩm đang ngày một hoàn thiện, một làn sóng mới mang tên “mô hình AI sinh video” bắt đầu nở rộ. Tuy nhiên, những mô hình dạng này gặp vấn đề lớn trong việc sản sinh ra một loạt những chuyển động hợp lý trong mắt người xem.

Theo thời gian, những mô hình dạng này sẽ học hỏi được nhiều hơn, qua đó cho ra những sản phẩm chất lượng và chân thật hơn. Cái hay của chúng nằm tại quy trình ra sản phẩm khá đơn giản, chỉ cần khéo léo ra lệnh để AI sinh ra video hay các sản phẩm tương tự. Bên cạnh mô hình AI đương đối đa năng, có thể làm video từ câu lệnh, tạo video từ ảnh hay phong cách hóa video, v.v...

Hiện tại phần mềm Sora của OpenAI thu hút sự chú ý của dư luận khi công bố loạt loạt video sản sinh từ AI chân thực đến ngỡ ngàng, thế nhưng họ không đơn độc trên hành trình nghiên cứu trí tuệ nhân tạo. Google cũng sở hữu dự án tương tự của riêng mình có tên VideoPoet, đã đang phát triển được một thời gian và cũng có những sản phẩm rất ấn tượng.


Video từ hướng dẫn: "Hai con gấu trúc chơi bài".


Video từ hướng dẫn: "Ngựa phi nước đại trên nền bức tranh Starry Night của van Gogh".

Theo khẳng định từ các nhà nghiên cứu của Google, hình ảnh đầu vào có thể được hoạt hóa để tạo ra chuyển động, VideoPoet cũng có thể tự điền nội dung thiếu (ví dụ như phục hồi video gốc) hay sản sinh thêm nội dung cho video. 

Còn trong tác vụ phong cách hóa, mô hình AI sử dụng video mô tả độ sâu và hiệu ứng quang học, vốn có thể phô diễn chuyển động, rồi vẽ thêm nội dung lên trên để tạo ra phong cách theo hướng dẫn của người dùng. Dưới đây là sản phẩm sau khi phong cách hóa một video cũng sinh ra từ mô hình AI của Google.


Hướng dẫn của các video (từ trái sang phải): "Con wombat đeo kính râm ôm một quả bóng chuyền trên bãi biển"; "Gấu bông trượt băng trên một hồ nước đóng băng"; "Một con sư tử kim loại gầm lên trong ánh sáng của lò rèn".

Dựa trên 1 giây cuối cùng trong video, mô hình AI có thể tạo ra video dài hơn thông qua dự đoán nội dung có thể diễn ra trong giây tiếp theo. Lặp lại quá trình này, VideoPoet không chỉ có thể mở rộng video dễ dàng mà còn giữ nguyên dạng các đối tượng xuất hiện trong đoạn clip ngắn.


Video từ hướng dẫn: "Một nhà du hành vũ trụ bắt đầu nhảy trên Sao Hỏa. Rồi pháo hoa rực rỡ nổ từ đằng sau".

VideoPoet cũng có khả năng tạo ra âm thanh. Với các đoạn clip dài 2 giây, AI cố gắng dự đoán âm thanh mà không cần hướng dẫn bằng văn bản. Điều này cho phép tạo ra video và âm thanh từ một mẫu duy nhất.


Sản sinh âm thanh từ nội dung gấu bông đánh trống.


Sản sinh âm thanh từ nội dung mèo chơi piano.

Thông qua VideoPoet, Google chứng minh chất lượng cực kỳ cạnh tranh của các mô hình ngôn ngữ lớn, không chỉ sản sinh nội dung văn bản mà còn tạo video bắt mắt, chân thực.

Kết quả cho thấy tiềm năng hứa hẹn của các mô hình ngôn ngữ lớn trong lĩnh vực tạo video. Trong tương lai, những mô hình AI dạng này có thể sản sinh nội dung dựa trên nhiều hướng dẫn đầu vào, như dùng văn bản tạo ra âm thanh, tạo video từ câu nói, tự động mô tả video, và nhiều ứng dụng khác.


    Nguồn: /

    Dùng AI để tạo ra các loại bia có hương vị hấp dẫn hơn

    Các ngành công nghệ

    Trí tuệ nhân tạo (AI) đang ngày càng đóng vai trò quan trọng, hỗ trợ cho con người trong nhiều lĩnh vực khác nhau. Giờ đây, các nhà khoa học đang muốn nhờ AI để giúp tạo ra những loại bia ngon hơn.

    Trung Quốc tiến gần hơn chip lượng tử nhờ tạo ra nguồn sáng mới

    Các ngành công nghệ

    Các nhà nghiên cứu Trung Quốc sử dụng loại chất bán dẫn thông thường để tạo ra nguồn sáng lượng tử - thành phần quan trọng để chế tạo chip lượng tử.

    Robot thụ phấn 6 tay hoạt động trong nhà kính

    Các ngành công nghệ

    Nhờ có 6 cánh tay, robot Stickbug có thể thụ phấn cho nhiều bông hoa cùng lúc với tốc độ 1,5 lần thụ phấn mỗi phút.

    Tốc độ 6G trong thử nghiệm mới - nhanh hơn 500 lần so với 5G

    Các ngành công nghệ

    Một tập đoàn gồm các công ty ở Nhật Bản đã chế tạo thiết bị không dây 6G tốc độ cao đầu tiên trên thế giới.

    Robot hình người đa năng tự phát triển đầu tiên của Trung Quốc

    Các ngành công nghệ

    Robot hình người Tiangong cao 1,63 m và nặng 43 kg trình làng tại Khu phát triển kinh tế - công nghệ Bắc Kinh hôm 27/4.

    Tạo ra quần áo, túi xách có thể sạc điện thoại

    Các ngành công nghệ

    Các nhà khoa học Trung Quốc vừa giới thiệu loại túi xách và vải có thể sạc điện thoại vô cùng tiện lợi.

    AI phát hiện 3 bệnh ung thư nguy hiểm chỉ với một giọt máu khô

    Các ngành công nghệ

    Một công cụ mới, với sự trợ giúp của trí tuệ nhân tạo (AI), có thể phát hiện 3 loại ung thư nguy hiểm nhất trong vòng vài phút, chỉ cần một giọt máu khô.

    Các nhà khoa học Hàn Quốc phát triển phương pháp sản xuất nhanh kim cương trong 150 phút

    Các ngành công nghệ

    Các nhà khoa học phát triển quy trình sản xuất kim cương nhân tạo với kim loại lỏng ở mức nhiệt khoảng 1.000 độ C và áp suất thấp.

    Thiết bị sản xuất điện nhiệt hạch đạt nhiệt độ 37 triệu độ C

    Các ngành công nghệ

    FuZe là thiết bị nhỏ giá rẻ có thể đạt nhiệt độ năng lượng nhiệt hạch nhanh chóng và đáp ứng nhu cầu điện của con người trong tương lai.

    Google Maps sắp có tính năng mới siêu hữu ích, không còn lo đi lạc dù đi vào vùng mất sóng

    Các ngành công nghệ

    Với tính năng mới này, người dùng sẽ luôn biết vị trí của mình, không cần lo sợ đi lạc khi mất mạng di động hay đi vào những vùng mất sóng.