Bên cạnh Sora của OpenAI đang gây sốt toàn cầu, nhiều mô hình AI tạo video từ văn bản khác cũng hứa hẹn sẽ cách mạng hóa việc sáng tạo nội dung.
1. Sora
Sora là sản phẩm mới ra mắt của OpenAI - công ty tạo ra ChatGPT. Độ chân thực của các sản phẩm từ Sora cũng là chủ đề bàn luận trên nhiều hội nhóm mạng xã hội. Tuy nhiên, OpenAI vẫn cần hoàn thiện thêm sản phẩm nhằm đảm bảo sự an toàn, cũng như giữ cho hình ảnh chuyển động mượt mà hơn.
2. Lumiere
Theo Ars Technica, Lumiere của Google có thể tìm ra những chi tiết trong video, theo dõi cách chúng chuyển động và thay đổi cùng lúc. Hiện Lumiere chưa sẵn sàng để đưa ra công chúng nhưng Google có đủ khả năng phát triển những mô hình AI vượt trội so với các công cụ hiện tại như Runway hay Pika.
3. VideoPoet
VideoPoet là mô hình ngôn ngữ lớn (LLM) được đào tạo từ kho video, ảnh, âm thanh và văn bản khổng lồ. Công cụ này có thể thực hiện nhiều nhiệm vụ tạo video khác nhau từ nguồn vào là văn bản, ảnh, video, làm nổi bật video theo phong cách, nội dung... hay chuyển video thành âm thanh.
4. Emu Video
Một công ty công nghệ lớn khác là Meta cũng có mô hình AI làm video riêng mang tên Emu Video. Công cụ này hoạt động theo hai bước: đầu tiên sẽ chuyển hình ảnh thành văn bản, sau đó sử dụng văn bản và hình ảnh để tạo ra video.
Các đánh giá viên tham gia vào chương trình này cho biết 81% trong số họ thích Emu Video hơn Imagen Video của Google, 90% chọn công cụ này so với Pyoco (Nvidia) và 96% nhận định tốt hơn Make-A-Video của chính Meta. Thêm vào đó, mô hình Emu Video cũng "đánh bại" các lựa chọn khác như RunwayML và Pika Labs, theo Analyticsindiamag.
5. Phenaki
Mô hình này sử dụng văn bản để tạo video có độ dài tối đa hai phút. Phenaki được đánh giá linh hoạt và khả dụng cho các nhà phát triển để huấn luyện AI chuyển văn bản thành ảnh hoặc video. Họ có thể bắt đầu bằng các hình ảnh rồi từ đó tinh chỉnh thành video mà không gặp trở ngại trong quá trình đào tạo.
6. CogVideo
Một nhóm nhà nghiên cứu từ Đại học Thanh Hoa, Trung Quốc đã phát triển CogVideo, mô hình AI tạo sinh chuyển văn bản thành video được đào tạo trên dữ liệu quy mô lớn.
Nghệ sĩ Glenn Marshall trong lần thử nghiệm mô hình này đã ấn tượng tới mức phải thốt lên rằng giới đạo diễn có thể mất việc. Đoạn video The Crow do ông tạo bằng CogVideo cũng được đánh giá rất cao, thậm chí còn được tham dự giải thưởng Điện ảnh Viện Hàn lâm Anh (BAFTA).
(Theo: VNExpress)