انویدیا با همکاری دانشگاه MIT هوش مصنوعی SANA را منتشر کرد

انویدیا و دانشگاه‌های همکار به تازگی مدل هوش مصنوعی SANA را معرفی کرده‌اند که به عنوان یک ابزار کارآمد برای طراحان و محققان طراحی شده است.

این مدل دارای ویژگی‌های برجسته‌ای از جمله فشرده‌سازی عمیق خودرمزگذار (DC-AE) است که مقیاس فشرده‌سازی را تا ۳۲ برابر افزایش می‌دهد.

این فناوری با کاهش تعداد توکن‌های نهفته (Latent Tokens) به ۱۶ برابر، فرآیند آموزش و تولید تصاویر با وضوح بالا را تسهیل می‌کند.

دیگر ویژگی‌های SANA شامل استفاده از DiT خطی است که پیچیدگی محاسباتی را از O(N²) به O(N) کاهش می‌دهد و زمان پردازش تولید تصاویر 4K را تا ۱/۷ برابر سریع‌تر می‌کند.

همچنین، این مدل از مدل Gemma به‌عنوان کدکننده متن بهره می‌برد که بهبود قابل توجهی در هماهنگی بین متن و تصویر فراهم می‌آورد.

آزمایش‌ها نشان می‌دهد که مدل SANA-0.6B با وجود اندازه بسیار کوچک‌تر نسبت به مدل‌های بزرگ‌تر، بیش از ۱۰۰ برابر سریع‌تر عمل می‌کند و قادر است تصاویر با وضوح ۱۰۲۴ در ۱۰۲۴ را در کمتر از یک ثانیه تولید کند.

این مدل برتری‌های قابل توجهی در معیارهای FID، امتیاز CLIP و GenEval نسبت به مدل‌های رقیب نشان داده است.

با معرفی SANA، انویدیا و دانشگاه‌های همکار گام بزرگی در عرصه هوش مصنوعی و تولید محتوای تصویری با کیفیت و هزینه پایین برداشته‌اند که می‌تواند به عنوان ابزاری کلیدی در دست طراحان محتوا و پژوهشگران آینده به کار گرفته شود.

انویدیا با همکاری دانشگاه MIT هوش مصنوعی SANA را منتشر کرد

دسترسی سریع در شبکه های اجتماعی

کلیه حقوق این سایت متعلق به کاپیتان وب است.