انویدیا و دانشگاههای همکار به تازگی مدل هوش مصنوعی SANA را معرفی کردهاند که به عنوان یک ابزار کارآمد برای طراحان و محققان طراحی شده است.
این مدل دارای ویژگیهای برجستهای از جمله فشردهسازی عمیق خودرمزگذار (DC-AE) است که مقیاس فشردهسازی را تا ۳۲ برابر افزایش میدهد.
این فناوری با کاهش تعداد توکنهای نهفته (Latent Tokens) به ۱۶ برابر، فرآیند آموزش و تولید تصاویر با وضوح بالا را تسهیل میکند.
دیگر ویژگیهای SANA شامل استفاده از DiT خطی است که پیچیدگی محاسباتی را از O(N²) به O(N) کاهش میدهد و زمان پردازش تولید تصاویر 4K را تا ۱/۷ برابر سریعتر میکند.
همچنین، این مدل از مدل Gemma بهعنوان کدکننده متن بهره میبرد که بهبود قابل توجهی در هماهنگی بین متن و تصویر فراهم میآورد.
آزمایشها نشان میدهد که مدل SANA-0.6B با وجود اندازه بسیار کوچکتر نسبت به مدلهای بزرگتر، بیش از ۱۰۰ برابر سریعتر عمل میکند و قادر است تصاویر با وضوح ۱۰۲۴ در ۱۰۲۴ را در کمتر از یک ثانیه تولید کند.
این مدل برتریهای قابل توجهی در معیارهای FID، امتیاز CLIP و GenEval نسبت به مدلهای رقیب نشان داده است.
با معرفی SANA، انویدیا و دانشگاههای همکار گام بزرگی در عرصه هوش مصنوعی و تولید محتوای تصویری با کیفیت و هزینه پایین برداشتهاند که میتواند به عنوان ابزاری کلیدی در دست طراحان محتوا و پژوهشگران آینده به کار گرفته شود.
کاپیتان وب در کنار شماست تا کسبوکارتان را در دنیای دیجیتال به بهترین شکل معرفی کند! از طراحی سایتهای فروشگاهی و خدماتی گرفته تا تولید محتوای حرفهای و سئو، ما هر آنچه نیاز دارید در اختیارتان قرار میدهیم. به تیم حرفهای ما بپیوندید و مسیر موفقیت آنلاین خود را با اعتماد و اطمینان بسازید.