افزایش سه‌برابری سرعت Gemma 4 با قابلیت تازه گوگل

فناوری و دیجیتال

زهرا صفری

اردیبهشت 17, 1405
بدون نظر

به گزارش مدیاتی:گوگل از قابلیتی تازه برای مدل‌های هوش مصنوعی Gemma 4 رونمایی کرده که می‌تواند سرعت اجرای آن‌ها را تا سه برابر افزایش دهد. این بهبود با هدف ارتقای کارایی و کاهش زمان پردازش در کاربردهای مختلف هوش مصنوعی ارائه شده و به توسعه‌دهندگان کمک می‌کند مدل‌های Gemma را سریع‌تر و بهینه‌تر در پروژه‌ها و سرویس‌های خود به کار بگیرند.

شتاب قابل‌توجه در Gemma 4؛ قابلیت جدید گوگل سرعت اجرا را سه برابر می‌کند

گوگل بهار امسال مدل‌های متن‌باز Gemma 4 را معرفی کرد؛ مدل‌هایی که به‌ویژه برای اجرای آفلاین روی گوشی‌ و کامپیوتر طراحی شده‌اند. اکنون این شرکت با افزودن قابلیت تازه‌ای به نام پیش‌بینی چندتوکنی (MTP) سرعت این مدل‌ها را به شکل محسوسی افزایش داده است. به گفته گوگل، نسخه‌های آزمایشی مجهز به MTP قادرند چند توکن بعدی را به‌طور هم‌زمان پیش‌بینی کنند و همین موضوع باعث شده سرعت تولید متن نسبت به روش خودبازگشتی کلاسیک، تا سه برابر بیشتر شود.

مشکل اصلی: محدودیت پهنای باند حافظه در دستگاه‌های معمولی

یکی از چالش‌های اساسی اجرای مدل‌های محلی، محدودیت پهنای باند حافظه در سیستم‌هایی است که بدون حافظه‌های فوق‌سریع HBM کار می‌کنند. در بیشتر کامپیوترهای خانگی، حجم زیادی از چرخه پردازنده صرف انتقال داده بین حافظه گرافیکی و واحدهای محاسباتی می‌شود. از سوی دیگر، مدل‌های زبانی به‌طور پیش‌فرض به شیوه خودبازگشتی کار می‌کنند؛ یعنی برای تولید هر توکن، بدون توجه به میزان پیچیدگی آن، مقدار مشابهی توان پردازشی مصرف می‌شود.

قابلیت MTP این مانع را با استفاده از یک مفسر سبک‌وزن—مثلاً نسخه E2B با ۷۴ میلیون پارامتر—دور می‌زند. این مفسر از زمان‌های بیکار پردازنده استفاده کرده و توکن‌های بعدی را پیش‌بینی می‌کند. از آنجا که این مفسرها و مدل اصلی از حافظه مشترک KV Cache بهره می‌برند، از محاسبات تکراری جلوگیری می‌شود و سرعت پردازش افزایش می‌یابد.

چگونه سرعت بیشتر حاصل می‌شود؟

توکن‌هایی که مفسر پیش‌بینی می‌کند، به‌طور موازی توسط مدل اصلی بررسی و تأیید می‌شوند. اگر پیش‌بینی‌ها صحیح باشند، کل توالی در قالب یک عملیات واحد پذیرفته می‌شود؛ رویکردی که موجب بهبود چشمگیر کارایی و افزایش سرعت مدل می‌شود.

تفاوت Gemma 4 با Gemini

پایه فناوری Gemma 4 برگرفته از نسل پیشرفته هوش مصنوعی Gemini است؛ با این تفاوت که Gemini برای استفاده در دیتاسنترهای بزرگ و پردازش روی تراشه‌های TPU طراحی شده، اما Gemma برای اجرا روی سخت‌افزار شخصی کاربران بهینه شده است.

درحالی‌که Gemini از پهنای باند بسیار بالا و حافظه اختصاصی بهره می‌برد، نسخه‌های بزرگ Gemma طوری طراحی شده‌اند که بتوانند حتی با یک شتاب‌دهنده هوش مصنوعی تکی اجرا شوند. به کمک کوانتایزکردن، این مدل‌ها به‌راحتی روی کارت‌های گرافیک معمولی نیز قابل اجرا هستند؛ بدون اینکه نیاز باشد کاربر داده‌های خصوصی خود را به فضای ابری ارسال کند.

افزایش سرعت در دستگاه‌های مختلف

گوگل اعلام کرده این روش به دلیل راستی‌آزمایی تمامی پیش‌بینی‌ها توسط مدل اصلی، هیچ افت کیفیتی ایجاد نمی‌کند. نتایج آزمایش‌ها نیز قابل توجه بوده است:

گوشی‌های پیکسل

مدل E2B: افزایش سرعت ۲.۸ برابر
مدل E4B: افزایش سرعت ۳.۱ برابر
تراشه‌های M4 اپل

اجرای مدل ۳۱ میلیاردی Gemma 4 با افزایش سرعت ۲.۵ برابر
افزون‌بر این، بهره‌گیری از MTP موجب کاهش مصرف انرژی و افزایش طول عمر باتری در موبایل‌ها شده و امکان اجرای مدل‌های بسیار بزرگ‌تری مانند 26B MoE و 31B Dense را نیز روی سخت‌افزارهای متنوع فراهم کرده است.

امکان استفاده آزادتر و تست روی پلتفرم‌های مختلف

گوگل همچنین مجوز این مدل‌ها را به Apache 2.0 تغییر داده تا توسعه‌دهندگان آزادی بیشتری در استفاده و انتشار آن‌ها داشته باشند. مدل‌های جدید اکنون از طریق پلتفرم‌هایی مانند Ollama و SGLang قابل آزمایش هستند.