به گزارش مدیاتی:گوگل از قابلیتی تازه برای مدلهای هوش مصنوعی Gemma 4 رونمایی کرده که میتواند سرعت اجرای آنها را تا سه برابر افزایش دهد. این بهبود با هدف ارتقای کارایی و کاهش زمان پردازش در کاربردهای مختلف هوش مصنوعی ارائه شده و به توسعهدهندگان کمک میکند مدلهای Gemma را سریعتر و بهینهتر در پروژهها و سرویسهای خود به کار بگیرند.
شتاب قابلتوجه در Gemma 4؛ قابلیت جدید گوگل سرعت اجرا را سه برابر میکند
گوگل بهار امسال مدلهای متنباز Gemma 4 را معرفی کرد؛ مدلهایی که بهویژه برای اجرای آفلاین روی گوشی و کامپیوتر طراحی شدهاند. اکنون این شرکت با افزودن قابلیت تازهای به نام پیشبینی چندتوکنی (MTP) سرعت این مدلها را به شکل محسوسی افزایش داده است. به گفته گوگل، نسخههای آزمایشی مجهز به MTP قادرند چند توکن بعدی را بهطور همزمان پیشبینی کنند و همین موضوع باعث شده سرعت تولید متن نسبت به روش خودبازگشتی کلاسیک، تا سه برابر بیشتر شود.
مشکل اصلی: محدودیت پهنای باند حافظه در دستگاههای معمولی
یکی از چالشهای اساسی اجرای مدلهای محلی، محدودیت پهنای باند حافظه در سیستمهایی است که بدون حافظههای فوقسریع HBM کار میکنند. در بیشتر کامپیوترهای خانگی، حجم زیادی از چرخه پردازنده صرف انتقال داده بین حافظه گرافیکی و واحدهای محاسباتی میشود. از سوی دیگر، مدلهای زبانی بهطور پیشفرض به شیوه خودبازگشتی کار میکنند؛ یعنی برای تولید هر توکن، بدون توجه به میزان پیچیدگی آن، مقدار مشابهی توان پردازشی مصرف میشود.
قابلیت MTP این مانع را با استفاده از یک مفسر سبکوزن—مثلاً نسخه E2B با ۷۴ میلیون پارامتر—دور میزند. این مفسر از زمانهای بیکار پردازنده استفاده کرده و توکنهای بعدی را پیشبینی میکند. از آنجا که این مفسرها و مدل اصلی از حافظه مشترک KV Cache بهره میبرند، از محاسبات تکراری جلوگیری میشود و سرعت پردازش افزایش مییابد.
چگونه سرعت بیشتر حاصل میشود؟
توکنهایی که مفسر پیشبینی میکند، بهطور موازی توسط مدل اصلی بررسی و تأیید میشوند. اگر پیشبینیها صحیح باشند، کل توالی در قالب یک عملیات واحد پذیرفته میشود؛ رویکردی که موجب بهبود چشمگیر کارایی و افزایش سرعت مدل میشود.
تفاوت Gemma 4 با Gemini
پایه فناوری Gemma 4 برگرفته از نسل پیشرفته هوش مصنوعی Gemini است؛ با این تفاوت که Gemini برای استفاده در دیتاسنترهای بزرگ و پردازش روی تراشههای TPU طراحی شده، اما Gemma برای اجرا روی سختافزار شخصی کاربران بهینه شده است.
درحالیکه Gemini از پهنای باند بسیار بالا و حافظه اختصاصی بهره میبرد، نسخههای بزرگ Gemma طوری طراحی شدهاند که بتوانند حتی با یک شتابدهنده هوش مصنوعی تکی اجرا شوند. به کمک کوانتایزکردن، این مدلها بهراحتی روی کارتهای گرافیک معمولی نیز قابل اجرا هستند؛ بدون اینکه نیاز باشد کاربر دادههای خصوصی خود را به فضای ابری ارسال کند.
افزایش سرعت در دستگاههای مختلف
گوگل اعلام کرده این روش به دلیل راستیآزمایی تمامی پیشبینیها توسط مدل اصلی، هیچ افت کیفیتی ایجاد نمیکند. نتایج آزمایشها نیز قابل توجه بوده است:
گوشیهای پیکسل
مدل E2B: افزایش سرعت ۲.۸ برابر
مدل E4B: افزایش سرعت ۳.۱ برابر
تراشههای M4 اپل
اجرای مدل ۳۱ میلیاردی Gemma 4 با افزایش سرعت ۲.۵ برابر
افزونبر این، بهرهگیری از MTP موجب کاهش مصرف انرژی و افزایش طول عمر باتری در موبایلها شده و امکان اجرای مدلهای بسیار بزرگتری مانند 26B MoE و 31B Dense را نیز روی سختافزارهای متنوع فراهم کرده است.

امکان استفاده آزادتر و تست روی پلتفرمهای مختلف
گوگل همچنین مجوز این مدلها را به Apache 2.0 تغییر داده تا توسعهدهندگان آزادی بیشتری در استفاده و انتشار آنها داشته باشند. مدلهای جدید اکنون از طریق پلتفرمهایی مانند Ollama و SGLang قابل آزمایش هستند.









