انویدیا از فناوری Helix برای بهبود سرعت و پاسخگویی هوش مصنوعی رونمایی کرد
تکنیک Helix Parallelism به هوش مصنوعی اجازه میدهد تا با همان سرعت قبل به کاربران بیشتری پاسخ دهد.

به گزارش چابک آنلاین به نقل از دیجیاتو، انویدیا از یک تکنیک موازیسازی به نام «هلیکس پاراللیسم» (Helix Parallelism) پرده برداشته است که به مدلهای هوش مصنوعی اجازه میدهد تا حجم عظیمی از اطلاعات را پردازش کنند و با همان سرعت بهطور همزمان به ۳۲ برابر کاربر بیشتر پاسخ دهند. این فناوری بهطور ویژه برای معماری پردازشگرهای گرافیکی جدید بلکول (Blackwell) طراحی شده است.
با بزرگتر و پیچیدهتر شدن مدلهای هوش مصنوعی، یکی از مهمترین مسائل آنها توانایی پردازش حجم عظیمی از اطلاعات زمینه (Context) در هنگام تولید پاسخهای آنی است. اکنون انویدیا با معرفی Helix Parallelism راهحلی برای این مشکل ارائه کرده است.
معرفی فناوری Helix انویدیا
مدلهای زبان بزرگ برای تولید هر کلمه جدید، با دو چالش اساسی روبهرو هستند:
- آنها باید بهطور مداوم کل تاریخچه مکالمه (که در حافظهای به نام KV Cache ذخیره شده) را اسکن کنند که این فرایند پهنای باند حافظه پردازشگر گرافیکی (GPU) را به شدت تحت فشار قرار میدهد.
- همزمان، برای پردازش هر کلمه، باید وزنهای عظیم «شبکه عصبی پیشخور» (FFN) از حافظه بارگذاری شوند که این امر باعث کندی و افزایش تأخیر، بهویژه در کاربردهای آنی و زنده مانند چتباتها میشود.
فناوری هلیکس با یک رویکرد هوشمندانه، این دو فرایند را از هم جدا و به صورت بهینه مدیریت میکند:
- موازیسازی KV: در مرحله اول، هلیکس بهجای کپیکردن کل حافظه مکالمه (KV Cache) روی تمام GPUها، آن را به صورت هوشمندانه بین پردازندههای مختلف تقسیم میکند. این کار از تکرار بیهوده دادهها جلوگیری میکند و فشار روی حافظه را به شدت کاهش میدهد.
- استفاده مجدد از منابع: در مرحله بعد، همان GPUها بلافاصله وظیفه خود را تغییر میدهند و با استفاده از روش «موازیسازی تنسوری» (TP) به پردازش لایه FFN میپردازند. این جابهجایی هوشمندانه باعث میشود پردازندهها همیشه فعال باقی بمانند و زمان بیکاری به حداقل برسد.
این فرایند پیچیده با استفاده از فناوریهای اتصال پرسرعت انویدیا مانند NVLink و NVL72 و همچنین تکنیکی به نام HOP-B ممکن شده است.
نتایج شبیهسازیها با یک مدل زبانی بزرگ، عملکرد فوقالعاده این فناوری را به اثبات رسانده است؛ هلیکس میتواند با حفظ همان سرعت و تأخیر، به ۳۲ برابر کاربر بیشتر بهصورت همزمان سرویس بدهد. همچنین در شرایط بار کاری کمتر، زمان پاسخگویی (تأخیر بین تولید هر کلمه) تا ۱.۵ برابر کاهش مییابد.
این پیشرفت به این معناست که دستیارهای مجازی و چتباتهای هوش مصنوعی اکنون میتوانند میلیونها کلمه اطلاعات را بهصورت آنی پردازش کنند و درعینحال، پاسخگویی و سرعت خود را در تعامل با کاربر حفظ کنند.