اینتل پردازنده‌ هوش مصنوعی را روی درگاه M.2 نصب می‌کند

اینتل با دستکاری طراحی اولیه‌ی پردازنده‌های نسل 10 آیس لیک، می‌خواهد آن‌ها را برای فشار کاری ناشی از استنتاج‌های هوش مصنوعی آماده کند.

دراین مقاله به بررسی پردازنده هوش مصنوعی روی درگاهM.2 می پردازیم.

اینتل (Intel) چندی پیش اعلام کرد پردازنده‌ی شبکه‌ی عصبی استنتاجی نیروانا (Nervana Neural Network Processor for Inference)، یا به اختصار NNP-I، مانند یک پردازنده‌ی ۱۰ نانومتری آیس لیک (Ice Lake) طراحی می‌شود که روی یک بورد به درگاه M.2 متصل خواهد شد.

بله درست خواندید روی یک درگاه M.2 نصب خواهد شد این نوع از درگاه‌ها معمولا برای ذخیره‌سازی استفاده می‌شوند.همچنین،اینتل برای ایجاد فضای کافی برای شتاب‌دهنده‌های هوش مصنوعی، مواردی مانند هسته‌های گرافیکی و بلوک‌های نمایشگر را که بخش‌های مهمی از پردازنده‌ی آیس لیک هستند، حذف کرده است.

 

اکنون دیگر دنیای هوش مصنوعی به‌طور کامل در برابر چشمان انسان‌ها قدبرافراشته و کم‌کم خیز برمی‌دارد تا تحولاتی
در محاسبات گوشی‌های همراه، لپ‌تاپ‌ها و کامپیوترهای رومیزی ایجاد کند.اما هنوز هم بیشتر حجم کاری هوش مصنوعی در مراکز داده‌ای اتفاق می‌افتد.کارهای آموزشی که نیاز زیادی به محاسبات دارد.

اصل مهم در استفاده از توانمندی هوش مصنوعی در مقیاس بزرگ مربوط‌ به استقرارمدل‌های تکمیل‌شده‌ای است که ازطریق مرتب‌سازی و تجزیه‌وتحلیل روزانه‌ی داده‌های جهان، آن‌ها را بررسی می‌کند.
این همان کاری است که استنتاج نامیده می‌شود.
حجم کاری فرایندهای استنتاجی بسیار سبک‌تر از حجم کاری فرایندهای آموزشی است.
بنابراین ایجاد مدل برای آن‌ها مستلزم استفاده از پردازنده‌ها و FPGAهای قدرتمند نیست.

اما این کار هم مانند هر نوع کار محاسباتی دیگر در انتها به یک موضوع ختم می‌شود:

به عبارت دیگر، پیش‌هزینه‌ی ارزان برمبنای «عملکرد در ازای وات» برای استنتاج از اهمیت بیشتری برخوردار است.
اینتل به این فکر می‌کند که شتاب‌دهنده‌های NNP-I خودرا در یک درگاه M.2 جای بدهد.
این کار برای کاستن از حجم کاری ناشی از استنتاج‌های زیاد در سرورهای Xeon انجام می‌شود و تراشه‌ی بزرگ‌تر
را برای کارهای محاسباتی عمومی آزاد می‌کنند.

 

 

 

 

 

پردازنده هوش مصنوعی درگاهM.2

اینتل بلوک پردازنده در طراحی اصلی آیس لیک (که در تصویر بالا نشان داده شده است) را طوری دستکاری کرد .

تا برای حجم کاری هوش مصنوعی مناسب باشد.
پکیج استاندارد آیس لیک به همراه پردازنده و هاب کنترلر پلتفرم (PCH)در این قطعه روی یک بورد واحد قرار گرفته‌اند.
اما اینتل بلوک‌های نمایشگر و GPU را از روی این سطح برداشته و جای آن‌ها را به موتور سفارشی‌سازی‌شده‌ی هوش مصنوعی داده است.
علاوه بر این، اینتل موتورهای DSP را هم به آن‌ها اضافه کرده است.
این موتورها برای الگوریتم‌هایی استفاده می‌شوند که مخصوص بلوک‌های شتاب‌دهنده با عملکرد ثابت نیست و به سازگاری مدنظر برای فضای هوش مصنوعی سریع‌العمل کمک می‌کند.

 

اینتل جزئیات بیشتری از بلوک‌های شتاب‌دهنده فاش نکرده است.
به احتمال زیاد آن‌ها از مجموعه‌ای از عناصر تکراری استفاده می‌کنند که شباهت زیادی به یک پردازنده‌ی گرافیکی دارد. با وجود زیرسیستم قدرتمند حافظه‌ی Gen11 که هم‌اکنون در این فناوری قدرتمند استفاده می‌شود.
به احتمال زیاد شرکت تصمیم خواهد گرفت که جای واحدهای اجرای گرافیک (EU)را با منطق سفارشی عوض کند (یا شاید واحدهای موجود را اصلاح کند).
این در حالی است که باید ساختارهای تکمیلی و اتصالی بین واحدها را به همان صورت حفظ کند.

 

پردازنده در این طراحی همچنان دارای چندین هسته‌ی محاسباتی معماری اینتل x86 هستند.
البته، اینتل تعداد هسته‌هایی که از میکرو معماری Sunny Cove استفاده می‌کنند، را فاش نکرده است.
اورین گرشان (Oren Gershon)، مدیر کل بخش مهندس محصولات استنتاجی در اینتل، توضیح واضحی نمی‌دهد و تنها می‌گوید چندتا از هسته‌ها را حذف کرده‌اند تا فضای خالی کافی برای قطعات دیگر فراهم شود.
بنابراین شاید این پردازنده‌های آیس لیک چهار هسته‌ای از حالا به بعد فقط دو هسته‌ای باشند.

پردازنده هوش مصنوعی درگاهM.2

اینتل این پکیج را روی انواع مختلفی از کارت‌های توسعه نصب می‌کند.
برای مثال نوع M.2 که بالا نشان داده شده است.
این قابلیت را دارد که به درگاه استاندارد M.2 در یک مادربورد سرور متصل شود.
حتی می‌توان آن را به کارت‌های توسعه‌ای بزرگ‌تر روی اسلات PCIe هم متصل کرد.
برخلاف برخی از سیلیکون‌های سفارشی مانند TPU گوگل که برای هوش مصنوعی طراحی شده‌اند، این دستگاه از نظر سخت‌افزاری تقریبا با همه‌ی سرورهای مدرن موجود سازگاری کامل دارد.

این رویکرد کاملا مقیاس‌پذیر است:
می‌توان هرچند NNP-I که لازم باشد را به سرور اضافه کرد.استفاده از کارت‌های رایزری که در درگاه‌های M.2 قرار می‌گیرند.

اینتل می‌گوید NNP-I از نظر توان طراحی حرارتی (TDP) برابر با پردازنده‌های آیس لیک است .
حداکثر TDPدرنظر گرفته‌شده برای آن‌ها درحدود ۲۸ وات است .
اما باید توجه داشت که محدودیت ۱۵ واتی در رابط‌های M.2 مانع از انتقال قدرت به دستگاه‌های کوچک‌تر می‌شود.
اگر NNP-I به کارت‌های توسعه وصل شوند خواهند توانست با حداکثر TDP فعالیت کنند؛ یعنی عملکرد خیلی بهتری خواهند داشت.

پردازنده هوش مصنوعی درگاهM.2

اینتل برای انتقال کامل وظایف استنتاجی به شتاب‌دهنده از نرم‌افزار مخصوصی استفاده خواهد کرد تا پردازنده‌ی Xeon را از تکمیل کار آگاه کند.
این انتقال باعث حذف ارتباطات رفت‌وبرگشتی در گذرگاه PCIe با شتاب‌دهنده‌های دیگر می‌شود.
این کار بار اضافی به پردازنده تحمیل می‌کند.چرا که ایجاد وقفه می‌کند و داده‌ها را به حرکت وامی‌دارد.
در مقابل NNP-I به‌عنوان یک سیستم مستقل با سازوکار ورودی/خروجی خود (PCH) عمل می‌کند .
امکان دسترسی به داده‌های موردنیاز برای پردازش را فراهم می‌کند.
عملیات‌های مربوط‌به هوش مصنوعی داده‌ها را باولع تمام می‌بلعند.

همین عامل موجب می‌شود که اتصال۳ در ۴ و نسبتا باریک PCIe به‌صورت تنگنایی در پهنای باند به نظر برسد.
اما، اینتل به کاربرانش اطمینان می‌دهد که فشار کاری تحلیلی ویدیویی با داده‌های زیاد را تست کرده و هیچ محدودیتی در آن ندیده است.بلکه برعکس؛ اینتل معتقد است این نوع از حجم‌های کاری در واقع از نظر محاسباتی محدود هستند.هسته‌های x86 از دستورالعمل یادگیری عمیق VNNI اینتل (که به نام DL Boost هم شناخته می‌شود) پشتیبانی می‌کند.

این دستورالعمل از AVX-512 برای ارتقای عملکرد استفاده می‌کند.
اینتل ادعا می‌کند انعطاف‌پذیری بالای حاصل از این کارتقریبا مناسب هر نوع از حجم کاری هوش مصنوعی است.
به‌ویژه مواردی که از تناسب کافی برای موتورهای هوش مصنوعی یا DSP برخوردار نیستند.
علاوه‌براین، اینتل کامپایلری ارائه کرده است که کد را با شتاب‌دهنده‌های NNP-I سازگار می‌کند.

فیسبوک، در طور توسعه‌ی این فناوری، «شریک تعریفی» اینتل برای حصول اطمینان از پشتیبانی کامپایلر Glo از این قطعه‌ی سخت‌افزاری بود. از این گذشته، این دستگاه از همه‌ی زبان‌های استاندارد مانند PyTorch و TensorFlow هم، با کمترین تغییرات، پشتیبانی می‌کند.

پردازنده هوش مصنوعی درگاهM.2

موضوع بسیار مهم‌تری که گرشون به آن اشاره می‌کند آن است که کارایی NNP-I بسیار شگفت‌انگیز و بسیار بهتر
از CPU یا GPUهایی است که دستورهای چندگانه‌ای دارند.
اینتل قصد ندارد این دستگاه‌ها را به‌تنهایی و بصورت خرده‌فروشی به بازار عرضه کند.
بلکه می‌خواهد کاری کند که CSPها در آینده ازطریق نمونه‌های مبتنی بر کلاد با این فناوری آشنا شوند.

اینتل هنوز هیچ اطلاعات عملکردی در پشتیبانی از ادعای جسورانه‌ی خود در زمینه‌ی کارایی حاصل از این محصول رو نکرده است؛ بلکه تنها نمونه‌هایی از آن را در اختیار چند مشتری قرار داده است و پیش‌بینی می‌کند که تولید انبوه آن در ادامه‌ی سال جاری آغاز خواهد شد. انتظار می‌رود انویدیا، تولیدکننده‌ی GPUهای Tesla T4 برای عملیات‌های استنتاجی، و کوالکام، توسعه‌دهنده‌ی پردازنده‌های Cloud AI 100 مبتنی بر M.2، این ادعاها و مقالات را به دقت دنبال کنند.

 

 

ما را در شبکه های اجتماعی دنبال کنید⇓

         فیسبوک دلیران   aparat deliran

 

 

 

مدیر
ارسال دیدگاه

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *