NVIDIA DGX স্পার্কের জন্য দুটি সংজ্ঞায়িত বৈশিষ্ট্য আলাদা: $4,000 ডেস্কটপ ইউনিটে 128GB ইউনিফাইড মেমরি এবং একটি বিল্ট-ইন 200Gb ডেটাসেন্টার-গ্রেড নেটওয়ার্ক। উচ্চ-গতির ফ্যাব্রিক এটিকে নিয়মিত ওয়ার্কস্টেশন থেকে আলাদা করে, মাল্টি-নোড ক্লাস্টারিং সক্ষম করে যা একবার র্যাক-মাউন্ট করা সার্ভারের জন্য একচেটিয়া। এই পর্যালোচনা বেঞ্চমার্কগুলি বিভিন্ন মডেল এবং কাজের চাপ জুড়ে দুই-নোড 200GbE ক্লাস্টারে Dell, GIGABYTE, এবং HP Spark ভেরিয়েন্ট জুড়ে অনুমান বিতরণ করেছে। এটি পাইপলাইন সমান্তরালতা (PP) বিশ্লেষণ করে, একটি বিকল্প বিভাজন পদ্ধতি যা NVIDIA-এর ডিফল্ট টেনসর সমান্তরালতা (TP) কে ছাড়িয়ে যায়।
200Gb নেটওয়ার্ক ফ্যাব্রিক
প্রতিটি স্পার্ক একটি সমন্বিত ConnectX-7 SmartNIC এর সাথে যুক্ত দুটি QSFP56 খাঁচা সজ্জিত করে। PCIe Gen5 x4 ব্যান্ডউইথ দ্বারা সীমিত, 200Gb-এ ব্যবহারযোগ্য নেটওয়ার্ক স্পিড ক্যাপ, সম্পূর্ণ ব্যান্ডউইথের জন্য যথেষ্ট একটি পোর্ট সহ; দ্বিতীয় পোর্ট টপোলজি নমনীয়তা প্রদান করে। তিনটি সাধারণ কনফিগারেশন উপলব্ধ: সরাসরি স্পার্ক-টু-স্পার্ক 200Gb লিঙ্ক, দ্বৈত 100Gb পোর্টের মাধ্যমে সুইচ-ফ্রি রিং টপোলজি এবং NVMe-oF হাই-স্পিড স্টোরেজ অ্যাক্সেস সহ হাইব্রিড ক্লাস্টারিং। NVIDIA একক-ইউনিট ডেস্কটপ, বৈধ দুই-নোড ক্লাস্টার এবং নতুন প্রকাশিত চার-নোড সেটআপ বিক্রি করে। দ্বৈত-স্পার্ক কনফিগারেশন উৎপাদন-শৈলী অনুমান এবং এই পরীক্ষার ফোকাসের জন্য সবচেয়ে ব্যবহারিক।
স্পার্ক ক্লাস্টারিং জন্য যুক্তি
প্রাথমিক সুবিধা হল মডেলের ক্ষমতা প্রসারিত করা: দুটি লিঙ্কযুক্ত স্পার্ক 120B-প্যারামিটার মডেল চালাতে পারে যা একক-ইউনিট মেমরি সীমা অতিক্রম করে। আরও গুরুত্বপূর্ণ, প্ল্যাটফর্মটি একটি সাশ্রয়ী মূল্যের শিক্ষামূলক সরঞ্জাম হিসাবে কাজ করে। NVIDIA নতুনদের জন্য AI ওয়ার্কফ্লো শেখার জন্য স্পার্ক ডিজাইন করে, যেখানে অফিসিয়াল গাইড মডেল স্থাপন, ফাইন-টিউনিং এবং PyTorch/JAX ডেভেলপমেন্ট কভার করে। ডুয়াল-নোড ক্লাস্টারগুলি ব্যয়বহুল ডেটাসেন্টার হার্ডওয়্যার ছাড়াই মাল্টি-নোড সমান্তরালতা এবং নেটওয়ার্ক বটলনেক বিশ্লেষণ শেখায়। উল্লেখযোগ্যভাবে, স্পার্ক উৎপাদন অনুমানের জন্য অপ্টিমাইজ করা হয় না। মেমরি ব্যান্ডউইথ এবং ইন্টার-নোড লেটেন্সি দ্বারা সীমাবদ্ধ, এর 200GbE লিঙ্কটি অভ্যন্তরীণ PCIe সংযোগের চেয়ে ধীর। বৃহত্তর ক্লাস্টারগুলি কম টোকেন থ্রুপুট সহ, ব্যবসায়িক পরিবেশনের পরিবর্তে শিক্ষাগত ব্যবহারে সীমাবদ্ধ করে মারাত্মক কর্মক্ষমতা হ্রাস পায়।
কর্মক্ষমতা পরীক্ষা: পিপি বনাম টিপি
সমান্তরাল কৌশল নির্বাচন
NVIDIA ডিফল্ট TP-তে, যা প্রতিটি ট্রান্সফরমার স্তরকে দুটি GPU জুড়ে বিভক্ত করে যাতে ঘন ঘন সমস্ত-কমানো ডেটা এক্সচেঞ্জ হয়। বিপরীতে, PP মডেলগুলিকে স্তর দ্বারা বিভক্ত করে, নোডগুলির মধ্যে শুধুমাত্র একবার সক্রিয়করণ স্থানান্তর করে। 200GbE লিঙ্কগুলিতে, PP ক্রস-নোড যোগাযোগ কমিয়ে দেয়। উচ্চ ব্যাচ আকারে বড় মডেলের জন্য, PP ব্যাপকভাবে TP-কে ছাড়িয়ে যায়; TP শুধুমাত্র একক-অনুরোধের লো-লেটেন্সি চ্যাট পরিস্থিতিতে উৎকৃষ্ট।
GPT-OSS-120B-এর পরীক্ষা এই ব্যবধান নিশ্চিত করে। ব্যাচ সাইজ 128-এ, PP ভারসাম্যপূর্ণ কাজের চাপে 554.69 টোক/সেকেন্ড (TP-এর চেয়ে 2.20× দ্রুত) হিট করে, প্রিফিল-ভারী কাজগুলিতে 310.63 টোক/সে বনাম 164.99 টোক/সেকেন্ড। TP শুধুমাত্র ব্যাচ সাইজ 1 এ এগিয়ে যায়। Llama-3.1-8B-এর মত ছোট মডেলের জন্য, TP লাইটওয়েট লেয়ার কম্পিউটেশনের কারণে বেশিরভাগ ব্যাচের মাপকে প্রাধান্য দেয়, যেখানে পিপি কেবলমাত্র উচ্চ সঙ্গতিতে TP-কে ছাড়িয়ে যায়।
মাল্টি-মডেল বেঞ্চমার্ক ফলাফল (PP=2)
GPT-OSS সিরিজ
GPT-OSS-120B-এর জন্য, HP ভারসাম্যপূর্ণ (504.88 টোক/সেকেন্ড) এবং প্রিফিল-হেভি (441.63 টোক/সে) কাজের চাপে শীর্ষে রয়েছে; GIGABYTE নেতৃত্বাধীন ডিকোড-ভারী পরীক্ষা (494.37 tok/s)। GPT-OSS-20B-এর জন্য, ডেল ভারসাম্যপূর্ণ (976.77 টোক/সে) এবং প্রিফিল-হেভি (852.39 টোক/সে) দৃশ্যকল্পে আধিপত্য বিস্তার করে, যখন GIGABYTE ডিকোড কাজগুলি (945.55 টোক/সে) নেতৃত্বে।
Llama 3.1 8B ভেরিয়েন্ট
BF16 নির্ভুলতায়, ডেল ভারসাম্যপূর্ণ (689.53 টোক/সে) এবং ডিকোড-ভারী (581.43 টোক/সে) কাজের চাপের নেতৃত্ব দেয়; GIGABYTE প্রিফিল-ভারী পরীক্ষা জিতেছে (539.27 tok/s)। FP4 অপ্টিমাইজেশান থ্রুপুটকে তীক্ষ্ণভাবে বুস্ট করেছে: GIGABYTE ভারসাম্যপূর্ণ (1458.86 tok/s) এবং প্রিফিল-হেভি (954.23 tok/s) টাস্ক। FP8-এর জন্য, ডেল সুষম (1105.42 টোক/সে) এবং ডিকোড-হেভি (862.33 টোক/সে) পরিস্থিতিতে সংকীর্ণ লিড বজায় রেখেছে।
মিস্ট্রাল এবং কুয়েন মডেল
Mistral Small 3.1 24B ন্যূনতম ফাঁক দেখেছে: ভারসাম্যপূর্ণ কাজের চাপে GIGABYTE 255.09 টোক/সেকেন্ডে পৌঁছেছে। Qwen3 কোডার 30B (A3B বেস) এর জন্য, GIGABYTE নেতৃত্বাধীন প্রিফিল-ভারী কাজ (1862.40 tok/s); ডেল ডিকোড পরিস্থিতিতে পারদর্শী। FB8 কোয়ান্টাইজেশনের অধীনে, GIGABYTE প্রিফিল-হেভি থ্রুপুট (3088.62 টোক/সেকেন্ড) শীর্ষে রয়েছে, যখন ডেল ডিকোড টাস্কের নেতৃত্ব দিয়েছে (705.77 টোক/সে)।
ডুয়াল স্পার্ক সিস্টেমের পিক আউটপুট সারাংশ
|
মডেল
|
দৃশ্যকল্প (BS – 64)
|
ডেল পিক আউটপুট
|
গিগাবাইট পিক আউটপুট
|
এইচপি পিক আউটপুট
|
|---|---|---|---|---|
|
GPT-OSS-120B
|
সমান আইএসএল/ওএসএল
|
463.97 টোক/সে
|
497.26 টোক/সে
|
504.88 টোক/সে
|
|
GPT-OSS-120B
|
প্রিফিল ভারী
|
419.56 টোক/সে
|
417.34 টোক/সে
|
441.63 টোক/সে
|
|
GPT-OSS-120B
|
ডিকোড ভারী
|
451.18 টোক/সে
|
494.37 টোক/সে
|
474.85 টোক/সে
|
|
GPT-OSS-20B
|
সমান আইএসএল/ওএসএল
|
976.77 টোক/সে
|
952.31 টোক/সে
|
915.72 টোক/সে
|
|
GPT-OSS-20B
|
প্রিফিল ভারী
|
852.39 টোক/সে
|
802.37 টোক/সে
|
757.05 টোক/সে
|
|
GPT-OSS-20B
|
ডিকোড ভারী
|
938.65 টোক/সে
|
945.55 টোক/সে
|
865.78 টোক/সে
|
|
লামা-৩.১-৮বি-নির্দেশ
|
সমান আইএসএল/ওএসএল
|
689.53 টোক/সে
|
687.48 টোক/সে
|
618.87 টোক/সে
|
|
লামা-৩.১-৮বি-নির্দেশ
|
প্রিফিল ভারী
|
515.45 টোক/সে
|
539.27 টোক/সে
|
463.39 টোক/সে
|
|
লামা-৩.১-৮বি-নির্দেশ
|
ডিকোড ভারী
|
581.43 টোক/সে
|
576.91 টোক/সে
|
531.07 টোক/সে
|
|
লামা-3.1-8B-FP4
|
সমান আইএসএল/ওএসএল
|
1427.39 টোক/সে
|
1458.86 টোক/সে
|
1413.51 টোক/সে
|
|
লামা-3.1-8B-FP4
|
প্রিফিল ভারী
|
884.22 টোক/সে
|
954.23 টোক/সে
|
843.57 টোক/সে
|
|
লামা-3.1-8B-FP4
|
ডিকোড ভারী
|
1008.98 টোক/সে
|
1007.23 টোক/সে
|
943.73 টোক/সে
|
|
লামা-3.1-8B-FP8
|
সমান আইএসএল/ওএসএল
|
1105.42 টোক/সে
|
1089.85 টোক/সে
|
1076.68 টোক/সে
|
|
লামা-3.1-8B-FP8
|
প্রিফিল ভারী
|
759.50 টোক/সে
|
827.40 টোক/সে
|
725.51 টোক/সে
|
|
লামা-3.1-8B-FP8
|
ডিকোড ভারী
|
862.33 টোক/সে
|
855.81 টোক/সে
|
800.78 টোক/সেকেন্ড
|
|
Mistral-ছোট-3.1-24B
|
সমান আইএসএল/ওএসএল
|
249.77 টোক/সে
|
255.09 টোক/সে
|
239.09 টোক/সে
|
|
Mistral-ছোট-3.1-24B
|
প্রিফিল ভারী
|
216.01 টোক/সে
|
214.38 টোক/সে
|
197.92 টোক/সে
|
|
Mistral-ছোট-3.1-24B
|
ডিকোড ভারী
|
238.44 টোক/সে
|
237.97 টোক/সে
|
221.41 টোক/সে
|
উপসংহার
ডেল, গিগাবাইট এবং এইচপি স্পার্ক ইউনিটগুলি সামান্য ব্যাচ-নির্দিষ্ট লিড সহ নগণ্য কর্মক্ষমতা ব্যবধান সরবরাহ করে। ক্রয়ের সিদ্ধান্তে তুচ্ছ বেঞ্চমার্ক পার্থক্যের চেয়ে চ্যাসি ডিজাইন, তাপীয় কার্যক্ষমতা, ওয়ারেন্টি এবং বিক্রয়োত্তর সমর্থনকে অগ্রাধিকার দেওয়া উচিত। সমান্তরালতা কৌশলটি OEM বৈচিত্রের তুলনায় অনেক বেশি প্রভাব ফেলে: PP ব্যাচড অনুমানের জন্য TP-কে ছাড়িয়ে যায়, যখন TP একক-স্ট্রিম লো-লেটেন্সি ইন্টারঅ্যাকশনের জন্য উপযুক্ত। NVIDIA-এর TP সুপারিশ উত্পাদন পরিকাঠামোর পরিবর্তে একটি ইন্টারেক্টিভ লার্নিং ডিভাইস হিসাবে স্পার্কের অবস্থানের সাথে সারিবদ্ধ। একটি ডুয়াল-নোড স্পার্ক ক্লাস্টার বিতরণ করা AI-এর জন্য একটি সাশ্রয়ী মূল্যের শিক্ষার প্ল্যাটফর্ম হিসাবে কাজ করে। ভবিষ্যতের পরীক্ষাগুলি বৃহত্তর ক্লাস্টার এবং এন্ড-টু-এন্ড ছোট-মডেল প্রশিক্ষণ, মুলতুবি ল্যাব 800Gb সুইচ স্থাপনাকে কভার করবে।
বেইজিং Qianxing Jietong প্রযুক্তি কোং, লি.
স্যান্ডি ইয়াং/গ্লোবাল স্ট্র্যাটেজি ডিরেক্টর
WhatsApp / WeChat: +86 13426366826
ইমেল: yangyd@qianxingdata.com
ওয়েবসাইট: www.qianxingdata.com/www.storagesserver.com
ব্যবসায়িক ফোকাস:
আইসিটি প্রোডাক্ট ডিস্ট্রিবিউশন/সিস্টেম ইন্টিগ্রেশন অ্যান্ড সার্ভিসেস/ইনফ্রাস্ট্রাকচার সলিউশন
20+ বছরের আইটি বিতরণের অভিজ্ঞতার সাথে, আমরা বিশ্বস্ত পণ্য এবং পেশাদার পরিষেবা প্রদানের জন্য শীর্ষস্থানীয় বিশ্ব ব্র্যান্ডগুলির সাথে অংশীদারি করি।
"একটি বুদ্ধিমান বিশ্ব গড়তে প্রযুক্তির ব্যবহার" আপনার বিশ্বস্ত আইসিটি পণ্য পরিষেবা প্রদানকারী!
স্যান্ডি ইয়াং/গ্লোবাল স্ট্র্যাটেজি ডিরেক্টর
WhatsApp / WeChat: +86 13426366826
ইমেল: yangyd@qianxingdata.com
ওয়েবসাইট: www.qianxingdata.com/www.storagesserver.com
ব্যবসায়িক ফোকাস:
আইসিটি প্রোডাক্ট ডিস্ট্রিবিউশন/সিস্টেম ইন্টিগ্রেশন অ্যান্ড সার্ভিসেস/ইনফ্রাস্ট্রাকচার সলিউশন
20+ বছরের আইটি বিতরণের অভিজ্ঞতার সাথে, আমরা বিশ্বস্ত পণ্য এবং পেশাদার পরিষেবা প্রদানের জন্য শীর্ষস্থানীয় বিশ্ব ব্র্যান্ডগুলির সাথে অংশীদারি করি।
"একটি বুদ্ধিমান বিশ্ব গড়তে প্রযুক্তির ব্যবহার" আপনার বিশ্বস্ত আইসিটি পণ্য পরিষেবা প্রদানকারী!



