Lightbits Labs এবং ScaleFlux একটি 100x থেকে 280x পারফরম্যান্স বুস্ট অর্জন করেছে KV ক্যাশে ওয়ার্কলোডের জন্য LightInferra ক্যাশে সফ্টওয়্যার ব্যবহার করে ScaleFlux কম্পিউটেশনাল স্টোরেজ SSD থেকে ডেটা পড়ার মাধ্যমে।
দুটি কোম্পানি Nvidia-এর আসন্ন GTC সম্মেলনে এই যুগান্তকারী উদ্ভাবনটি প্রদর্শন করবে। একটি KV ক্যাশে জিপিইউ-এর হাই-ব্যান্ডউইথ মেমরি (HBM)-এ টোকেন ভেক্টর সংরক্ষণ করে। একবার HBM ক্ষমতা শেষ হয়ে গেলে, KV ক্যাশে ডেটা ব্লকগুলি পুনরায় গণনা করতে হবে — একটি প্রক্রিয়া যা সময় নেয় এবং এআই প্রশিক্ষণ এবং অনুমান গতি হ্রাস করে। এআই ওয়ার্কলোড স্কেল আপ হওয়ার সাথে সাথে এই ধীরগতি বিশেষভাবে স্পষ্ট হয়ে ওঠে, যার ফলে ভেক্টর তৈরি করতে ব্যবহৃত টোকেনের সংখ্যা দ্রুত বৃদ্ধি পায়।
KV ক্যাশে সফ্টওয়্যারটি যৌক্তিকভাবে ক্যাশে স্তরটিকে বাইরের দিকে প্রসারিত করে: প্রথমে জিপিইউ সার্ভারের x86 সিপিইউ এবং এর ডিআরএএম-এ, তারপরে একই x86 সিস্টেমে স্থানীয় এনভিএমই ড্রাইভগুলিতে, এবং আরও বাইরের এনভিএমই এসএসডিগুলিতে। এই টায়ার্ড সম্প্রসারণ টোকেন ভেক্টরগুলি পুনরায় গণনা করার প্রয়োজনীয়তা দূর করে। যদিও এনভিএমই এসএসডিগুলির স্বাভাবিকভাবেই HBM বা ডিআরএএম-এর চেয়ে বেশি অ্যাক্সেস ল্যাটেন্সি থাকে, পূর্ব-গণনাকৃত টোকেন ভেক্টরগুলি পুনরুদ্ধার করা তাদের স্ক্র্যাচ থেকে হাজার হাজার পুনরায় গণনা করার চেয়ে অনেক দ্রুত। Lightbits এবং ScaleFlux দাবি করে যে তাদের সমাধান এসএসডি থেকে KV ক্যাশে ডেটা পুনরুদ্ধারকে ব্যাপকভাবে ত্বরান্বিত করে।
Lightbits Labs-এর এআই আর্কিটেকচারের ডিরেক্টর আর্থার রাসমুসন বলেছেন: “আমরা অনুমান মেমরিকে একটি প্রতিক্রিয়াশীল ক্যাশে থেকে একটি বুদ্ধিমান, স্ট্রিম করা ডেটা স্তরে রূপান্তরিত করছি।”
কিভাবে?
“শুধুমাত্র গুরুত্বপূর্ণ ডেটা প্রিফেচ করে এবং প্রয়োজনের আগে উচ্চ-গতির RDMA-এর মাধ্যমে জিপিইউগুলিতে সরবরাহ করে, আমরা দীর্ঘ-প্রসঙ্গ কর্মক্ষমতাকে ঐতিহ্যগতভাবে সীমাবদ্ধ করে এমন স্টলগুলি দূর করি। এর ফলে কম টাইম-টু-ফার্স্ট-টোকেন (TTFT), বাস্তব-বিশ্বের লোডের অধীনে আরও স্থিতিশীল থ্রুপুট এবং উল্লেখযোগ্যভাবে উচ্চতর কার্যকর জিপিইউ ব্যবহার হয়।”
ScaleFlux-এর সলিউশন আর্কিটেকচার এবং টেকনিক্যাল পার্টনারশিপের সিনিয়র ডিরেক্টর কিথ ম্যাককে বলেছেন: “আমরা GTC-তে যা দেখাচ্ছি তা হল কীভাবে স্মার্ট ডেটা প্লেসমেন্ট এবং পার্সিস্টেন্ট অ্যাটেনশন স্টেট ম্যানেজমেন্ট অনুমান সিস্টেমকে প্রসঙ্গ উইন্ডো বাড়ার সাথে সাথে প্রতিক্রিয়াশীল থাকতে সাহায্য করতে পারে তার একটি প্রাথমিক ঝলক। এটি একটি সহযোগিতা যা আমরা বাস্তব অপারেটরদের সাথে একসাথে আকার দিতে চাই।”
Lightbits এবং ScaleFlux উভয়ই ক্লাউড এবং পরিকাঠামো অপারেটরদের তাদের সফ্টওয়্যার এবং এসএসডি গ্রহণ করতে উৎসাহিত করার লক্ষ্য রাখে, ব্যয়বহুল জিপিইউ অলস সময় দূর করে।
প্রথমে আমরা ScaleFlux-এর অবদান পরীক্ষা করব, তারপর আরও পরিশীলিত Lightbits সফ্টওয়্যার স্তরে যাব।
ScaleFlux NVMe SSD এবং কম্পিউটেশনাল স্টোরেজ ড্রাইভ (CSD) সরবরাহ করে যা হার্ডওয়্যার-ভিত্তিক রাইট রিডাকশন টেকনোলজি (WRT) দিয়ে সজ্জিত। হার্ডওয়্যার-ত্বরান্বিত কম্প্রেশন এবং SoC-চালিত মেটাডেটা ম্যানেজমেন্ট দ্বারা চালিত, এই ড্রাইভগুলি ফিজিক্যাল স্টোরেজের চেয়ে চারগুণ বেশি লজিক্যাল ক্ষমতা সরবরাহ করে, যখন হোস্ট সিস্টেমের কাছে সম্পূর্ণ স্বচ্ছ থাকে। কোম্পানিটি ওপেন ফ্ল্যাশ প্ল্যাটফর্ম (OFP) কনসোর্টিয়ামের সদস্য, যা ঘন, কম-ল্যাটেন্সি, পাওয়ার-দক্ষ সিস্টেমের সাথে এআই ডেটা পরিকাঠামোকে পুনরায় সংজ্ঞায়িত করার জন্য কাজ করছে — প্রচলিত ফাইল-ভিত্তিক এআই স্টোরেজের 10 গুণ ঘনত্ব এবং মাত্র এক-দশমাংশ বিদ্যুৎ খরচ সরবরাহ করে।
এই স্টোরেজ ড্রাইভগুলির উপর ভিত্তি করে, Lightbits KV ক্যাশে ডেটার বুদ্ধিমান প্রিফেচিং যোগ করে আগে জিপিইউগুলির এটির প্রয়োজন হয়, অপর্যাপ্ত KV ক্ষমতা বা ব্যয়বহুল টোকেন ভেক্টর পুনরায় গণনার কারণে স্টলগুলি প্রতিরোধ করে। এর LightInferra সফ্টওয়্যার KV ক্যাশে-অপ্টিমাইজড ক্যাশিং অ্যালগরিদম ব্যবহার করে প্রকৃত চাহিদার আগে RDMA গতিতে প্রয়োজনীয় ডেটা জিপিইউ মেমরিতে নিয়ে আসে।
আবার, কিভাবে?
সফ্টওয়্যারটি জিপিইউ সার্ভারের মধ্যে এমবেড করা x86 হোস্টে চলে এবং KV ক্যাশে ডেটা ব্লকগুলির অ্যাক্সেস প্যাটার্নগুলি ট্র্যাক করে। এই টেলিমেট্রি ব্যবহার করে, এটি সাব-লিনিয়ার স্পার্স অ্যাটেনশন প্রিফেচ (SLSAP) ইঞ্জিন পরিচালনা করে যা পরবর্তীকালে প্রয়োজনীয় KV ব্লকগুলি সনাক্ত করে।
এই ইঞ্জিনটি লোকালিটি-সেনসিটিভ হ্যাশিং (LSH) কে পরিসংখ্যানগত পুনঃব্যবহার মডেলিংয়ের সাথে একত্রিত করে — মনোযোগ গণনার ঐতিহাসিক অ্যাক্সেস লোকালিটি বিশ্লেষণ করে — KV ব্লকগুলিকে স্কোর এবং অগ্রাধিকার দেওয়ার জন্য, তারপরে জিপিইউ দ্বারা অনুরোধ করা সম্ভাবনার সর্বোচ্চ স্কোরযুক্ত ব্লকগুলি নির্বাচন করে।
এই নির্বাচন প্রক্রিয়াটি জিপিইউ ডেটা অ্যাক্সেসের অন্তর্নিহিত স্পারসিটি ব্যবহার করে: বেশিরভাগ টোকেন পূর্ববর্তী টোকেনগুলির একটি ছোট উপসেটের সাথে কেবল অর্থপূর্ণভাবে সম্পর্কিত। এই উচ্চ-সম্ভাব্য ব্লকগুলি বিচ্ছিন্ন করে, সমাধানটি জিপিইউগুলিতে স্ট্রিম করা টোকেন ভেক্টরগুলির পরিমাণকে ব্যাপকভাবে হ্রাস করে।
একটি দ্বিতীয় অ্যালগরিদম পুনঃব্যবহারের প্যাটার্নের উপর দৃষ্টি নিবদ্ধ করে: সাম্প্রতিক টোকেন, অর্থপূর্ণভাবে অনুরূপ টোকেন এবং RAG বা মাল্টি-টার্ন চ্যাট পরিস্থিতিতে সাধারণ কাঠামোগত প্যাটার্নগুলি প্রায়শই পুনঃব্যবহৃত হয় এবং সেই অনুযায়ী অগ্রাধিকার দেওয়া হয়।
LightInferra এই টোকেন ব্লকগুলি প্রথমে x86 সার্ভারের ডিআরএএম থেকে, বা প্রয়োজনে বাহ্যিক ScaleFlux এসএসডি থেকে পুনরুদ্ধার করে, তারপরে RDMA লিঙ্কগুলির মাধ্যমে জিপিইউ-এর HBM-এ প্রি-লোড করে।
Lightbits এই পদ্ধতির বেঞ্চমার্ক করেছে বড় ভাষা মডেল ওয়ার্কলোড ব্যবহার করে স্ক্র্যাচ থেকে ক্যাশেড কন্টেন্ট পুনরায় গণনা করার বিরুদ্ধে, টাইম-টু-ফার্স্ট-টোকেন (TTFT) উন্নত করে। রিপোর্ট করা 100x থেকে 280x ত্বরণ পরিসংখ্যান সরাসরি এই পরীক্ষার ফলাফল থেকে প্রাপ্ত।

অবশ্যই, আমরা Lightbits-ScaleFlux KV ক্যাশে ত্বরণের বেঞ্চমার্ক ফলাফল দেখতে চাই
DDN, Hammerspace, VAST Data, WEKA এবং অন্যদের থেকে KV ক্যাশে অ্যাক্সিলারেটরগুলির সাথে স্কিম, কিন্তু সেগুলি
উপলব্ধ নয়।
এখানে চার্ট রয়েছে যা দেখায় কিভাবে LightInferra-ScaleFlux মডেলের আকার বৃদ্ধির সাথে সাথে ক্যাশে পুনর্জন্ম TTFT-তে ক্রমশ উন্নত হয়েছে
যেমন;

সমস্ত সম্পর্কিত বেঞ্চমার্ক ডেটা লগ-স্কেল চার্টে উপস্থাপন করা হয়, যা প্রাথমিকভাবে কম্পিউটার বিজ্ঞান পেশাদারদের জন্য তৈরি করা হয়েছে, তবে সাধারণ ভাষা বাস্তব-বিশ্বের প্রভাবকে অনেক সহজ করে তোলে: “ফলাফল হল টেকসই টাইম-টু-ফার্স্ট-টোকেন (TTFT) কর্মক্ষমতা যখন প্রসঙ্গ 100k টোকেন থেকে 1 মিলিয়ন এবং তার বেশি পর্যন্ত স্কেল করে।”
যেমন FarmGPU-এর Jonmichael Hands বলেছেন, যখন একটি 400k-টোকেন কথোপকথন পুনরায় শুরু হয় এবং সিস্টেমকে পুরো KV ক্যাশে স্ক্র্যাচ থেকে পুনরায় তৈরি করতে হয়, তার মানে জিরো টোকেন তৈরি করে জিপিইউ রানটাইমের দুই মিনিট। LightInferra সম্পূর্ণভাবে অর্থনৈতিক মডেল পরিবর্তন করে — একই ওয়ার্কলোড আধা সেকেন্ডের কম সময়ে তার প্রথম টোকেন তৈরি করে, একটি অ-কার্যকরী পণ্য স্তরকে লাভজনক করে তোলে।
Lightbits এবং ScaleFlux এই যৌথ সমাধানটি বিশেষভাবে পরবর্তী-প্রজন্মের নিওক্লাউড জিপিইউ ফার্মগুলির জন্য ডিজাইন করেছে, যেখানে বড় জিপিইউ পডগুলি শত শত বা এমনকি হাজার হাজার সমবর্তী এআই মডেল ওয়ার্কলোড চালায়। এই ওয়ার্কলোডগুলির প্রায় প্রতিটিই জিপিইউ-এর হাই-ব্যান্ডউইথ মেমরি (HBM)-এর KV ক্যাশে ক্ষমতার সীমা অতিক্রম করবে।
প্রচলিত সেটআপের অধীনে, দলগুলি দুটি ব্যয়বহুল বিকল্পের মুখোমুখি হয়: জেনেরিক বাহ্যিক স্টোরেজ থেকে টোকেন ভেক্টরগুলি ধীরে ধীরে আনা, বা সেই ভেক্টরগুলি স্ক্র্যাচ থেকে পুনরায় গণনা করার অনেক বেশি সময়সাপেক্ষ প্রক্রিয়া — উভয়ই জিপিইউগুলিকে ঘন্টার পর ঘন্টা অলস রাখে। LightInferra এবং ScaleFlux সংমিশ্রণ এই পঙ্গু শিল্প ব্যথার পয়েন্টটি সম্পূর্ণভাবে দূর করে।
FarmGPU সিইও Jonmichael Hands যোগ করেছেন: “Lightbits থেকে দ্রুত নেটওয়ার্কযুক্ত স্টোরেজ দীর্ঘ-প্রসঙ্গ অনুমানের জন্য নতুন ব্যবহারের প্রচুর সুযোগ উন্মুক্ত করে। আমাদের পরিচালিত পরিষেবার সাথে ScaleFlux NVMe ড্রাইভগুলিতে চালিত Lightbits-এর উচ্চ-পারফরম্যান্স স্টোরেজ যুক্ত করে, আমরা প্রথম টোকেনের সময় কমাতে এবং জিপিইউ ব্যবহার বাড়াতে পারি, অনুমানের ওয়ার্কলোডগুলির জন্য মোট মালিকানা ব্যয় (TCO) ব্যাপকভাবে হ্রাস করে।”
Business Focus:
ICT Product Distribution/System Integration & Services/Infrastructure Solutions
20 বছরের বেশি আইটি বিতরণ অভিজ্ঞতার সাথে, আমরা নির্ভরযোগ্য পণ্য এবং পেশাদার পরিষেবা সরবরাহ করতে নেতৃস্থানীয় বিশ্ব ব্র্যান্ডগুলির সাথে অংশীদারিত্ব করি।
“প্রযুক্তি ব্যবহার করে একটি বুদ্ধিমান বিশ্ব তৈরি করা” আপনার বিশ্বস্ত আইসিটি পণ্য পরিষেবা প্রদানকারী!