OpenAI: চ্যাট জিপিটির থেকেও বেশি ফিচারস! এই নতুন AI নিয়ে এল ওপেন এআই

ওপেন এআই (OpenAI) তার সর্বশেষ মাল্টিমডেল AI মডেল GPT-4o লঞ্চ করার ঘোষণা দিয়েছে, বিনামূল্যে পাওয়া যায়। এই মডেলটি অনন্য যে এটি পাঠ্য, অডিও এবং চিত্র ইনপুটের যেকোনো সংমিশ্রণ গ্রহণ করতে পারে এবং পাঠ্য, অডিও এবং চিত্র আউটপুটের যেকোনো সমন্বয় তৈরি করতে পারে। OpenAI দাবি করেছে GPT-4 ইন্টেলিজেন্স লেভেল আছে, কিন্তু “অনেক দ্রুত এবং টেক্সট, অডিও এবং ইমেজে উন্নত ক্ষমতা সহ।” উপরন্তু, ওপেনএআই দাবি করে যে ভয়েস প্রতিক্রিয়ার সময় মানুষের প্রতিক্রিয়া মতোই।

GPT-4o একটি API-এর মাধ্যমে ডেভেলপারদের কাছে উপলব্ধ এবং এটি GPT-4 Turbo-এর দ্বিগুণ দ্রুত এবং অর্ধেক দামের বলে জানা গেছে। GPT-4o বৈশিষ্ট্যগুলি বিনামূল্যে পাওয়া যায়, অর্থপ্রদানকারী ব্যবহারকারীদের 5x সঞ্চয় সীমা ছাড়া।

আরও পড়ুনঃ এলন মাস্ক-র স্টারলিঙ্ক এখনো ভারতে চালু হলো না! কারণ জানলে চমকে যাবেন।

ChatGPT-4o আজ থেকে টেক্সট এবং ইমেজ বৈশিষ্ট্যগুলি অফার করে, বাকি বৈশিষ্ট্যগুলি সময়ের সাথে প্রকাশ করা হবে৷ OpenAI আগামী সপ্তাহগুলিতে GPT-4o-এর নতুন অডিও এবং ভিডিও ক্ষমতাগুলি “বিশ্বস্ত API অংশীদারদের একটি ছোট গ্রুপ” এর কাছে উপলব্ধ করার পরিকল্পনা করেছে।

GPT-4o কি করতে পারে?
[আরো বৈশিষ্ট্য উপলব্ধ হওয়ার সাথে সাথে আপডেট করুন]

টেক্সট ফাংশন
ভাষা উন্নতি

ওপেন এআই (OpenAI)-এর মতে, 4o “ইংরেজি টেক্সট এবং কোডে GPT-4 Turbo-এর পারফরম্যান্সের সাথে মেলে এবং অ-ইংরেজি ভাষায় পাঠ্যকে উল্লেখযোগ্যভাবে উন্নত করে।” গুজরাটি, তেলেগু, তামিল, মারাঠি এবং উর্দু ভারতীয় ভাষার জন্য উল্লেখযোগ্য কর্মক্ষমতা উন্নতি রিপোর্ট করা হয়।

এই মডেলটি একাধিক চিত্র তৈরি করে যা একটি ভিজ্যুয়াল গল্পের প্রতিনিধিত্ব করতে পারে এবং পাঠ্য ইনপুটের উপর ভিত্তি করে কার্টুন তৈরি করতে পারে। উপরন্তু, আপনি আপনার ইচ্ছামত টাইপোগ্রাফিতে আপনার টেক্সট ইনপুট রূপান্তর করতে পারেন।

অডিও কর্মক্ষমতা
GPT-4o উল্লেখযোগ্যভাবে সাউন্ড আউটপুট উন্নত করেছে বলে জানা গেছে। পূর্ববর্তী পুনরাবৃত্তিগুলি একটি অডিও মোড বৈশিষ্ট্যযুক্ত কিন্তু আউটপুটের জন্য তিনটি পৃথক মডেল ব্যবহার করেছে, যার ফলে উল্লেখযোগ্য মন্থরতা হয়েছে। এটি গান, একাধিক স্পিকার, ব্যাকগ্রাউন্ডের শব্দ, উচ্চস্বরে হাসি বা গান বা ইমোটিকনগুলিকেও চিনতে পারে না। “এটি অভিজ্ঞতার একটি বড় ব্যবধানের পরিচয় দেয় এবং ChatGPT এর সাথে কাজ করার নিমগ্নতাকে ভেঙে দেয়,” OpenAI CTO মীরা মোরাত্তি একটি লাইভ ডেমোতে বলেছেন।

ওপেন এআই (OpenAI) তার লাইভস্ট্রিমে ব্যাখ্যা করেছে যে GPT-4o-এর মধ্যে বাধা দেওয়ার, রিয়েল টাইমে প্রতিক্রিয়া দেখানো এবং আবেগ রেকর্ড করার ক্ষমতা রয়েছে, এটি প্রদর্শন করে যে 4o-এর অডিও আউটপুট কীভাবে “বিভিন্ন আবেগপূর্ণ শৈলীতে ভয়েস পুনরুত্পাদন করতে পারে।” OpenAI একটি ভিডিও শেয়ার করেছে যাতে দেখায় যে 4o কিভাবে রিয়েল টাইমে একটি কথোপকথন পরিচালনা করতে পারে, কমান্ডের উপর ভিত্তি করে এর ভয়েস পরিবর্তন করতে পারে এবং রিয়েল-টাইম অনুবাদ প্রদান করতে পারে। ওপেনএআই চ্যাটজিপিটি ভয়েস অ্যাপটিও প্রদর্শন করেছে, যা একটি ডেস্কটপ অ্যাপ সহকারী হিসেবে কাজ করে এবং কোডিংয়ে সহায়তা করে। তার ব্লগে বক্তৃতা এবং মিটিংয়ের সংক্ষিপ্ত বিবরণ ব্যবহারের ক্ষেত্রেও রয়েছে।

চাক্ষুষ দক্ষতা
এছাড়াও মডেলটি ভিজ্যুয়াল ক্ষমতা উন্নত করেছে, যা ব্যবহারকারীদের ভিডিওর মাধ্যমে ইন্টারঅ্যাক্ট করতে দেয়। একটি লাইভ ডেমো চলাকালীন, ওপেনএআই ব্যবহারকারীদের সমীকরণ সমাধানে সহায়তা করার জন্য মডেলের ক্ষমতা প্রদর্শন করেছে। 4o বস্তুগুলিকে সনাক্ত করতে এবং তথ্য প্রদান করতে বা তাদের সাথে ইন্টারঅ্যাক্ট করতে সক্ষম বলে দাবি করা হয়েছে, যেমন এই ভিডিওতে দেখানো হয়েছে যেখানে GPT-40 বস্তুগুলিকে শনাক্ত করে এবং রিয়েল-টাইম স্প্যানিশ অনুবাদ প্রদান করে। ওপেন এআই (OpenAI) আরও দেখিয়েছে যে 4o একটি ডেস্কটপ অ্যাপ্লিকেশনে ডেটা বিশ্লেষণ করতে পারে।

GPT-4o কতটা নিরাপদ?
মুরাতি বলেন, “GPT-40 নিরাপত্তার ক্ষেত্রে আমাদের জন্য নতুন চ্যালেঞ্জ তৈরি করে কারণ আমরা রিয়েল-টাইম অডিও এবং রিয়েল-টাইম ভিশন নিয়ে কাজ করি।” ওপেনএআই দাবি করে যে GPT-4o তার মূল্যায়নের উপর ভিত্তি করে তার মূল্যায়ন অনুসারে এর চেয়ে বেশি নয়।” প্রস্তুতি ফ্রেমওয়ার্ক: সাইবার নিরাপত্তা, রাসায়নিক, জৈবিক, রেডিওলজিক্যাল এবং নিউক্লিয়ার (CBRN) তথ্য, প্ররোচনা এবং মডেল স্বায়ত্তশাসনের মাঝারি ঝুঁকি। তারা স্বীকার করেছে যে GPT -4o-এর অডিও ক্ষমতাগুলি অনন্য ঝুঁকি তৈরি করে, এইভাবে, অডিও আউটপুটগুলি স্টার্টআপে প্রিসেট ভয়েস নির্বাচনের মধ্যে সীমাবদ্ধ।

গত মাসে, ওপেনএআই চ্যাটজিপিটি প্লাস ব্যবহারকারীদের জন্য একটি “মেমরি” বৈশিষ্ট্য সহ বেশ কয়েকটি বৈশিষ্ট্য চালু করেছে যা এআই মডেলকে ব্যবহারকারীদের কথোপকথনে প্রদান করা তথ্য মনে রাখতে দেয়। এই বৈশিষ্ট্যটি ব্যক্তিগতকরণ সেটিংসে চালু বা বন্ধ করা যেতে পারে এবং রেকর্ড করা অনুস্মারকগুলিকে একই ব্যক্তিগতকরণ সেটিংস ট্যাবে মুছে ফেলার মাধ্যমে “ভুলে যাওয়া” হতে পারে৷

আরও পড়ুনঃ

ফেব্রুয়ারিতে, কোম্পানি ঘোষণা করেছিল যে এটি তৈরি করা সমস্ত সিন্থেটিক ছবিকে ওয়াটারমার্ক করবে, যার মধ্যে রয়েছে কোয়ালিশন ফর কনটেন্ট প্রোভেন্যান্স অ্যান্ড অথেনটিসিটি (C2PA) মেটাডেটা ওয়েবে ChatGPT ব্যবহার করে তৈরি করা সমস্ত ছবির জন্য এবং DALL·E 3 ব্যবহার করে তৈরি করা অন্যান্য OpenAI API, যা অনুমতি দেয় ব্যবহারকারীদের কনটেন্ট শংসাপত্র যাচাইয়ের মতো সাইটের মাধ্যমে OpenAI টুল ব্যবহার করে একটি ছবি তৈরি করা হয়েছে তা যাচাই করতে।

এর আগে জানুয়ারীতে, এটি GPT স্টোরও চালু করেছিল, ব্যবহারকারীদের নির্দিষ্ট ব্যবহারের ক্ষেত্রে উপযোগী চ্যাট জিপিটি (ChatGPT)-এর নিজস্ব সংস্করণ শেয়ার করতে দেয়।