OpenAIالصورة ChatGPT يكشف النقاب عن ترقية رئيسية ويضيف المحادثة الصوتية والدردشة المصورة
في سطور
OpenAI سيتم طرح إمكانات الصوت والصورة الجديدة في ChatGPT خلال الاسبوعين المقبلين.
ستكون هذه الميزات متاحة فقط لمستخدمي Plus وEnterprise.
OpenAI أعلنت اليوم أنها ستطرح إمكانات جديدة للصوت والصورة في ChatGPT. ستسمح الميزات الجديدة للمستخدمين بإجراء محادثة صوتية معهم ChatGPT أو الدردشة مع الشات بوت من خلال الصور.
يأتي هذا الإعلان في أعقاب ادعاءات مستخدمي Reddit الذين زعموا أنهم تمكنوا من الوصول إلى OpenAIنماذج ثم قاموا بعد ذلك بمشاركة هذه المعلومات على المنصة. وصف موقع Redditor FeltSteam نموذجًا للذكاء الاصطناعي يحمل الاسم العملي Arrakis، والذي يقال إنه يسمح للمستخدمين "بإدخال أي مجموعة من النصوص والصوت والفيديو".
"إن القدرة الصوتية الجديدة مدعومة بنموذج جديد لتحويل النص إلى كلام، قادر على توليد صوت يشبه الإنسان من نص فقط وبضع ثوان من عينة الكلام"، كتب Open AI في مقال: بلوق وظيفة. "لقد تعاونا مع ممثلين صوتيين محترفين لإنشاء كل صوت. نحن نستخدم أيضًا Whisper، وهو نظام التعرف على الكلام مفتوح المصدر الخاص بنا، لتحويل كلماتك المنطوقة إلى نص.
لقد وجدت بعض التكهنات الغريبة وغير المؤكدة حول النماذج الداخلية القوية على Reddit.
– يام بيليج (Yampeleg) 25 سبتمبر 2023
- يرجى التعامل مع كل شيء مع حبة الملح. -
على ما يبدو،
يدعي مستخدمان مختلفان أنهما تمكنا من الوصول إليه OpenAIالنماذج الداخلية لـ وتشارك المعلومات على reddit.
فيلت ستيم… pic.twitter.com/JRJH4xADZX
ومع الميزات الجديدة، يمكن للمستخدمين المشاركة في محادثة ذهابًا وإيابًا معه ChatGPT باستخدام أصواتهم. يمكنهم أيضًا مناقشة الصور باستخدام برنامج الدردشة الآلي. سيتم طرح الميزات خلال الأسبوعين المقبلين لمستخدمي Plus وEnterprise.
ستتوفر القدرة الصوتية على نظامي iOS وAndroid كاشتراك بينما ستكون ميزة الصورة متاحة على جميع الأنظمة الأساسية.
لبدء استخدام الوظيفة الصوتية، يمكن للمستخدمين التوجه إلى الإعدادات → الميزات الجديدة في تطبيق الهاتف المحمول واختيار "المحادثات الصوتية". بعد ذلك، يجب على المستخدم النقر على زر سماعة الرأس الموجود في الزاوية العلوية اليمنى من الشاشة الرئيسية واختيار صوته المفضل من بين مجموعة مختارة من خمسة أصوات مختلفة.
للتحدث مع ChatGPT من خلال الصور، يمكن للمستخدم النقر على زر الصورة لالتقاط صورة أو اختيار واحدة. إذا كنت تستخدم iOS أو Android، فانقر فوق زر علامة الجمع قبل المتابعة. بالإضافة إلى ذلك، يمكنهم المشاركة في المناقشات باستخدام صور متعددة أو استخدامها لتوجيه برنامج الدردشة الآلي.
OpenAI يقول أن فهم الصورة مدعوم بالوسائط المتعددة GPT-3. و5 GPT-4. تستفيد هذه النماذج من قدرات التفكير اللغوي لتحليل مجموعة متنوعة من المحتوى المرئي، بما في ذلك الصور الفوتوغرافية ولقطات الشاشة والمستندات التي تحتوي على مجموعة من النصوص والصور.
OpenAIشراكة مع سبوتيفي
سبوتيفي أيضا اليوم ميزة الترجمة الصوتية المدعومة بالذكاء الاصطناعي. يمكن للميزة الجديدة ترجمة ملفات البودكاست إلى لغات مختلفة، وذلك باستخدام الصوت الأصلي لمقدم البودكاست.
وفقًا وشك، تعتمد ميزة الترجمة هذه على OpenAIأداة النسخ الصوتي، Whisper، القادرة على نسخ الكلام الإنجليزي وترجمة اللغات المختلفة إلى الإنجليزية.
كجزء من البرنامج التجريبي، تعاونت الشركة مع مقدمي البودكاست داكس شيبرد، ومونيكا بادمان، وليكس فريدمان، وبيل سيمونز، وستيفن بارتليت لإنشاء ترجمات صوتية تعتمد على الذكاء الاصطناعي بلغات مثل الإسبانية والفرنسية والألمانية لحلقات محددة من الكتالوج والمسلسلات القادمة. إطلاق.
وقال زياد سلطان، نائب رئيس قسم التخصيص في Spotify، في بيان: "نعتقد أن النهج المدروس تجاه الذكاء الاصطناعي يمكن أن يساعد في بناء روابط أعمق بين المستمعين والمبدعين، وهو عنصر أساسي في مهمة Spotify لإطلاق العنان لإمكانات الإبداع البشري".
ستكون الحلقات المترجمة صوتيًا من منشئي البرامج التجريبية متاحة في جميع أنحاء العالم للمستخدمين المميزين والمجانيين.
إخلاء المسئولية
تتماشى مع المبادئ التوجيهية لمشروع الثقةيرجى ملاحظة أن المعلومات المقدمة في هذه الصفحة ليس المقصود منها ولا ينبغي تفسيرها على أنها نصيحة قانونية أو ضريبية أو استثمارية أو مالية أو أي شكل آخر من أشكال المشورة. من المهم أن تستثمر فقط ما يمكنك تحمل خسارته وأن تطلب مشورة مالية مستقلة إذا كانت لديك أي شكوك. لمزيد من المعلومات، نقترح الرجوع إلى الشروط والأحكام بالإضافة إلى صفحات المساعدة والدعم المقدمة من جهة الإصدار أو المعلن. MetaversePost تلتزم بتقارير دقيقة وغير متحيزة، ولكن ظروف السوق عرضة للتغيير دون إشعار.
نبذة عن الكاتب
سيندي صحفية في Metaverse Post، تغطي الموضوعات المتعلقة بـ web3, NFT، metaverse و AI ، مع التركيز على المقابلات مع Web3 لاعبين الصناعة. لقد تحدثت إلى أكثر من 30 مديرًا تنفيذيًا على مستوى C وما زال العدد في ازدياد، حيث قدمت أفكارهم القيمة للقراء. أصلها من سنغافورة، وتقيم سيندي الآن في تبليسي، جورجيا. حصلت على درجة البكالوريوس في الاتصالات والدراسات الإعلامية من جامعة جنوب أستراليا ولديها عشر سنوات من الخبرة في الصحافة والكتابة. تواصل معها عبر [البريد الإلكتروني محمي] مع المداخلات الصحفية والإعلانات وفرص المقابلات.
المزيد من المقالاتسيندي صحفية في Metaverse Post، تغطي الموضوعات المتعلقة بـ web3, NFT، metaverse و AI ، مع التركيز على المقابلات مع Web3 لاعبين الصناعة. لقد تحدثت إلى أكثر من 30 مديرًا تنفيذيًا على مستوى C وما زال العدد في ازدياد، حيث قدمت أفكارهم القيمة للقراء. أصلها من سنغافورة، وتقيم سيندي الآن في تبليسي، جورجيا. حصلت على درجة البكالوريوس في الاتصالات والدراسات الإعلامية من جامعة جنوب أستراليا ولديها عشر سنوات من الخبرة في الصحافة والكتابة. تواصل معها عبر [البريد الإلكتروني محمي] مع المداخلات الصحفية والإعلانات وفرص المقابلات.