स्वयंचलित मजकूर सारांश – लिंकन, स्वयंचलित सारांश परिचय – डेटा ब्लॉग

डेटा, कृत्रिम बुद्धिमत्ता आणि माझे प्रकल्प यावर ब्लॉग

स्वयंचलित सारांश म्हणजे एक लांब मजकूर, किंवा ग्रंथांचा एक संच घेणे आणि स्वयंचलितपणे एक लहान मजकूर तयार करणे ज्यामध्ये बहुतेक माहिती असते. सोपे ? इतके नाही. प्रथम, आपल्याला कोणती माहिती खरोखर महत्वाची आहे हे मान्य करावे लागेल. मग, आम्ही त्यांना योग्यरित्या काढण्यास, त्यांची पुनर्रचना करण्यास सक्षम असणे आवश्यक आहे, सर्व व्याकरणाच्या मजकूरामध्ये आणि मानवी हस्तक्षेपाशिवाय. आणि हे संभाव्य सारांशांच्या मोठ्या संख्येने मोजल्याशिवाय आहे !

स्वयंचलित मजकूर सारांश

पोत संग्रह आणि संचयनाच्या स्फोटानंतर, या वस्तुमानातून संबंधित माहितीचे विश्लेषण आणि काढण्याची आवश्यकता अधिकाधिक सध्याची आहे.

याव्यतिरिक्त, स्वयंचलित नैसर्गिक भाषा प्रक्रिया (तालन) साठी सखोल शिक्षण मॉडेल्सच्या भरभराटीमुळे ऑपरेशनल इश्यूमध्ये मजकूर डेटाचा वापर सुलभ झाला. स्वयंचलित मजकूर सारांश, उत्तर देणार्‍या प्रश्नाप्रमाणेच, समानता विश्लेषण, दस्तऐवजाचे वर्गीकरण आणि तालनशी संबंधित इतर कार्ये या प्रकरणांचा एक भाग आहेत.

हे या संदर्भात आहे लॅब इनोव्हेशन डी लिंकनने स्वयंचलित मजकूर सारांशात काम करण्याचा निर्णय घेतला आहे. या कामांमुळे भाषेसाठी उपलब्ध स्वयंचलित सारांश मॉडेल्सचा एक बेंचमार्क स्थापित करणे शक्य झाले आहे फ्रेंच, आमचे स्वतःचे मॉडेल कारणीभूत ठरण्यासाठी आणि शेवटी ते उत्पादनात ठेवा.

�� मॉडेल प्रशिक्षण

जागतिक स्वयंचलित सारांश

डेटा

आम्ही आमचे कार्य सुरू करण्यापूर्वी, आम्हाला प्रथम स्वयंचलित सारांश मॉडेल शिकण्यासाठी डेटाबेस तयार करावा लागला. आम्ही अनेक फ्रेंच बातम्यांमधून प्रेस वस्तू जप्त केल्या आहेत. या बेसमध्ये k 60 के लेख आहेत आणि सतत अद्यतनित केले जातात.

अत्याधूनिक

स्वयंचलित सारांश अल्गोरिदम दोन श्रेणींमध्ये विभक्त केले जाऊ शकतात: सारांश एक्सट्रॅक्टिव्ह आणि सारांश अमूर्त. फ्रेम मध्ये एक्सट्रॅक्टिव्ह, सारांश मजकूरातून काढलेल्या वाक्यांमधून तयार केले गेले आहेत तर सारांश अमूर्त नवीन वाक्यांमधून व्युत्पन्न केले जाते.

स्वयंचलित सारांश मॉडेल इंग्रजीमध्ये सामान्य आहेत, परंतु ते फ्रेंचमध्ये खूपच कमी आहेत.

मेट्रिक्स

मॉडेल्सच्या मूल्यांकनासाठी आम्ही खालील मेट्रिक्स वापरली:

लाल: निःसंशयपणे मोजमाप बहुतेकदा सारांश कार्यात नोंदवले गेले आहे, सारांश मूल्यांकन करण्यासाठी रिकॉल ओरिएंटेड अंडरस्ट्युडी (लिन, 2004) मूल्यांकन केलेल्या सारांश आणि मानवी संदर्भ सारांश दरम्यान समान एन-ग्रॅमची संख्या मोजते.

उल्का: सुस्पष्ट ऑर्डरिंगसह भाषांतर मूल्यांकन करण्यासाठी मेट्रिक (बॅनर्जी आणि लॅव्ही, २००)) स्वयंचलित भाषांतर निकालांच्या मूल्यांकनासाठी डिझाइन केले होते. हे युनिग्रामवर सुस्पष्टता आणि आठवण्याच्या हार्मोनिक सरासरीवर आधारित आहे, अचूकतेपेक्षा वजन जास्त आहे. उल्का बर्‍याचदा स्वयंचलित सारांश प्रकाशनांमध्ये वापरला जातो (एट अल पहा., 2017; डोंग इट अल., 2019), लाल व्यतिरिक्त.

अद्भुतता: हे लक्षात आले आहे की काही अमूर्त मॉडेल एक्सट्रॅक्शनवर खूप विश्रांती घेतात (एट अल पहा., 2017; Krysci ‘nski et al’.‘, 2018). म्हणूनच, व्युत्पन्न केलेल्या सारांशात तयार केलेल्या नवीन एन-ग्रॅमची टक्केवारी मोजणे सामान्य झाले आहे.

स्रोत: एमएलएसयूएम पेपरचे भाषांतर [२].

मॉडेल्सची उपयोजन

मॉडेल प्रशिक्षणासाठी, आम्ही क्लाउड अझर एमएल सेवा वापरली जी मॉडेल्सचे प्रशिक्षण, देखरेख आणि उपयोजन यासाठी संपूर्ण वातावरण प्रदान करते.

स्वयंचलित सारांश मॉडेल

आम्ही पायथन एसडीके अधिक तंतोतंत वापरले आहे जे आपल्याला “जॉब्स” लाँच करण्यापासून ते मॉडेलच्या तैनातीपर्यंत संपूर्ण एझुरेमल वातावरणास प्रोग्रामॅटिक मार्गाने व्यवस्थापित करण्यास अनुमती देते.

तथापि, आम्ही आमच्या अंतिम मॉडेलला कंटेनरलाइज्ड फ्लास्क अनुप्रयोगात एन्केप्युलेटेड नंतर कुबर्नेट्स क्लस्टरवर सीआय/सीडी पाइपलाइनद्वारे तैनात केले

निकाल

सर्व प्रथम, आम्ही 10 के लेखांवर मॉडेलचे नेतृत्व करणारे अनेक प्रयत्न केले, मॉडेलच्या सुरूवातीस दिलेल्या टोकनची संख्या (512 किंवा 1024) आणि भिन्न आर्किटेक्चर.

प्रथम निरीक्षण: आमच्या मॉडेल्सच्या कामगिरीच्या मूल्यांकनासाठी लाल आणि उल्का मेट्रिक्स फारसे योग्य दिसत नाहीत. म्हणून आम्ही केवळ नवीनतेच्या स्कोअरवर आमची तुलना करणे निवडले आणि निवडले आर्किटेक्चर अधिक अमूर्त सारांश अनुकूल.

700 के आयटमवर आमच्या मॉडेलचे प्रशिक्षण ढकलल्यानंतर, आम्ही निकालांमध्ये लक्षणीय सुधारणा केली आणि आपल्याला खाली सापडेल अशी पहिली आवृत्ती सत्यापित केली.

लक्ष बिंदू

कामगिरीच्या पलीकडे या प्रयोगाने आम्हाला काही हायलाइट करण्याची परवानगी दिली सीमा स्वयंचलित सारांश:

सध्या, प्रकार मॉडेलच्या इनपुटमध्ये मजकूराचा आकार परिवर्तन जीपीयूच्या स्मृतीत क्षमतेद्वारे मर्यादित आहे. मेमरीची किंमत इनपुट म्हणून मजकूराच्या आकारासह चतुर्भुज असणारी, स्वयंचलित सारांशच्या कार्यांसाठी ही वास्तविक समस्या उद्भवते जिथे मजकूर सारांशित केला जाईल.

मजकूर निर्मितीच्या कार्यांचे मूल्यांकन करण्यासाठी संबंधित मेट्रिक्स शोधणे फार कठीण आहे.

काळजी घ्या एक्सट्रॅक्टरचे वजन : आम्हाला स्वत: मधील डेटाशी संबंधित अनेक समस्या देखील आल्या आहेत. मुख्य समस्या अशी आहे की लेखाचा लेख बहुतेक वेळा एक परिच्छेद किंवा लेखाच्या पहिल्या वाक्यांची डुप्लिकेट होता. आमच्या मॉडेलला लेखाची पहिली वाक्ये परत करून अमूर्ततेपेक्षा अधिक एक्सट्रॅक्टिव्ह होण्यासाठी प्रोत्साहित करण्याचा याचा परिणाम झाला. म्हणूनच या प्रकारचे पूर्वाग्रह टाळण्यासाठी समस्या उद्भवणारे लेख हटवून क्युरीशनचे कार्य करणे आवश्यक होते.

डेटा, कृत्रिम बुद्धिमत्ता आणि माझे प्रकल्प यावर ब्लॉग.

स्वयंचलित सारांश म्हणजे एक लांब मजकूर, किंवा ग्रंथांचा एक संच घेणे आणि स्वयंचलितपणे एक लहान मजकूर तयार करणे ज्यामध्ये बहुतेक माहिती असते. सोपे ? इतके नाही. प्रथम, आपल्याला कोणती माहिती खरोखर महत्वाची आहे हे मान्य करावे लागेल. मग, आम्ही त्यांना योग्यरित्या काढण्यास, त्यांची पुनर्रचना करण्यास सक्षम असणे आवश्यक आहे, सर्व व्याकरणाच्या मजकूरामध्ये आणि मानवी हस्तक्षेपाशिवाय. आणि हे संभाव्य सारांशांच्या मोठ्या संख्येने मोजल्याशिवाय आहे !

मी माझ्या डॉक्टरेटच्या अगदी आधी या रोमांचक थीमवर सुमारे एक वर्ष काम करण्यास सक्षम होतो, म्हणूनच या पोस्टमध्ये मला या विषयात स्वत: ला विसर्जित करण्याची आणि डोमेनमधील नवीनतम नवकल्पनांचा साठा घेण्याची संधी आहे.

तर मग या थीमचे विहंगावलोकन घेऊया, अस्तित्त्वात असलेल्या विविध प्रकारच्या सारांशांचे वर्णन करून, दोन प्रकारच्या प्रणालींवर किंचित तपशीलवार राहण्यापूर्वी: एआय आणि न्यूरल नेटवर्कमधील आणि जे त्याऐवजी इष्टतम काढण्यावर लक्ष केंद्रित करतात. माहिती.

सारांश विविध प्रकारचे

जेव्हा आपण सारांश बद्दल बोलतो, तेव्हा आम्ही बर्‍याचदा पुस्तकाच्या मागील कव्हरचा किंवा चित्रपटाच्या स्क्रिप्टच्या वर्णनाचा विचार करतो. सामान्यत: ते शेवटचे खराब करणे टाळतात, जेव्हा एखाद्याने क्लासिक स्वयंचलित सारांशातील एखादे साधन विचारले असेल तर: षड्यंत्र सांगण्यासाठी, जेणेकरून सारांश आवश्यक गोष्टी जाणून घेण्यासाठी पुरेसे असेल. येथे आहे मोनो-डॉक्युमेंट सारांश, असे म्हणायचे आहे की आम्ही फक्त एक दस्तऐवज (एक चित्रपट, एक पुस्तक, एक लेख, …) सारांश देतो.

उलटपक्षी, आम्हाला एक हवे आहे बहु-डॉक्युमेंटरी सारांश, की आम्ही प्रेस पुनरावलोकनांच्या संदर्भात अधिक वारंवार भेटतो: आम्हाला विविध प्रेस संस्थांनी दिलेल्या अहवालानुसार सर्वात महत्वाच्या माहितीचा सारांश हवा आहे.

एकदा आम्ही सारांश, मोनो किंवा मल्टी-डॉक्युमेंटरीचा सारांश देण्याचा प्रयत्न करीत असलेल्या डेटाचा निर्णय घेतल्यानंतर आमच्याकडे दोन पध्दती दरम्यान निवड आहे:एक्सट्रॅक्टिव्ह, सारांश तयार करण्यासाठी परत ठेवण्यापूर्वी माहितीची काय माहिती आहे आणि दृष्टिकोन उत्पादक, ज्यामध्ये नवीन वाक्य तयार करणे समाविष्ट आहे, जे मूळतः कागदपत्रांमध्ये दिसत नाहीत, अधिक द्रवपदार्थ आणि मुक्त सारांश मिळविण्यासाठी.

या निकषांव्यतिरिक्त, सारांशांच्या विविध शैली आहेत, ज्या आम्ही येथे पोहोचणार नाहीत: नवीन दस्तऐवजात दिसणार्‍या माहितीचा सारांशित सारांश अद्यतनित करा आणि जे आतापर्यंत सूचीबद्ध केले गेले नाही, सारांशित निर्देशित केले गेले आहे ज्यात अचूक कोन स्वीकारणे समाविष्ट आहे वापरकर्त्याने दिले, ..

एआय आणि न्यूरल नेटवर्क स्वयंचलित सारांशात क्रांती घडवतात

-2010 च्या दशकाच्या मध्यापर्यंत, बहुतेक सारांश एक्सट्रॅक्टिव्ह होते. तथापि, या अल्गोरिदममध्ये आधीपासूनच मोठी विविधता अस्तित्त्वात आहे जी संपूर्ण वाक्यांच्या निवड आणि काढण्यापासून ते अचूक माहितीच्या काढण्यापर्यंत असू शकते आणि नंतर टेम्पलेट्स नावाच्या छिद्रांसह तयार केलेल्या मजकूरात. तंत्रिका नेटवर्कवर आधारित नवीन पध्दतींच्या आगमनामुळे परिस्थिती बर्‍यापैकी बदलली आहे. या अल्गोरिदम पूर्वीच्या तुलनेत व्याकरणात्मक आणि द्रवपदार्थाचा मजकूर तयार करण्यासाठी अधिक प्रभावी आहेत, जसे की या जीपीटी डेमोद्वारे काय केले जाऊ शकते.

न्यूरल नेटवर्क्सना, तथापि, मोठ्या प्रमाणात डेटा प्रशिक्षित करण्यासाठी आवश्यक आहे आणि तुलनेने अनलॉथे आहे. ते कोणत्या गोष्टींसाठी महत्त्वाचे आहे अशा टिप्पण्या व्युत्पन्न करण्यासाठी ते उत्तम प्रकारे कार्य करतात, परंतु प्रेस लेखांच्या सारांशांच्या संदर्भात समस्याप्रधान असलेल्या विरोधाभासी किंवा फक्त चुकीच्या माहिती निर्माण करू शकतात. बर्‍याच संशोधन लेखांना तंत्रिका नेटवर्कच्या या “भ्रम” मध्ये रस आहे.

संकरित साधनाचे उदाहरण: पोटारा

स्वयंचलित सारांश हा पहिला संशोधन विषय होता ज्यामध्ये मला रस होता आणि मला माझ्या मास्टर दरम्यान एकाधिक-दस्तऐवज दृष्टिकोनासाठी एक्सट्रॅक्शन/पिढीद्वारे सारांश एक संकरित प्रणाली विकसित करण्याची संधी मिळाली, म्हणजे दस्तऐवजांच्या संचाचे सारांश द्या त्याच विषयाचा.

क्लासिक एक्सट्रॅक्शनपासून प्रारंभ करण्याची कल्पना होती, म्हणजे सर्वात महत्वाची वाक्ये ओळखणे आणि सारांश तयार करण्यासाठी त्यांना एकत्र करणे. या दृष्टिकोनाची समस्या अशी आहे की सर्वात महत्वाची वाक्ये बर्‍याचदा सुधारली जाऊ शकतात. उदाहरणार्थ, राष्ट्रपती पदाच्या विस्थापनाविषयी बोलताना एका लेखात, “इमॅन्युएल मॅक्रॉनने आपला अमेरिकन समकक्ष पूर्ण केला आणि अर्थशास्त्रावर चर्चा केली” “इमॅन्युएल मॅक्रॉन जो बिडेनला भेटला आणि चर्चा केलेल्या अर्थव्यवस्थेमध्ये” सुधारित केले जाऊ शकते. पत्रकार काळजीपूर्वक तालीम टाळणे, आम्ही स्वत: ला वारंवार या प्रकारच्या घटनेचा सामना करतो.

या दोषांवर मात करण्यासाठी, आम्ही वेगवेगळ्या कागदपत्रांमध्ये उपस्थित समान वाक्ये ओळखू शकतो आणि एक चांगले वाक्य मिळविण्यासाठी त्या विलीन करण्याचा प्रयत्न करू शकतो. एएनएसआय, खालील दोन वाक्यांमधून:

  • इमॅन्युएल मॅक्रॉनने वॉशिंग्टनमध्ये आपला अमेरिकन समकक्ष भेटला आणि अर्थशास्त्राबद्दल लांबीचे बोलले.
  • फ्रेंच राष्ट्रपतींनी जो बिडेन यांची भेट घेतली आणि अर्थशास्त्रावर चर्चा केली.

आम्ही एक लहान आणि माहितीपूर्ण वाक्य तयार करू शकतो:

  • इमॅन्युएल मॅक्रॉन वॉशिंग्टनमध्ये जो बिडेनला भेटला आणि अर्थशास्त्रावर चर्चा केली.

हा निकाल साध्य करण्यासाठी अनेक चरणांची आवश्यकता आहे: समान वाक्ये शोधणे, सर्वोत्कृष्ट फ्यूजन शोधणे, मूळ वाक्यापेक्षा फ्यूजन बरेच चांगले आहे हे तपासणे. ते बर्‍याच तंत्रज्ञानाचा एक भाग घेतात: समान वाक्य शोधण्यासाठी न्यूरल नेटवर्कसह वर्ड 2, त्यांना विलीन करण्यासाठी को-क्कुरेन्स आलेख, सर्वोत्कृष्ट विलीनीकरण निवडण्यासाठी आयएलपी ऑप्टिमायझेशन.

आपण अधिक पाहू इच्छित असल्यास, पोटारा हे मुक्त-स्त्रोत आहे, परंतु काही काळ देखरेख केली गेली नाही. या प्रकल्पात मी रिलीज झाल्यावर शोकेस म्हणून काम केले होते आणि म्हणूनच दस्तऐवजीकरण, चाचण्या, सतत एकत्रीकरण, पायपीआय वर उपयोजन, ..

एक चांगला स्वयंचलित सारांश काय आहे ?

जर काही निकषांचे मूल्यांकन करण्यासाठी स्पष्ट आणि तुलनेने सोपे वाटले तर (उदाहरणार्थ वाक्यांचे व्याकरणात्मकता), इतर बरेच जटिल आहेत. मजकूराची सर्वात महत्वाची माहिती कोणती आहे हे ठरविणे स्वतःमध्ये एक अतिशय व्यक्तिनिष्ठ कार्य आहे. तरलतेचे मूल्यांकन करा, वापरलेल्या शब्दांची योग्य निवड, पुन्हा कामात परत येते आणि सारांश घेऊ शकणार्‍या राजकीय अभिमुखतेबद्दल बोलू नये !

न्यूरल नेटवर्कवर आधारित नवीन जनरेटिंग मॉडेल्समध्ये पेजोरेटिव्ह निर्णय किंवा पात्रता (किंवा वापरकर्ता -मैत्रीपूर्ण) सादर करण्याची शक्यता आहे, जेव्हा एखाद्या चित्रपटाच्या समीक्षकाची निर्मिती करण्याचा विचार केला जातो, परंतु राष्ट्रपती पदाच्या उमेदवाराच्या कार्यक्रमाबद्दल बोलताना खूपच कमी !

म्हणूनच स्वयंचलित सारांश संशोधनात एक अतिशय सक्रिय विषय राहिला आहे आणि तो एका क्षणासाठी असू शकतो, विशेषत: अल्गोरिदमच्या परिणामास मार्गदर्शन करण्याच्या क्षमतेच्या संदर्भात, एखाद्या विशिष्ट भावना, विशिष्ट शैलीकडे, एक राजकीय रंग दिलेल्या राजकीय रंगात. उद्योगात, तो नुकताच अत्यंत विशिष्ट कार्यकारी अधिकारी (उदाहरणार्थ बैठकीचा सारांश) प्रविष्ट करण्यास सुरवात करतो.

अध्यक्षीय 2022: आपल्या डेटावर !

2022 च्या राष्ट्रपती पदाच्या निवडणुकीसाठी डेटा प्रकल्पांची 3 उदाहरणे.

Thanks! You've already liked this