Laboratorul de Data Science

Sesiune de instruire a doctoranzilor in cadrul Laboratorului de Data Science cu Aplicații în Business și Economie

            In data de 17 iunie 2022, în cadrul Conferinței ICESS 2022, “Fostering recovery through metaverse business modelling”, a fost realizată o sesiune de instruire a doctoranzilor participanți ai secțiunii Applied Economics, Statistics and Data Science ce a insumat un număr de 29 de abstracte. În cadrul secțiunii au fost aplicate metode specifice domeniului data science analiza de text(text mining) fiind realizata pe abstractele lucrărilor încărcate la conferința.

Analiza și-a propus sa ofere răspunsuri la următoarele întrebări: Care sunt termenii cheie asociați cu domeniul data science reflectati de publicațiile secțiunii de Data Science? Care este perechea de doi termeni care apare cel mai des în abstractele secțiunii? Care este cea mai asociată pereche de termeni în publicațiile științifice? Care sunt cele mai importante teme abordate?

Pentru a reflecta toate acestea a fost utilizata analiza de text ce are la bază analiza norului de cuvinte si a perechilor de cuvinte, analiza cuvintelor care tind sa apară concomitent în cadrul abstractelor prin reteaua cuvintelor si retereaua corelațiilor dar si topic modelling pentru a reliefa principalele teme de cercetare.

În termenii celor mai frecvente cuvinte intalnite in abstractele publicațiilor, se pot menționa cuvinte precum “economic”, “development”, “analysis”, “study”, “pandemic”, european countries”, “education”, “data”, “research”.

Fig.1.Cele mai frecvente cuvinte în publicațiile științifice

Dacă se analizează de această dată perechile de cuvinte cu cea mai mare frecvență, rezultatele evidențiază cuvinte precum “covid-19”, “19 pandemic”, “income inequality”, “economic growth”, “heath expenditure”, “strategic innovation”, “firm performance”, “artificial intelligence”.

Fig.2.Cele mai frecvente perechi de cuvinte  în publicațiile științifice

Examinând cele mai corelate cuvinte din abstractul articolelor, rezultatele empirice evidențiază următoarele combinații de cuvinte ca fiind cele mai des întâlnite: covid-pandemic, sustainable global, growth countries expenditure, knowledge-performance-technology.

Fig.3.Rețeaua de corelare în abstractele  publicațiilor științifice

 Rezultatele empirice pentru rețeaua de cuvinte au evidentiat nodurile cu cel mai inalt grad de centralitate(numărul de legături incidente pe un nod) ca fiind economic-financial development-social, results-pandemic study data, context-analysis-covid.

Fig 4. Rețeaua de cuvinte în abstractul publicațiilor științifice

 În procesul de explorare a principalelor subiecte întâlnite în articolele științifice, au fost identificate șase teme majore. Rezultatele empirice au evidențiat următoarele combinații de cuvinte în aceste subiecte diferite (figura 5):

  • Topicul 1 este definit in termenii inegalitatii veniturilor si a politicii fiscale si monetare;
  • Topicul 2 este relationat cu pandemia si chetuielile cu sanatatea;
  • Topicul 3 este definit in termenii dezvoltarii sustenabile si tehnologiei;
  • Topicul 4 definit in termenii crizei financiare globale;
  • Topicul 5 este definit de munca nedeclarata;
  • Topicul 6 este relationat cu educatia.

Fig. 5. Cuvinte cheie în modelarea temelor principale din abstractele articolelor științifice