Simon Poghosyan është themeluesi dhe CEO i GSpeech, një platformë e inteligjencës artificiale e bazuar në internet që ndihmon në bërjen e përmbajtjes online më të arritshme duke konvertuar tekstin në audio me tingull natyral në mbi 70 gjuhë. Me një sfond në Dizajnin VLSI dhe një interes të fortë në programim dhe përvojën e përdoruesit, Simon krijoi GSpeech për të thjeshtuar mënyrën se si faqet e internetit mund të ofrojnë përmbajtje të aktivizuar me zë.
Sot, GSpeech gjeneron rreth 200 milionë karaktere audio çdo muaj dhe përdoret në mbi 70 vende, me programet e saj të personalizueshme audio që shërbejnë mbi 200,000 luajtje në muaj. Duke tejkaluar së fundmi 1 miliard karaktere audio të gjeneruara në total, GSpeech vazhdon të rritet me shpejtësi. Platforma është projektuar të jetë e lehtë për t'u integruar - duke kërkuar vetëm një rresht të vetëm kodi - dhe mbështet krijuesit, edukatorët dhe bizneset për ta bërë përmbajtjen e tyre më gjithëpërfshirëse dhe tërheqëse.
Përvoja juaj e hershme në Dizajnin VLSI (Integrim në Shkallë Shumë të Madhe) dhe përvoja juaj e hershme në programim hodhën një themel të fortë teknik. Çfarë ju frymëzoi të kaloni nga mikroelektronika në ndërtimin e softuerëve të mundësuar nga IA, dhe si çoi kjo në krijimin e GSpeech?
Pasioni im për zgjidhjen e problemeve filloi në shkollën e mesme, i nxitur nga dashuria për matematikën dhe fizikën. Ky interes më çoi të fitoj një diplomë Bachelor (2009) dhe një diplomë Master (2011) në Dizajn VLSI nga Universiteti Shtetëror i Inxhinierisë i Armenisë, në bashkëpunim me Synopsys Armenia. Studimi i fizikës më stërviti në të menduarit preciz dhe analitik, por ishte gjatë vitit të dytë që zbulova programimin - duke filluar me gjuhën Pascal - dhe menjëherë u dashurova me të. Unë dhe shoku im i përfundonim detyrat e kursit sapo i merrnim, edhe pse kishim gjashtë muaj për t'i përfunduar. Pastaj, për argëtim, filluam të bënim detyrat e studentëve të tjerë.
Ky pasion më çoi më thellë në zhvillimin e softuerëve. Fillova me krijimin e faqeve të internetit, pastaj ndërtova CMS-në time. Pasi përfundova disa projekte në automatizimin e proceseve dhe projektimin e arkitekturave të menaxhimit të të dhënave, kuptova se sa shumë më pëlqente të ndërtoja zgjidhje dixhitale për ndërfaqet e internetit. Përmes projektit 2GLux, bashkëpunova me Edvard Ananyan — krijuesin e projektit të famshëm GTranslate shërbim përkthimi dhe një mik shkolle nga Kuanti Gymnasium. Ai më prezantoi me ekosistemet WordPress dhe Joomla, si dhe konceptin për GSpeech e ka origjinën prej tij. Kjo punë e hershme çoi në versionin e parë të mjetit tonë, duke u mundësuar përdoruesve të dëgjonin tekstin në një faqe interneti, duke mbjellë farën për atë që më vonë do të bëhej një platformë e plotë e inteligjencës artificiale. Deri në vitin 2023, unë krijova Smarts Club LLC në shkallë GSpeech në një zgjidhje globale audio me inteligjencë artificiale, që mbështet mbi 70 gjuhë. Humanity UnionLëvdatat e GSpeech për rolin e GSpeech në përmirësimin e aksesueshmërisë së platformës së tyre të angazhimit qytetar pasqyrojnë misionin tim për të kapërcyer hendeqet dixhitale përmes inteligjencës artificiale — një vizion i rrënjosur në ditët e mia të hershme të programimit.
GSpeech fillimisht filloi si një mjet për të mbështetur përdoruesit me shikim të kufizuar. Si ndikoi ky mision i hershëm në evolucionin e platformës në një zgjidhje të plotë të konvertimit të tekstit në të folur me anë të inteligjencës artificiale?
Fokusi te aksesueshmëria nxiti zhvillimin e audios me cilësi të lartë dhe në kohë reale me inteligjencë artificiale, përkthimin në mbi 70 gjuhë dhe integrimin e përsosur të faqes së internetit nëpërmjet një fragmenti të thjeshtë kodi. Ky mision çoi në veçori si riprodhues audio të personalizueshëm, panele përzgjedhëse të gjuhës dhe zërit, luajtje sipas kontekstit, shkarkime audio dhe statistika të detajuara përdorimi - duke përfshirë vendin, qytetin, të dhënat e pajisjes dhe analizat e luajtjes me kalimin e kohës - të gjitha të dizajnuara për ta bërë përmbajtjen më gjithëpërfshirëse dhe tërheqëse. Pasi shkrova mbi 100,000 rreshta kodi, lançova GSpeech Cloud Console në vitin 2023 - një zgjidhje e shkallëzueshme që balancon përfshirjen me funksionalitetin e përparuar, duke fuqizuar bizneset dhe krijuesit për ta bërë përmbajtjen e tyre të arritshme, shumëgjuhëshe dhe interaktive në të gjithë rrjetin.
Cilat ishin disa nga sfidat më të mëdha teknike me të cilat u përballët gjatë zhvillimit të GSpeech Cloud Console?
Një nga sfidat më të mëdha në zhvillimin e GSpeech Cloud Console ishte hartimi i një arkitekture të shkallëzueshme për gjenerimin e audios me anë të inteligjencës artificiale në kohë reale, të sigurt dhe me cilësi të lartë. Kjo kërkonte zgjidhje inovative për të marrë përmbajtje relevante nga uebi, për të përpunuar audion në serverat tanë dhe për ta ruajtur atë në cloud për shpërndarje të shpejtë dhe të besueshme. Zbatimi i masave të forta sigurie, si enkriptimi dhe kontrollet e aksesit, ishte kritik për të mbrojtur përmbajtjen dinamike të gjeneruar nga përdoruesit.
Një pengesë tjetër ishte mundësimi i përkthimit në kohë reale duke përdorur motorë nervorë të përparuar. Na u desh të siguronim përkthime me vonesë të ulët dhe të sakta, ndërkohë që ndërtonim një ndërfaqe intuitive që u lejonte përdoruesve të zgjidhnin gjuhët dhe profilet e zërit të preferuar për luajtje, duke i dhënë përparësi komoditetit dhe personalizimit të përdoruesit. Së fundmi, zhvilluam një asistent krijuesi shabllonesh audio me pamje të shumëfishta të personalizueshme të lexuesve, duke u lejuar përdoruesve të dizajnonin lexues unikë dhe tërheqës vizualisht të përshtatur për faqet e tyre të internetit. Balancimi i fleksibilitetit, performancës dhe lehtësisë së përdorimit në të gjitha pajisjet ishte një sfidë e kënaqshme.
Me përkthim në kohë reale në mbi 70 gjuhë dhe mbi 230 zëra me tinguj natyralë. Si e siguroni cilësinë e zërit dhe ruani saktësinë në një grup kaq të larmishëm gjuhësh?
Për të ruajtur cilësinë e zërit të qëndrueshme, ne integrojmë modele të shumta të avancuara të konvertimit të tekstit në të folur (TTS) që optimizohen dhe përditësohen vazhdimisht. Këta motorë shumëgjuhësh trajtojnë përmbajtje me gjuhë të përziera me saktësi të lartë. Gjithashtu, po lançojmë mbi 100 vibra të reja zanore për t'u dhënë përdoruesve opsione edhe më ekspresive dhe me tinguj natyralë. Çdo muaj, GSpeech gjeneron mbi 200 milionë karaktere audio, duke u shërbyer përdoruesve në më shumë se 70 vende, me programet tona online që përdoren mbi 200,000 herë në muaj - dhe duke u rritur. Kjo shkallë siguron reagime të vazhdueshme dhe testime në botën reale, të cilat informojnë drejtpërdrejt kontrollet tona të akordimit dhe cilësisë.
A mund të na shpjegoni se si GSpeech shfrytëzon inteligjencën artificiale dhe të mësuarit automatik për të ofruar sintezë zëri realiste? Si ia dilni të qëndroni në hap me përparimet e shpejta në teknologjinë e zërit neuronal?
GSpeech përdor inteligjencë artificiale dhe të mësuarit automatik të avancuar, duke integruar modele të shumta të konvertimit të tekstit në të folur të teknologjisë së fundit për të prodhuar sintezë zëri realiste. Këto modele, të optimizuara për natyralitet dhe mbështetje shumëgjuhëshe, përpunojnë të dhënat e tekstit për të gjeneruar audio me cilësi të lartë me intonacion dhe ritëm realist, madje edhe për përmbajtje me gjuhë të përziera. Ne përmirësojmë përvojën e përdoruesit duke ofruar stile zëri të personalizueshme për gjuhë të ndryshme. Ne gjithashtu kemi integruar pseudonime TTS, të cilat u lejojnë përdoruesve të përcaktojnë rregulla të personalizuara për mënyrën se si fjalë ose fraza të caktuara jepen në audio - për shembull, duke zëvendësuar terma specifikë për të arritur shqiptim ose formulim më të saktë. Për të qëndruar në hap me teknologjinë e zërit nervor, ne vazhdimisht vlerësojmë dhe integrojmë përparimet më të fundit, bashkëpunojmë me liderët e industrisë dhe planifikojmë të zhvillojmë modele të patentuara në të ardhmen, duke siguruar që GSpeech të mbetet në ballë të inovacionit të sintezës së zërit.
Sa e rëndësishme është akordimi i zërit, kontrolli i lartësisë së tonit dhe personalizimi i riprodhimit për përdoruesit tuaj - dhe në cilin rast përdorimi jeni më krenarë ku këto veçori shkëlqejnë vërtet?
Akordimi i zërit, kontrolli i lartësisë së zërit dhe personalizimi i riprodhimit janë thelbësore për përdoruesit tanë, duke i mundësuar atyre të krijojnë stile unike zëri me cilësi të lartë, të përshtatura sipas nevojave të tyre specifike, nga faqet e lajmeve dhe blogjeve deri te përmbajtja e aksesueshme e-learning. Integrimi i vazhdueshëm i mbi 100 vibracioneve të reja zanore e përmirëson më tej këtë, duke u ofruar përdoruesve fleksibilitet të pakrahasueshëm për të krijuar zëra vërtet dallues. Jam shumë krenar për GSpeech Studio, një platformë të re për redaktim dhe gjenerim audio që po zhvilloj. Ajo u lejon përdoruesve të krijojnë kanale të shumta audio, t'i përziejnë ato me muzikë në sfond dhe të eksportojnë zëra të rafinuar, duke i fuqizuar krijuesit të prodhojnë audio të nivelit profesional për aplikacione të ndryshme. Letra e një studenti me shikim të kufizuar, duke falënderuar GSpeech për mundësimin e studimit të pavarur përmes audios së personalizuar, më preku thellë. Ky rast përdorimi tregon se si këto karakteristika e bëjnë përmbajtjen të aksesueshme dhe transformuese, një qëllim që e kam ndjekur që nga ditët e mia të hershme të programimit.
GSpeech ofron integrime të përsosura me WordPress, Shopify, Wix dhe të tjera. Cila ka qenë strategjia juaj për ta bërë platformën plug-and-play për krijuesit dhe bizneset në ekosisteme të ndryshme?
Strategjia jonë për integrimet plug-and-play të GSpeech me platforma si WordPress, Shopify dhe Wix u përqendrua në thjeshtësi, përputhshmëri dhe shkallëzueshmëri. Ne zhvilluam plugin-e dhe fragmente kodi të lehta, modulare që integrohen pa probleme, duke kërkuar konfigurim minimal - shpesh vetëm disa klikime. Kjo do të thotë që mijëra artikuj dhe blloqe përmbajtjeje dinamike mund të fitojnë menjëherë mbështetje zanore - pa përpjekje manuale. Ne ofrojmë programe shumë fleksibile dhe të dizajnuara bukur që përshtaten në të gjitha pajisjet, duke përfshirë celularët, tabletët dhe desktopët. Programet tona jo vetëm që janë të personalizueshme, por edhe të optimizuara për aksesueshmëri dhe angazhim të përdoruesit. Për WordPress, ne integruam panelin e kontrollit të cloud-it GSpeech direkt në panelin e administratorit përmes plugin-it tonë, duke përmirësuar menaxhimin për përdoruesit. Dokumentacioni i detajuar dhe panelet intuitive i udhëzojnë përdoruesit jo-teknikë përmes instalimit dhe personalizimit. Testimi i rregullt siguron performancë të qëndrueshme në ekosisteme të ndryshme, duke fuqizuar krijuesit dhe bizneset për të shtuar tekst-në-fjalë të mundësuar nga IA pa mundim.
Duke parë prapa në udhëtimin nga viti 2012 deri më sot, cili ka qenë momenti më i rëndësishëm për ju personalisht ose profesionalisht në ndërtimin e GSpeech?
Arritja më e madhe për GSpeech ishte gjenerimi i 1 miliard karaktereve audio me cilësi të lartë të inteligjencës artificiale, duke shfaqur ndikimin tonë global në aksesueshmëri. Po aq domethënëse kanë qenë reagimet që kemi marrë nga organizata si Humanity Union, të cilat vlerësuan GSpeech për përmirësimin e platformës së tyre të përgjegjësisë sociale, dhe nga pronarët e blogjeve të cilët e quajtën atë një "ndryshues të lojës" për angazhimin e përdoruesve. Mbi 110 vlerësime me pesë yje në platforma si WordPress AppSumo në muajt e fundit pasqyrojnë këtë besim në rritje.
GSpeech tani përdoret në mënyrë aktive edhe nga Departamenti rajonal i statistikave Namangan në Uzbekistan — një institucion qeveritar me trafik të konsiderueshëm dhe dukshmëri në nivel kombëtar. Të shohësh një organ publik të përqafojë teknologjinë tonë në një shkallë kaq të gjerë ka qenë një moment historik domethënës dhe një shenjë e fuqishme besimi në zgjidhjen tonë.
Si i krishterë dhe dikush që shërben në kishën armene, përpiqem gjithashtu të mbështes iniciativa të tjera të bazuara në besim sa herë që është e mundur. Shpesh ofroj GSpeech falas për faqet e internetit të krishtera si një mënyrë për të ndihmuar në përhapjen e mesazhit të tyre në mënyrë më efektive dhe për ta bërë Shkrimin e Shenjtë më të arritshëm përmes audios. Është kontributi im i vogël për diçka më të madhe. Në të njëjtën kohë, jam i nderuar të punoj me shërbesa të përkushtuara si Kordoni — një kongregacion mesianik dhe klient i vlerësuar i GSpeech — misioni dhe përmbajtja e të cilit pasqyrojnë fuqinë e Shkrimit të Shenjtë në veprim.
Këto momente — kur teknologjia bëhet një urë për besim, mirëkuptim dhe përfshirje — më kujtojnë pse e ndërtuam GSpeech që në fillim.
Çfarë roli mendoni se do të luajë GSpeech në të ardhmen e mediave dixhitale, veçanërisht ndërsa përmbajtja audio dhe ndërfaqet zanore bëhen më dominuese?
Unë e parashikoj GSpeech si një lider në bërjen e medias dixhitale më të arritshme dhe tërheqëse duke mundësuar aksesin zanor të mundësuar nga inteligjenca artificiale në internet. Qëllimi ynë është të transformojmë të gjithë përvojën online, në mënyrë që faqet e internetit të bëhen natyrshëm ndërvepruese me zërin, gjithëpërfshirëse dhe shumëgjuhëshe si parazgjedhje. Me vetëm një rresht kodi, pronarët e faqeve mund të shndërrojnë mijëra artikuj në përmbajtje me zë. Duke parë përpara, ne po e zhvillojmë GSpeech Studio në një platformë të fuqishme dhe unike për gjenerimin dhe redaktimin e audios, duke u mundësuar përdoruesve të krijojnë përmbajtje zanore me shumë shtresa me muzikë në sfond, efekte dhe akordim të saktë. Ne duam ta bëjmë uebin vërtet të dëgjueshëm, intuitiv dhe të arritshëm universalisht.
GSpeech u lançua së fundmi në AppSumo dhe tashmë ka fituar një vlerësim pothuajse perfekt nga përdoruesit e hershëm. Çfarë domethënie ka pasur për ju reagimi nga komuniteti i AppSumo-s dhe si planifikoni të shfrytëzoni këtë moment në të ardhmen?
Lançimi i AppSumo-s prezantoi GSpeech-in tek miliona njerëz dhe vlerësimi i tij pothuajse perfekt është jashtëzakonisht konfirmues. Përdoruesit, si ata që drejtojnë kurse online, lavdërojnë mjetet tona intuitive dhe mbështetjen reaguese, duke përsëritur reagimet nga Humanity Union. Një pronar blogu i quajti zërat tanë "vërtet tërheqës" dhe përkthimet "mbresëlënëse". Reagimet e tyre pozitive konfirmojnë vlerën e zgjidhjes sonë të konvertimit të tekstit në të folur të mundësuar nga inteligjenca artificiale dhe nxisin pasionin tim për projektin. Mbështetja e klientëve gjatë lançimit nxiti gjithashtu ide të reja, veçanërisht për GSpeech Studio, i cili u frymëzua nga kërkesat e përdoruesve për funksione të avancuara të redaktimit të audios dhe eksportimit. Duke ecur përpara, planifikoj të ndërtoj mbi këtë moment duke dëgjuar në mënyrë aktive komunitetin tonë, duke integruar reagimet e tyre dhe duke zhvilluar funksione inovative për të rritur aksesueshmërinë dhe angazhimin, duke siguruar që GSpeech të vazhdojë të evoluojë si një mjet transformues për krijuesit dhe bizneset.
Së fundmi, çfarë këshille do t'u jepnit zhvilluesve ose sipërmarrësve të rinj që duan të ndërtojnë mjete të aksesueshme, të mundësuara nga inteligjenca artificiale, në peizazhin teknologjik që po ndryshon me shpejtësi sot?
Për zhvilluesit dhe sipërmarrësit e rinj, këshilla ime është që të përkushtohen plotësisht në punën e tyre dhe të identifikojnë një problem të vërtetë ku mund të ofrojnë një zgjidhje unike dhe të zgjuar. Filloni me hapa të vegjël, bëni hapa të qëndrueshëm përpara dhe dëgjoni me kujdes reagimet e klientëve - ato do t'ju udhëheqin në rrugën tuaj. Trajtojini përdoruesit tuaj si miq të besuar, jepni gjithçka nga vetja juaj dhe qëndroni të duruar. Përqafojini teknologjitë e inteligjencës artificiale si aleatë të fuqishëm; kur përdoren me mençuri, ato përforcojnë aftësinë tuaj për të krijuar mjete me ndikim dhe të arritshme. Ndërtoni me pasion, këmbëngulje dhe një angazhim për të bërë një ndryshim, dhe do të krijoni zgjidhje që vërtet kanë rëndësi.
Faleminderit Antoine Tardif për intervistën. Mund ta lexoni intervistën e plotë këtu: bashkohen.ai.