सिस्टम-वाइड ऑफ़लाइन वॉयस टू कमांड या टेक्स्ट, प्लग करने योग्य सिस्टम

SL5 आभा सेवा - सुविधाएँ और ओएस संगतता

SL5 आभा सेवा में आपका स्वागत है! यह दस्तावेज़ हमारी प्रमुख विशेषताओं और उनकी ऑपरेटिंग सिस्टम अनुकूलता का त्वरित अवलोकन प्रदान करता है।

आभा सिर्फ एक प्रतिलेखक नहीं है; यह एक शक्तिशाली, ऑफ़लाइन प्रोसेसिंग इंजन है जो आपकी आवाज़ को सटीक क्रियाओं और टेक्स्ट में बदल देता है।

यह वोस्क और लैंग्वेजटूल पर निर्मित एक पूर्ण, ऑफ़लाइन सहायक है, जिसे प्लग करने योग्य नियम प्रणाली और एक गतिशील स्क्रिप्टिंग इंजन के माध्यम से अंतिम अनुकूलन के लिए डिज़ाइन किया गया है। Xस्पेसब्रेकX Xस्पेसब्रेकX अनुवाद: यह दस्तावेज़ other languages में भी मौजूद है।

ध्यान दें: कई पाठ मूल अंग्रेजी दस्तावेज़ के मशीन-जनित अनुवाद हैं और केवल सामान्य मार्गदर्शन के लिए हैं। विसंगतियों या अस्पष्टताओं के मामले में, अंग्रेजी संस्करण हमेशा मान्य होता है। इस अनुवाद को बेहतर बनाने के लिए हम समुदाय की मदद का स्वागत करते हैं!

SL5 Aura (v0.7.0.2): A Deep Dive Under the Hood – Live Coding & Core Concepts ( https://skipvids.com/?v=tEijy8WRFCI )

प्रमुख विशेषताऐं

  • ऑफ़लाइन और निजी: 100% स्थानीय। आपकी मशीन से कोई भी डेटा कभी नहीं छूटता।

  • डायनेमिक स्क्रिप्टिंग इंजन: टेक्स्ट रिप्लेसमेंट से आगे बढ़ें। एपीआई को कॉल करने (उदाहरण के लिए, विकिपीडिया खोजना), फ़ाइलों के साथ इंटरैक्ट करना (उदाहरण के लिए, टू-डू सूची प्रबंधित करना), या गतिशील सामग्री उत्पन्न करना (उदाहरण के लिए, एक संदर्भ-जागरूक ईमेल ग्रीटिंग) जैसी उन्नत क्रियाएं करने के लिए नियम कस्टम पायथन स्क्रिप्ट (on_match_exec) निष्पादित कर सकते हैं।

  • उच्च-नियंत्रण परिवर्तन इंजन: एक कॉन्फ़िगरेशन-संचालित, उच्च अनुकूलन योग्य प्रसंस्करण पाइपलाइन लागू करता है। नियम प्राथमिकता, कमांड डिटेक्शन और टेक्स्ट ट्रांसफॉर्मेशन पूरी तरह से फ़ज़ी मैप्स में नियमों के अनुक्रमिक क्रम द्वारा निर्धारित किए जाते हैं, जिसमें कॉन्फ़िगरेशन की आवश्यकता होती है, कोडिंग की नहीं

  • कंजर्वेटिव रैम उपयोग: बुद्धिमानी से मेमोरी का प्रबंधन करता है, पर्याप्त खाली रैम उपलब्ध होने पर ही मॉडल को प्रीलोड करता है, यह सुनिश्चित करता है कि अन्य एप्लिकेशन (जैसे आपके पीसी गेम) को हमेशा प्राथमिकता मिले।

  • क्रॉस-प्लेटफ़ॉर्म: Linux, macOS और Windows पर काम करता है।

  • पूरी तरह से स्वचालित: अपने स्वयं के लैंग्वेजटूल सर्वर को प्रबंधित करता है (लेकिन आप बाहरी का भी उपयोग कर सकते हैं)।

  • तेज़ी से चमकना: इंटेलिजेंट कैशिंग तुरंत “सुनना…” सूचनाएं और तेज़ प्रोसेसिंग सुनिश्चित करता है।

दस्तावेज़ीकरण

सभी मॉड्यूल और स्क्रिप्ट सहित संपूर्ण तकनीकी संदर्भ के लिए, कृपया हमारे आधिकारिक दस्तावेज़ीकरण पृष्ठ पर जाएँ। यह स्वचालित रूप से उत्पन्न होता है और हमेशा अद्यतित रहता है।

Go to Documentation >>

स्थिति बनाएं

Linux Manjaro Linux Ubuntu Linux Suse macOS Windows 11

Documentation

इसे अन्य भाषाओं में पढ़ें:

🇬🇧 English | 🇸🇦 العربية | 🇩🇪 Deutsch | 🇪🇸 Español | 🇫🇷 Français | 🇮🇳 हिन्दी | 🇯🇵 日本語 | 🇰🇷 한국어 | 🇵🇱 Polski | 🇵🇹 Português | 🇧🇷 Português Brasil | 🇨🇳 简体中文


स्थापना

सेटअप दो चरणों वाली प्रक्रिया है:

  1. इस रिपॉजिटरी को अपने कंप्यूटर पर क्लोन करें।

  2. अपने ऑपरेटिंग सिस्टम के लिए वन-टाइम सेटअप स्क्रिप्ट चलाएँ।

सेटअप स्क्रिप्ट सब कुछ संभालती है: सिस्टम निर्भरता, पायथन वातावरण, और अधिकतम गति के लिए हमारे GitHub रिलीज़ से सीधे आवश्यक मॉडल और टूल (~ 4GB) डाउनलोड करना।

Linux और macOS और विंडोज़ के लिए

प्रोजेक्ट की रूट डायरेक्टरी में एक टर्मिनल खोलें और अपने सिस्टम के लिए स्क्रिप्ट चलाएँ: CODE_ब्लॉक_0

विंडोज के लिए

सेटअप स्क्रिप्ट को व्यवस्थापकीय विशेषाधिकारों के साथ चलाएँ “पावरशेल के साथ चलाएँ”

पढ़ने और चलाने के लिए एक उपकरण स्थापित करें जैसे। CopyQ या AutoHotkey v2। यह टेक्स्ट-टाइपिंग देखने वाले के लिए आवश्यक है।


उपयोग

1. सेवाएँ प्रारंभ करें

Linux और macOS पर

एक ही स्क्रिप्ट सब कुछ संभाल लेती है। यह मुख्य श्रुतलेख सेवा और फ़ाइल वॉचर को पृष्ठभूमि में स्वचालित रूप से प्रारंभ करता है। CODE_ब्लॉक_1

विंडोज़ पर

सेवा प्रारंभ करना दो-चरणीय मैन्युअल प्रक्रिया है:

  1. मुख्य सेवा प्रारंभ करें: start_dictation_v2.0.bat चलाएँ। या .venv से python3 के साथ सेवा शुरू करें

2. अपनी हॉटकी कॉन्फ़िगर करें

श्रुतलेख को ट्रिगर करने के लिए, आपको एक वैश्विक हॉटकी की आवश्यकता होती है जो एक विशिष्ट फ़ाइल बनाती है। हम क्रॉस-प्लेटफ़ॉर्म टूल CopyQ की अत्यधिक अनुशंसा करते हैं।

हमारी सिफ़ारिश: CopyQ

ग्लोबल शॉर्टकट के साथ CopyQ में एक नया कमांड बनाएं।

लिनक्स/मैकओएस के लिए कमांड: CODE_ब्लॉक_2

CopyQ का उपयोग करते समय विंडोज़ के लिए कमांड: CODE_ब्लॉक_3

AutoHotkey का उपयोग करते समय विंडोज़ के लिए कमांड: CODE_ब्लॉक_4

3. हुक्म चलाना शुरू करें!

किसी भी टेक्स्ट फ़ील्ड पर क्लिक करें, अपनी हॉटकी दबाएँ, और एक “सुन रहा हूँ…” अधिसूचना दिखाई देगी। स्पष्ट बोलें, फिर रुकें। सही किया गया टेक्स्ट आपके लिए टाइप कर दिया जाएगा.


उन्नत कॉन्फ़िगरेशन (वैकल्पिक)

आप स्थानीय सेटिंग फ़ाइल बनाकर एप्लिकेशन के व्यवहार को अनुकूलित कर सकते हैं।

  1. config/ निर्देशिका पर नेविगेट करें।

  2. settings_local.py_Example.txt की एक प्रति बनाएं और इसका नाम बदलकर settings_local.py कर दें।

  3. मुख्य config/settings.py फ़ाइल से किसी भी सेटिंग को ओवरराइड करने के लिए settings_local.py संपादित करें।

यह settings_local.py फ़ाइल Git द्वारा (शायद) अनदेखा कर दी गई है, इसलिए आपके व्यक्तिगत परिवर्तन (शायद) अपडेट द्वारा ओवरराइट नहीं किए जाएंगे।

प्लग-इन संरचना और तर्क

सिस्टम की मॉड्यूलैरिटी प्लगइन्स/निर्देशिका के माध्यम से मजबूत विस्तार की अनुमति देती है।

प्रसंस्करण इंजन सख्ती से पदानुक्रमित प्राथमिकता श्रृंखला का पालन करता है:

  1. मॉड्यूल लोडिंग ऑर्डर (उच्च प्राथमिकता): कोर भाषा पैक (डी-डीई, एन-यूएस) से लोड किए गए नियम प्लगइन्स/निर्देशिका (जो अंतिम वर्णानुक्रम में लोड होते हैं) से लोड किए गए नियमों पर प्राथमिकता लेते हैं। Xस्पेसब्रेकX

  2. इन-फ़ाइल ऑर्डर (माइक्रो प्राथमिकता): किसी भी दिए गए मैप फ़ाइल (FUZZY_MAP_pre.py) के भीतर, नियमों को लाइन नंबर (ऊपर से नीचे) द्वारा सख्ती से संसाधित किया जाता है। Xस्पेसब्रेकX

यह आर्किटेक्चर सुनिश्चित करता है कि कोर सिस्टम नियम सुरक्षित हैं, जबकि प्रोजेक्ट-विशिष्ट या संदर्भ-जागरूक नियम (जैसे कोडइग्निटर या गेम नियंत्रण के लिए) को प्लग-इन के माध्यम से कम-प्राथमिकता वाले एक्सटेंशन के रूप में आसानी से जोड़ा जा सकता है।

विंडोज़ उपयोगकर्ताओं के लिए मुख्य स्क्रिप्ट

यहां विंडोज़ सिस्टम पर एप्लिकेशन को सेट अप करने, अपडेट करने और चलाने के लिए सबसे महत्वपूर्ण स्क्रिप्ट की एक सूची दी गई है।

सेटअप और अद्यतन

  • setup/setup.bat: पर्यावरण के प्रारंभिक एक-बार सेटअप के लिए मुख्य स्क्रिप्ट।

  • or पॉवरशेल चलाएँ -कमांड "सेट-एक्ज़ीक्यूशनपॉलिसी -एक्ज़ीक्यूशनपॉलिसी बायपास -स्कोप प्रोसेस -फोर्स; .\setup\windows11_setup.ps1"

  • update.bat : इन्हें प्रोजेक्ट फ़ोल्डर से क्रमबद्ध करें नवीनतम कोड और निर्भरताएँ प्राप्त करें

एप्लिकेशन चलाना

  • start_dictation_v2.0.bat: श्रुतलेख सेवा शुरू करने के लिए एक प्राथमिक स्क्रिप्ट।

कोर और सहायक स्क्रिप्ट

  • dictation_service.py: कोर पायथन सेवा (आमतौर पर उपरोक्त स्क्रिप्ट में से एक द्वारा शुरू की गई)।

  • get_suggestions.py: विशिष्ट कार्यात्मकताओं के लिए एक सहायक स्क्रिप्ट।

🚀 मुख्य विशेषताएं और ओएस संगतता

ओएस संगतता के लिए लीजेंड:

  • 🐧 लिनक्स (उदाहरण के लिए, आर्क, उबंटू)

  • 🍏 macOS

  • 🪟 विंडोज़Xस्पेसब्रेकएक्स

  • 📱 एंड्रॉइड (मोबाइल-विशिष्ट सुविधाओं के लिए)


कोर स्पीच-टू-टेक्स्ट (आभा) इंजन

ऑफ़लाइन वाक् पहचान और ऑडियो प्रोसेसिंग के लिए हमारा प्राथमिक इंजन।

Xस्पेसब्रेकX ऑरा-कोर/ 🐧 🍏 🪟
├─ dictation_service.py (मुख्य पायथन सेवा ऑर्केस्ट्रेटिंग ऑरा) 🐧 🍏 🪟
├┬ लाइव हॉट-रीलोड (कॉन्फिग और मैप्स) 🐧 🍏 🪟
│├ पाठ प्रसंस्करण और सुधार/ भाषा के आधार पर समूहीकृत (जैसे डी-डीई, एन-यूएस, …)
│├ 1. normalize_punctuation.py (प्रतिलेखन के बाद विराम चिह्न को मानकीकृत करता है) 🐧 🍏 🪟
│├ 2. इंटेलिजेंट प्री-करेक्शन (‘फ़ज़ीमैप प्री’ - The Primary Command Layer) 🐧 🍏 🪟
││ * डायनेमिक स्क्रिप्ट निष्पादन: नियम एपीआई कॉल, फ़ाइल I/O जैसी उन्नत कार्रवाइयां करने या डायनेमिक प्रतिक्रियाएं उत्पन्न करने के लिए कस्टम पायथन स्क्रिप्ट (on_match_exec) को ट्रिगर कर सकते हैं।
││ * कैस्केडिंग निष्पादन: नियमों को क्रमिक रूप से संसाधित किया जाता है और उनके प्रभाव संचयी होते हैं। बाद के नियम पहले के नियमों द्वारा संशोधित पाठ पर लागू होते हैं।
││ * सर्वोच्च प्राथमिकता स्टॉप मानदंड: यदि कोई नियम पूर्ण मिलान (^…$) प्राप्त करता है, तो उस टोकन के लिए संपूर्ण प्रसंस्करण पाइपलाइन तुरंत बंद हो जाती है। विश्वसनीय वॉयस कमांड को लागू करने के लिए यह तंत्र महत्वपूर्ण है।
│├ 3. सही_पाठ_द्वारा_भाषा उपकरण.py (व्याकरण/शैली सुधार के लिए भाषा उपकरण को एकीकृत करता है) 🐧 🍏 🪟
│└ 4. इंटेलिजेंट पोस्ट-करेक्शन (‘फजीमैप’)- पोस्ट-एलटी रिफाइनमेंट 🐧 🍏 🪟
││ * एलटी-विशिष्ट आउटपुट को सही करने के लिए लैंग्वेजटूल के बाद लागू किया गया। प्री-करेक्शन लेयर के समान सख्त कैस्केडिंग प्राथमिकता तर्क का पालन करता है।
││ * डायनेमिक स्क्रिप्ट निष्पादन: नियम एपीआई कॉल, फ़ाइल I/O जैसी उन्नत क्रियाएं करने या गतिशील प्रतिक्रियाएं उत्पन्न करने के लिए कस्टम पायथन स्क्रिप्ट (on_match_exec) को ट्रिगर कर सकते हैं।
││ * फ़ज़ी फ़ॉलबैक: फ़ज़ी समानता जांच (एक सीमा द्वारा नियंत्रित, उदाहरण के लिए, 85%) सबसे कम प्राथमिकता वाली त्रुटि-सुधार परत के रूप में कार्य करती है। इसे केवल तभी निष्पादित किया जाता है जब संपूर्ण पूर्ववर्ती नियतात्मक/कैस्केडिंग नियम रन मिलान ढूंढने में विफल रहता है (current_rule_matched गलत है), जब भी संभव हो धीमी अस्पष्ट जांच से बचकर प्रदर्शन को अनुकूलित किया जाता है।
├┬ मॉडल प्रबंधन/
│├─ prioritize_model.py (उपयोग के आधार पर मॉडल लोडिंग/अनलोडिंग को अनुकूलित करता है) 🐧 🍏 🪟
│└─ setup_initial_model.py (पहली बार के मॉडल सेटअप को कॉन्फ़िगर करता है) 🐧 🍏 🪟
├─ अनुकूली VAD टाइमआउट 🐧 🍏 🪟
├─ अनुकूली हॉटकी (प्रारंभ/रोकें) 🐧 🍏 🪟
└─ त्वरित भाषा स्विचिंग (मॉडल प्रीलोडिंग के माध्यम से प्रायोगिक) 🐧 🍏

सिस्टम यूटिलिटीज/ एक्सस्पेसब्रेकएक्स ├┬ भाषा उपकरण सर्वर प्रबंधन/
│├─ start_langagetool_server.py (स्थानीय भाषाटूल सर्वर को प्रारंभ करता है) 🐧 🍏 🪟
│└─ stop_langagetool_server.py (भाषाटूल सर्वर को बंद कर देता है) 🐧 🍏 ├─ monitor_mic.sh (उदाहरण के लिए कीबोर्ड और मॉनिटर का उपयोग किए बिना हेडसेट के साथ उपयोग के लिए) 🐧 🍏 🪟

मॉडल और पैकेज प्रबंधन

बड़े भाषा मॉडलों के मजबूत संचालन के लिए उपकरण.

मॉडल प्रबंधन/ 🐧 🍏 🪟
├─ मजबूत मॉडल डाउनलोडर (गिटहब रिलीज़ भाग) 🐧 🍏 🪟
├─ split_and_hash.py (रेपो मालिकों के लिए बड़ी फ़ाइलों को विभाजित करने और चेकसम उत्पन्न करने की उपयोगिता) 🐧 🍏 🪟
└─ download_all_packages.py (अंतिम उपयोगकर्ताओं के लिए मल्टी-पार्ट फ़ाइलों को डाउनलोड करने, सत्यापित करने और पुन: संयोजन करने का उपकरण) 🐧 🍏 🪟

विकास एवं परिनियोजन सहायक

पर्यावरण सेटअप, परीक्षण और सेवा निष्पादन के लिए स्क्रिप्ट।

**डेवहेल्पर्स/**एक्सस्पेसब्रेकएक्स ├┬ आभासी पर्यावरण प्रबंधन/
│├ scripts/restart_venv_and_run-server.sh (Linux/macOS) 🐧 🍏
│└ scripts/restart_venv_and_run-server.ahk (विंडोज़) 🪟
├┬ सिस्टम-वाइड डिक्टेशन इंटीग्रेशन/
│├ वोस्क-सिस्टम-श्रोता एकीकरण 🐧 🍏 🪟
│├ scripts/monitor_mic.sh (लिनक्स-विशिष्ट माइक्रोफ़ोन मॉनिटरिंग) 🐧
│└ scripts/type_watcher.ahk (AutoHotkey मान्यता प्राप्त टेक्स्ट को सुनता है और इसे पूरे सिस्टम में टाइप करता है) 🪟
└─ **सीआई/सीडी ऑटोमेशन/**एक्सस्पेसब्रेकएक्स └─ विस्तारित GitHub वर्कफ़्लोज़ (स्थापना, परीक्षण, दस्तावेज़ परिनियोजन) 🐧 🍏 🪟 (GitHub क्रियाओं पर चलता है)

आगामी/प्रायोगिक विशेषताएं

सुविधाएँ वर्तमान में विकासाधीन हैं या ड्राफ्ट स्थिति में हैं।

**प्रयोगात्मकविशेषताएं/**Xस्पेसब्रेकX ├─ ENTER_AFTER_DICTATION_REGEX उदाहरण सक्रियण नियम “(ExampleAplicationThatNotExist|Pi, आपका व्यक्तिगत AI)” 🐧
├┬प्लगइन्सXस्पेसब्रेकX │╰┬ लाइव लेज़ी-रीलोड (*) 🐧 🍏 🪟
(प्लगइन सक्रियण/निष्क्रियकरण और उनके कॉन्फ़िगरेशन में परिवर्तन, सेवा पुनरारंभ के बिना अगले प्रोसेसिंग रन पर लागू होते हैं।)
│ ├ गिट कमांड (गिट कमांड भेजने के लिए आवाज नियंत्रण) 🐧 🍏 🪟
│ ├ wannweil (स्थान जर्मनी-Wannweil के लिए मानचित्र) 🐧 🍏 🪟
│ ├ पोकर प्लगइन (ड्राफ्ट) (पोकर अनुप्रयोगों के लिए आवाज नियंत्रण) 🐧 🍏 🪟
│ └ 0 A.D. प्लगइन (ड्राफ्ट) (0 A.D. गेम के लिए ध्वनि नियंत्रण) 🐧
├─ सत्र प्रारंभ या समाप्त होने पर ध्वनि आउटपुट (विवरण लंबित) 🐧
├─ दृष्टि बाधितों के लिए भाषण आउटपुट (विवरण लंबित) 🐧 🍏 🪟
└─ SL5 ऑरा एंड्रॉइड प्रोटोटाइप (अभी तक पूरी तरह ऑफ़लाइन नहीं) 📱


(नोट: आर्क (एआरएल) या उबंटू (यूबीटी) जैसे विशिष्ट लिनक्स वितरण सामान्य लिनक्स 🐧 प्रतीक द्वारा कवर किए जाते हैं। विस्तृत अंतर इंस्टॉलेशन गाइड में शामिल किए जा सकते हैं।)

<विवरण> <सारांश>इस स्क्रिप्ट सूची को उत्पन्न करने के लिए उपयोग किए गए कमांड को देखने के लिए क्लिक करें</सारांश>

कोड_ब्लॉक_5 </विवरण>

ग्राफिक रूप से देखें कि पीछे क्या है:

yappi_call_graph

Xस्पेसब्रेकX pydeps -v -o dependencies.svg scripts/py/func/main.py

प्रयुक्त मॉडल:

अनुशंसा: मिरर https://github.com/sl5net/SL5-aura-service/releases/tag/v0.2.0.1 से मॉडल का उपयोग करें (शायद तेज़)

इस ज़िप्ड मॉडल को मॉडल/ फ़ोल्डर में सहेजा जाना चाहिए

एमवी वोस्क-मॉडल-*.ज़िप मॉडल/

मॉडल

आकार

शब्द त्रुटि दर/गति

नोट्स

लाइसेंस

vosk-model-en-us-0.22

1.8जी

5.69 (लाइब्रिस्पीच टेस्ट-क्लीन)
6.05 (टेडलियम)
29.78 (कॉलसेंटर)

सटीक सामान्य अमेरिकी अंग्रेजी मॉडल

अपाचे 2.0

vosk-model-de-0.21

1.9जी

9.83 (ट्यूडा-डी टेस्ट)
24.00 (पॉडकास्ट)
12.82 (सीवी-टेस्ट)
12.42 (एमएल)
33.26 (mtedx)

टेलीफोनी और सर्वर के लिए बड़ा जर्मन मॉडल

अपाचे 2.0

यह तालिका विभिन्न वोस्क मॉडलों का अवलोकन प्रदान करती है, जिसमें उनका आकार, शब्द त्रुटि दर या गति, नोट्स और लाइसेंस जानकारी शामिल है।

भाषा उपकरण का लाइसेंस: GNU Lesser General Public License (LGPL) v2.1 or later


परियोजना का समर्थन करें

यदि आपको यह उपकरण उपयोगी लगता है, तो कृपया हमारे लिए एक कॉफ़ी खरीदने पर विचार करें! आपका समर्थन भविष्य में सुधारों को बढ़ावा देने में मदद करता है।

ko-fi

Stripe-Buy Now