ارزهای رمزنگاری شده در دنیای مالی به طور فزاینده ای اهمیت می یابد و می تواند به عنوان یک بازار در حال ظهور در نظر گرفته شود. مانع پایین ورود و در دسترس بودن داده های بالای بازار cryptocurrency ، آن را به یک موضوع عالی از مطالعه تبدیل می کند ، که از طریق آن می توان بینش در مورد رفتار بازارها را از طریق استفاده از تجزیه و تحلیل احساسات و تکنیک های یادگیری ماشین برای کار چالش برانگیز سهام بدست آورد. پیش بینی بازاردر حالی که مطالعات قبلی انجام شده است ، بیشتر آنها منحصراً بر رفتار بیت کوین متمرکز شده اند. در این مقاله ، ما استفاده از ابزارهای یادگیری ماشین مشترک و داده های رسانه های اجتماعی موجود را برای پیش بینی حرکت قیمت بیت کوین ، اتری ، ریپل و حرکات بازار رمزنگاری Litecoin پیشنهاد می کنیم. ما استفاده از شبکه های عصبی (NN) ، دستگاه های بردار پشتیبانی (SVM) و Random Forest (RF) را در حالی که از عناصر توییتر و داده های بازار به عنوان ویژگی های ورودی استفاده می کنیم ، مقایسه می کنیم. نتایج نشان می دهد که می توان بازارهای رمزنگاری را با استفاده از یادگیری ماشین و تجزیه و تحلیل احساسات پیش بینی کرد ، جایی که از داده های توییتر به خودی خود می توان برای پیش بینی ارزهای رمزنگاری شده خاص استفاده کرد و NN از سایر مدل ها بهتر است.
کلید واژه ها:
اگرچه برخی از مطالعات وجود دارد که هر دو وظیفه پیش بینی حرکات قیمت سهام بورس و همچنین تدوین استراتژی های تجاری سودآور بر اساس آن پیش بینی ها را دارند ، اما تأیید کاربرد چنین مطالعاتی در بازارهای جدید و نوظهور مهم است. به ویژه بازار cryptocurrency.
این بازار با نوسانات بالا ، هیچ دوره معاملاتی بسته ، سرمایه نسبتاً کوچکتر و در دسترس بودن داده های بازار بالا مشخص می شود [1]. امکان سنجی مالی بازار cryptocurrency در رابطه با سایر بازارها ثبت شده است [2،3،4] و الگوریتم هایی که ارزهای رمزنگاری شده در آن در زمینه های دیگر تأیید شده اند [5،6]. به نظر می رسد که بازار cryptocurrency به طور مستقل از سایر بازارهای مالی رفتار می کند [2] ، اما به شدت تحت تأثیر اقتصادهای آسیا قرار دارد [3]. بخشی از جذابیت این بازار این است که فناوری مورد استفاده برای استخراج cryptocurrency جایگزین امکان پذیر برای بازارهای سنتی تر مانند طلا فراهم می کند [4].
این خصوصیات سرمایه قابل توجهی را به خود جلب کرده است ، اما تاکنون مطالعات کمی وجود دارد که سعی در ایجاد استراتژی های تجاری سودآور در بازار cryptocurrency دارند [7،8].
نکته دیگر مورد علاقه در بازار cryptocurrency در مقیاس بزرگ داده های احساسات عمومی در دسترس ، به ویژه از شبکه های اجتماعی است. این داده ها احتمالاً می توانند برای استنباط رفتار انسان در آینده مورد استفاده قرار گیرند ، بنابراین می تواند برای توسعه استراتژی های تجاری سودمند [9،10] مورد استفاده قرار گیرد ، همانطور که در تلاش های اخیر برای تشخیص حباب های سوداگرانه در بازار رمزنگاری با استفاده از تجزیه و تحلیل احساسات نشان داده شده است [11].
پیش بینی بازار سهام همیشه به عنوان یک کار چالش برانگیز در نظر گرفته شده است که هم از سوی دانشگاه ها و هم برای سرمایه گذاران توجه کرده است [12،13]. به عنوان مثال [12] مشاهده کرد که بازده کل بورس سهام را نمی توان از شاخص احساسات بیکر و Wurgler (SBW) و نه Huang Least Synex Sentiment (SPLS) پیش بینی کرد ، که اطلاعات را از شش پروکسی جمع می کند. در حالی که [13] دریافت که در بازار بیت کوین ، بر خلاف بازده ، قیمت ها پویایی هرج و مرج و سطح عدم اطمینان در بازده را به طور قابل توجهی در دوره رژیم قیمت بالا افزایش داده و نشان می دهند.
پیچیدگی کار را می توان به عوامل مختلف و عدم قطعیت هایی که در بازارها از جمله شرایط اقتصادی و سیاسی و همچنین رفتار انسان تعامل دارند ، نسبت داد. قادر به پیش بینی مداوم حرکات قیمت بازار بسیار دشوار است ، اما غیرممکن نیست. طبق تحقیقات دانشگاهی ، حرکات در قیمت بازار تصادفی نیست ، اما به روشی بسیار غیرخطی و پویا رفتار می شود. مطالعات قبلی همچنین نشان داده اند که لازم نیست بتوانید ارزش دقیق قیمت آینده را برای ایجاد سود در پیش بینی های مالی پیش بینی کنید. در واقعیت ، پیش بینی جهت بازار نسبت به ارزش آن می تواند به سود بیشتری منجر شود [14].
طی دهه های گذشته ، از هوش مصنوعی و تکنیک های یادگیری ماشین برای پیش بینی بازار سهام استفاده شده است. شبکه های عصبی (NNS) ، دستگاه های بردار پشتیبانی (SVM) و جنگل های تصادفی (RFS) بیشترین تکنیک های استفاده شده را دارند. برگرفته از NN ها ، رویکردهای یادگیری عمیق ، که برای پیش بینی قیمت بیت کوین ، پول نقد دیجیتال و موج دار [15] و شبکه های عصبی مکرر استفاده شده برای پیش بینی جهت تغییر بازار در مورد کامپوزیت NASDAQ استفاده شده است. فهرست [16].
بیشتر مدل های موفق پیش بینی بازار سهام را نه به عنوان یک مشکل رگرسیون همانطور که می توان انتظار داشت ، بلکه به عنوان یک مشکل طبقه بندی رفتار می کنند. پیشرفت چشمگیری در پیش بینی جهت حرکت قیمت آتی شاخص های سهام استاندارد و پور به صورت روزانه انجام شده است [17،18،19].
برای NNS ، مطالعات متعددی انجام شده است که کاربرد الگوریتم های BP را در مشکلات پیش بینی بازار سهام نشان داده است [20،21] ، و اینکه چگونه الگوریتم های BP به راحتی می توانند حتی از بهترین مدل های رگرسیون برای این کار بهتر عمل کنند [22].
از SVM ها نیز به دلیل اثربخشی آنها در فضاهای ابعادی بالا استفاده می شود و بر خلاف NNS ، SVM ها در برابر بیش از حد مقاوم هستند. این ویژگی ها SVM ها را به عنوان انتخاب محبوب برای پیش بینی مالی و پیش بینی بازار سهام تبدیل کرده است [23،24]. برخی از مطالعات حتی دریافتند که SVM ها از سایر روشهای طبقه بندی بهتر عمل می کنند و به همین ترتیب بهترین مدل برای پیش بینی جهت های حرکت بازار هستند [25]. با این حال دیگران دریافتند که برتری BP یا SVMS نسبت به یکدیگر به بازار بستگی دارد [26].
یک مطالعه با مقایسه NNS ، SVMS ، RFS و عملکردهای ساده لوح برای حرکت شاخص قیمت سهام در بازارهای سهام هند ، نشان داد که RFS از سایر مدل ها بهتر عمل می کند ، هنگامی که این مدل با ده پارامتر فنی که به عنوان مقادیر مداوم ارائه شده اند آموزش داده شده است [27]. بعداً در یک مطالعه دیگر [28] پیشنهاد شد که یک طبقه بندی کننده جنگل تصادفی در واقع از سایر مدل ها و الگوریتم های موجود در ادبیات بهتر عمل کند.
یک رویکرد جدیدتر از سیگنال های اجتماعی و تجزیه و تحلیل احساسات برای پیش بینی حجم معاملات و قیمت سهام های فردی استفاده می کند [29]. احساسات در شبکه های اجتماعی ، به ویژه از توییتر ، می تواند برای پیش بینی حرکات در شاخص های سهام استفاده شود [9]. در حالی که هیچ مدرکی مبنی بر پیش بینی های مبتنی بر احساسات بازده قابل توجهی در تجارت سهام وجود ندارد [30] ، یک مطالعه توانست یک استراتژی تجاری را بر اساس احساسات رسانه های اجتماعی برای رمزنگاری بیت کوین بدست آورد [8]. یک مطالعه دیگر میزان تحقیقات در مورد ارزهای رمزنگاری شده جایگزین را گسترش داده و روشی را برای پیش بینی نوسانات قیمت های بیت کوین ، اتریوم و ریپل رمزنگاری با استفاده از تجزیه و تحلیل احساساتی ارائه داده است [31].
نتایج این مطالعات قبلی مطابق با آخرین یافته های [32] است. این مطالعه ثابت کرد که این روابط میان مدت و کوتاه مدت فرضیه بین عوامل آنلاین و رویدادهای بازار ، نه تنها وجود دارد ، بلکه در سریال های مالی مانند حباب تقویت می شوند.
در حالی که ارزهای رمزنگاری یک مفهوم بسیار جالب از منظر اقتصادی است ، تحقیقات بیشتری در مورد رفتار آنها برای تعیین زنده ماندن آنها به عنوان یک رسانه جایگزین مبادله ضروری است. ما فرض می کنیم که قیمت بازار آن با حدس و گمان با ارزش ذاتی آن به عنوان ارز تعیین می شود. در حالی که این فرضیه را نمی توان در یک مطالعه واحد اثبات کرد ، اما هدف ما کمک به تحقیق در منطقه است.
در این مقاله ، ما استفاده از پیش بینی سری زمانی مالی را با تکنیک های یادگیری ماشین و تجزیه و تحلیل احساسات به بازارهای رمزنگاری جایگزین گسترش می دهیم. با انجام این کار ما انتظار داریم پتانسیل ابزارهای یادگیری ماشین به راحتی در دسترس را برای بررسی روابط بین عوامل آنلاین و قیمت های رمزنگاری نشان دهیم.
در حین انجام این کار ، ما سه مدل پیش بینی: NNS ، SVMS و RFS را با استفاده از آنها در چهار ارز رمزنگاری مختلف: بیت کوین ، اتریوم ، ریپل و Litecoin مقایسه می کنیم. این ارزهای رمزپایه که در آن انتخاب شده اند زیرا در آن زمان ، آنها بالاترین سرمایه گذاری در بازار را داشتند. ما از سه روش برای ورودی به این مدل ها استفاده می کنیم. رویکرد اول مدل را منحصراً با داده های اجتماعی آموزش می دهد ، دوم مدل را منحصراً با داده های بازار آموزش می دهد و سوم داده های اجتماعی و بازار را برای آموزش ترکیب می کند. سپس عملکرد هر مدل پیش بینی را ارزیابی می کنیم و آزمایش می کنیم که آیا احساسات رسانه های اجتماعی حرکات قیمت بازار را برای رمزنگاری مورد نظر پیش بینی می کند یا خیر.
بقیه این مقاله به شرح زیر تنظیم شده است: در بخش 2 ، ما یک مقدمه کلی در مورد داده ها ، تجزیه و تحلیل احساسات و یادگیری ماشین ارائه می دهیم. در بخش 3 نتایج به دست آمده را با تفسیر آنها ارائه می دهیم. نتیجه گیری و سلب مسئولیت در بخش 4 است.
داده های بازار تاریخی از 65 مبادله Cryptocurrency با عملکرد برتر بدست آمد. داده ها از API عمومی CryptoCompare. com گرفته شده است ، که اجازه می دهد تا 80 روز از داده های تاریخی از هر رمزنگاری قابل معامله به صورت رایگان درخواست کنید و داده های کامل تاریخی را می توان با درخواست بدست آورد. داده های به دست آمده را می توان با یک دانه بندی ساعتی یا روزانه درخواست کرد و حاوی قیمت باز ، بالاترین قیمت ، کمترین قیمت ، قیمت بسته شدن و حجم معاملات برای هر مرحله است.
داده های اجتماعی در قالب توییت های خام از توییتر به دست آمد. توییت ها با استفاده از معیارهای ورود به سیستم زیر انتخاب شدند:
در مدت زمانی که مطالعه انجام می شود ایجاد شده است: توییت های قبلی حتی در صورت تأثیرگذاری بر رفتار فعلی در نظر گرفته نمی شوند ، زیرا چنین تجزیه و تحلیل خارج از محدوده این مطالعه است.
حاوی نام (به عنوان مثال ، بیت کوین) یا نماد تیک (یعنی BTC) یکی از ارزهای مورد تجزیه و تحلیل در قسمتهای متنی یا برچسب آن است: این اعتماد به نفس بالایی دارد که صدای جیر جیر حداقل مربوط به یکی از ارزهای رمزنگاری شده استدر سوال.
به زبان انگلیسی نوشته شده است: مبتنی بر فرهنگ لغت ، ابزار تحلیل احساسات ما فقط با زبان انگلیسی کار می کند.
تکثیر نشده است: در حالی که توییت های مجدداً مجاز بودند زیرا این امر ممکن است یک روند احساساتی را نشان دهد ، توییت های تکراری که مورد توجه قرار نمی گیرند ، زیرا این نوع فعالیت ها عمدتاً توسط حساب های BOT نمایش داده می شود.
در حالی که قیمت ارزهای رمزنگاری ممکن است بر یکدیگر تأثیر بگذارد ، ما تشخیص دادیم که توییت های دیگر از رمزنگاری دیگر از توییت در مورد رمزنگاری که مورد تجزیه و تحلیل قرار گرفته اند ، کمتر قابل توجه خواهد بود. به منظور نگه داشتن داده های توییتر برای هر رمزنگاری ، پس از جمع آوری ، توییت ها با توجه به آنچه Cryptocurrency متعلق به آنها بود ، تقسیم شدند. در صورتی که توییت متعلق به بیش از یک ارز واحد باشد ، به تمام ارزهای کلیدی آن با کلمات کلیدی اضافه می شود.
به دلیل عدم وجود داده های تاریخی از API توییتر ، توییت ها باید روزانه جمع آوری می شدند. این کار با واکشی توییت از API جریان توییتر و ذخیره آنها در یک پایگاه داده سری زمانی انجام شد.
به طور متوسط 345،000 توییت در روز ، در پایان دوره جمع آوری ، در مجموع 20،789،572 توییت به دست آمد.
احساسات با استفاده از تجزیه و تحلیل احساسات Valence در متن توییت های مربوط به رمزنگاری اندازه گیری شد. Valence میزان لذت یا نارضایتی از یک تجربه عاطفی را تعیین می کند.
برای انجام کار ما از فرهنگ لغت آگاهانه و استدلال احساسات (Vader) استفاده کردیم. یک روش تجزیه و تحلیل احساسات ، به طور خاص برای زمینه رسانه های اجتماعی طراحی شده است. Vader از یک واژگان احساساتی استاندارد طلا ، یعنی مبتنی بر ظرفیت و سرپرست انسانی ایجاد شده است [33]. ما Vader را به دلایل مختلف انتخاب کردیم: (i) این یک ابزار منبع باز است.(ii) آن را با اعتبار انسانی ، و به طور خاص برای محتوای توییتر متناسب است. و (iii) آن را برای اهداف ما در معیارهای مستقل بسیار خوب انجام داد [34]. نتیجه استفاده از Vader در متن توییت ، یک بردار با مقدار عادی برای نمرات است: احساسات مثبت ، احساسات خنثی ، احساسات منفی و احساسات مرکب.
بیشتر کارهایی که در مورد تجزیه و تحلیل احساسات برای بازارهای مالی انجام می شود ، فقط بر ابعاد ظرفیت ، خلق و خوی یا آرامش متمرکز است ، که اغلب از پدیده قطبی شدن عقاید غافل می شود. به همین دلیل ، به روشی مشابه که قبلاً انجام شده بود [8] ، ما با استفاده از میانگین هندسی میانگین احساسات مثبت و احساسات منفی تمام توییت هایی که در زمان وجود دارد ، نمره قطبش را برای هر ساعت از داده ها محاسبه کردیم. با هدف استفاده از نمره قطبش به عنوان یک بعد تکمیلی به ارزش عاطفی استفاده کنید.
یک سیستم برای جمع آوری تمام داده های جمع آوری شده از منابع داده های مختلف ، برای ایجاد یک مجموعه داده واحد که شامل داده های بازار و اجتماعی است ، تنظیم شده است. بنابراین ، با توجه به داده های بازار و سیگنال های اجتماعی ، یک بردار ویژگی V برای یک دوره زمانی خاص t به صورت زیر تعریف می شود:
v (t) = n e u ، n o r m ، n e g ، p o s ، p o l ، c l o s e ، h i g h ، l o w ، o p e n ، v o l u m e t o
جایی که، n e u میانگین احساسات خنثی است که به عنوان ∑ i = 1 n t n e u n تعریف شده است n e g میانگین احساسات منفی است که به عنوان ∑ i = 1 n t n e g n تعریف شده است n o r m مجموع نمرات ارزش هر کلمه ای است که به عنوان ∑ i = 1 n t n o r m n تعریف شده است p o s میانگین احساسات مثبت است ∑ i = 1 n t p o s n p o l میانگین هندسی p o s و n e g است که به عنوان v p o s v n e g تعریف شده است نزدیک قیمت بسته شدن در دوره زمانی است بالاترین قیمت در دوره زمانی است پایین ترین قیمت در دوره زمانی کم است باز شدن قیمت باز در دوره زمانی است Volumeeto حجم معاملات برای دوره زمانی است
با داشتن t n e u ، t n e g ، t p o s و t n o r m ، vader نمرات را برای هر توییت محاسبه می کند ، و n برای تمام توییت هایی که شامل دوره زمانی برای یک رمزنگاری خاص است.
هدف z (t) به عنوان یک طبقه بندی باینری با مقدار 1 یا 1 - تعریف شده است. این نشان دهنده افزایش یا کاهش قیمت بین دو دوره زمانی است. افزایش قیمت بسته بین V (t) و V (T + 1) دارای مقدار z (t) 1 است. کاهش قیمت بسته شدن بین V (t) و V (T + 1)Z (t) مقدار 1.
انتخاب این هدف بر اساس دانش قبلی بود که برای کسب سود از پیش بینی [10] ، کافی بود که از جهت بازار استفاده کنیم ، همانطور که قبلاً در تحقیقات مرتبط بیان شده بود.
Multi-layer perceptrons (MLPs) are a type of NN that consists of at least three layers of nodes. MLPs may use back propagation and supervised leaing for training. As such, they belong to the NN class of Back Propagation (BP). An MLP function can be simply stated as F ( ) = R m −>r o که در آن m اندازه ابعاد بردار ویژگی است و o اندازه ابعاد هدف است.
تفاوت آن با رگرسیون لجستیک این است که از وجود یک یا چند لایه غیر لاین پشتیبانی می کند. لایه اول شامل مجموعه ای از ورودی های x i |x 1 ، x 2 ،… ، x m که ویژگی های ورودی را نشان می دهد و به لایه اول نورون ها ، معروف به لایه ورودی متصل می شوند. نورونهای از لایه های پنهان یک تابع جمع بندی خطی W 1 x 1 + W 2 x 2 + ⋯ + W M x M و به دنبال آن یک تابع فعال سازی غیر خطی به مقادیر لایه های قبلی اعمال می شود. لایه خروجی مقادیر دریافت شده از آخرین لایه پنهان را به خروجی ها تبدیل می کند.
برای استفاده از هر نوع NN ، لازم بود معماری آن را طراحی کند. این به معنای انتخاب تعداد لایه ها برای هر نوع و همچنین تعداد گره ها در هر یک از این لایه ها است. به منظور جلوگیری از اتصالات بیش از حد در مدل NN ، ما اکتشافی زیر را که از چندین ادعا و فرمول از [35] گرفته شده است ، برای محاسبه N H ، قسمت فوقانی روی تعداد لایه های پنهان استفاده کردیم.
n h = n s (α ∗ (n i + n o))
n S تعداد نمونه ها در مجموعه داده های آموزش را نشان می دهد ، α به عنوان یک عامل مقیاس بندی دلخواه تعریف می شود که معمولاً از 5 تا 10 متغیر است ، n i تعداد نورونهای ورودی است و n o تعداد نورونهای خروجی است.
SVM یک الگوریتم یادگیری تحت نظارت است که با استفاده از یک عملکرد هسته ، یک صفحه نمایش بیش از حد یا مجموعه ای از هواپیماهای بیش از حد ، در یک فضای ابعادی بالا یا نامحدود ایجاد می کند. SVM ها با به دست آوردن نمونه های آموزشی که نزدیکترین به حداکثر هواپیمای بیش از حد حاشیه ای هستند که بردارهای پشتیبانی از آن هستند ، به حداکثر رساندن فاصله بالای صفحه از نزدیکترین نمونه های آموزشی هستند. SVM ها را می توان برای طبقه بندی یا مشکلات رگرسیون استفاده کرد ، جایی که SVM با استفاده از یک عملکرد هسته ، ورودی ها را به یک فضای ویژگی با ابعاد بالا تبدیل می کند. عملکرد تصمیم گیری:
y = s g n (∑ i = 1 n y i α i k (x i ، x) + ρ)
جایی که y برچسب طبقه بندی (1 یا 1) است ، n تعداد بردارهای آموزشی است ، α یک ضرب Lagrange است ، K (X I ، X) عملکرد هسته است و ρ رهگیری حداکثر مرز تصمیم گیری حاشیه است.
RF ها برآوردگرهای متا هستند که تعدادی از درختان تصمیم گیری را در زیر نمونه های مختلف مجموعه داده ها قرار می دهند. RFS از یک رویکرد گروه استفاده می کند ، و پیش بینی کننده درخت را ترکیب می کند که در آن هر درخت به مقادیر یک بردار تصادفی با توزیع یکنواخت برای همه درختان جنگل بستگی دارد.
درست مانند سایر مدل ها ، با استفاده از طبقه بندی کننده درخت تصمیم ، می توان از RFS برای طبقه بندی استفاده کرد. RFS دقت پیش بینی و متناسب با میانگین پیش بینی های هر درخت تصمیم را کنترل می کند.
مجموعه داده ها شامل یک سری زمانی از داده های بازار و توییتر بود. برای آموزش و آزمایش ، مجموعه داده ها در یک تقسیم 70-30 تقسیم شده است که در آن 70 ٪ از داده ها برای آموزش رزرو شده و 30 ٪ برای آزمایش استفاده می شود.
داده های مورد استفاده برای این مطالعه از منابع ذکر شده در بخش قبلی به دست آمد. ما 60 روز داده را از 16 فوریه 2018 تا 21 آوریل 2018 جمع آوری کردیم ، همانطور که در جدول 1 نشان داده شده است. داده های بازار دارای یک ساعته یک ساعته است و داده های توییتر همانطور که قبلاً ذکر شد برای متناسب با این دانه بندی پردازش شد.
در مجموع 5760 نقطه داده که در آن جمع آوری شده است ، برای هر رمزنگاری به طور مساوی در 1440 تقسیم می شود. از آنجا که ما پیش بینی های روزانه را انجام می دادیم ، امتیازات روز برای به دست آوردن حرکات قیمت همانطور که در جدول 2 نشان داده شده است ، گروه بندی می شدند.
ما از مدل های پیش بینی خود MLPS ، SVMS و RFS استفاده کردیم تا حرکات روزانه بازار بیت کوین ، اتریوم ، ریپل و Litecoin را پیش بینی کنیم. برای هر cryptocurrency ، ما عملکرد مدل را هنگام استفاده از زیر مجموعه های مختلف وکتور ویژگی قبلاً تعریف شده V (T) مقایسه کردیم. داده های توییتر از عناصر v (t) neu ، norm ، pos و pol تشکیل شده است در حالی که داده های بازار نزدیک ، بالا ، کم ، باز و حجم. ویژگی هایی که با از بین بردن میانگین و مقیاس گذاری به واریانس واحد استاندارد شده است.
همه مدل ها با استفاده از کتابخانه Sci-Kit-Lea اجرا شدند. Sci-Kit-Lea یک جعبه ابزار با مدل های پیشرفته ارائه می دهد که عملکرد خوبی دارند و همه کاره هستند. مدل های SCI-KIT برای هر مدل طیف گسترده ای از پارامترها دارند ، با MLP دارای 21 ، SVM 14 و RFC 17. از آنجا که کتابخانه در حال حاضر مقادیر پیش فرض عالی را برای پارامترهای یک مدل فراهم می کند ، ما فقط به پارامترهایی که برای این خوب تنظیم شده بودند ، اشاره می کنیمکاغذ. انتخاب این پارامترهای تنظیم شده خوب بر اساس کار قبلی انتخاب شد ، یا به دلیل این که در طول آزمایش نتایج دقیق تری با داده های آموزش ارائه می دهند.
برای مدل MLP ما به دلیل محبوبیت و عملکرد خوب ، یک عملکرد فعال سازی مماس هیپربولیک را انتخاب کردیم. حل کننده پیش فرض ، "آدم" ، یک بهینه ساز مبتنی بر درجه یک ، با مجازات L2 0. 0002 استفاده شد.
در هر آزمایش ، ما 50 MLP را آموزش دادیم و نتایج حاصل از بهترین شبکه های عملکرد گزارش شد. توپوگرافی شبکه عصبی ما به شرح زیر بود: مدل ها دارای یک لایه ورودی ، یک لایه پنهان و یک لایه خروجی بودند. مقدار سلولهای عصبی برای لایه ورودی برابر با اندازه بردار ویژگی بود. برای لایه پنهان ، مدل های آموزش داده شده با هر دو زیر مجموعه از داده ها دارای 55 نورون بودند در حالی که مدل های آموزش داده شده با یک زیر مجموعه واحد از داده ها 30 نورون داشتند. همه مدل ها نورون خروجی منفرد داشتند.
هسته SVM ، از یک تابع پایه شعاعی گاوسی K (x ؛ y) = e x p ( - 1 / σ 2 (x - y) 2) به دلیل محبوبیت آن برای مشکلات طبقه بندی SVM استفاده کرد.
در مدل جنگلی تصادفی تنها پارامتر پیچش تعداد درختان بود که از 10 پیش فرض آن تا 1000 افزایش یافته است.
برای ارزیابی استحکام هر مدل ، ما از دقت ، دقت ، فراخوان و نمرات F 1 استفاده کردیم که به شرح زیر تعریف شده است:
a c c u r r a c y = t p + t n t p + t n + f p + f n P r e c i s i o n = t p t p + f p r e c a l l = t p t p + f n f 1 = 2 p r e c i s i o n ∗ r e c a l l p r e c i s i o n + r e c a l l ، جایی که، t p = تعداد مقادیر مثبت واقعی t n = تعداد مقادیر منفی واقعی f p = تعداد مقادیر مثبت کاذب f p = تعداد مقادیر منفی کاذب.
اندازه گیری دقت نسبت کلیه نمونه های آزمایش شده به درستی طبقه بندی شده ، دقت نسبت نمونه های طبقه بندی شده مربوطه در بین نمونه های بازیابی شده است ، فراخوان نسبت نمونه های طبقه بندی شده مربوطه در بین کل نمونه های مربوطه و نمره F 1 میانگین هارمونیک استدقت و یادآوریدقت مهمترین امتیاز در نظر گرفته شد ، زیرا دلالت بر این دارد که چند بار در پیش بینی خود صحیح بودیم که تعیین می کند چه نوع نظم بازار را ایجاد می کند.
فواصل اطمینان که با استفاده از اعتبار سنجی متقاطع Kfold ، با مقدار k برابر با 5 ، که پس از اجرای تمرینات اعتبار سنجی چندین بار با شکاف های تصادفی جدید انتخاب شد ، بدست آمد.
جدول 3 ، جدول 4 ، جدول 5 و جدول 6 نمرات هر یک از مدلهای ما را که برای پیش بینی حرکت بازار روز بعد تعریف شده است ، به ارزهای رمزپایه قبلاً تعریف شده نشان می دهد. ما برای هر تمرین یک طبقه بندی تصادفی و اکثریت را شامل می شویم. مجموعه داده ها در یک مخزن عمومی ذکر شده در بخش دسترسی به داده ها موجود است. مجموعه داده ها شامل تمام داده های بازار و توییتر پس از پردازش است. توییت های خام به دلیل محدودیت های اندازه گنجانده نشده است.
همانطور که در جدول 3 مشاهده می کنیم ، MLP بهترین مدل عملکرد بیت کوین بود. این مدل با داشتن دقت بیش از 0. 72 و دقت 0. 76 ، این مدل با یک حاشیه بزرگ بهتر از تصادفی است. هر دو SVM و RF نیز در هنگام استفاده از داده های بازار موفق به ضرب و شتم تصادفی شدند. داده های توییتر به خودی خود نمی تواند برای پیش بینی حرکت بازار در هر مدل مورد استفاده قرار گیرد و به نظر می رسد گنجاندن آن عملکرد مدل های SVM و RF را بدتر می کند. با این حال ، دقت در مدل MLP را کمی بهبود بخشید.
برای اتریوم بهترین مدل عملکرد MLP همانطور که در جدول 4 نشان داده شده است. هیچ مدل قادر به عملکرد قابل توجهی بهتر از تصادفی نبود. MLP تنها مدلی بود که با درج هر دو داده بازار و توییتر توانست یک لبه جزئی در برابر تصادفی بدست آورد. نه داده های توییتر و نه داده های بازار به خودی خود قادر به پیش بینی حرکات بازار اتریوم نبودند.
در جدول 5 می توانیم ببینیم که چگونه برای Ripple ، MLP دوباره بهترین مدل عملکردی بود که با دقت 0. 64 و یک نمره دقیق 0. 68 با یک حاشیه بزرگ به طور تصادفی ضرب و شتم می شود. SVM همچنین هنگام استفاده از داده های توییتر ، با حاشیه کوچکی تصادفی را شکست داد. RF موفق به ضرب و شتم تصادفی شد. داده های توییتر در هنگام استفاده از مدل SVM با دقت 0. 53 و 0. 6 نمره دقیق توانستند تصادفی را به خود اختصاص دهند.
جدول 6 نشان می دهد که چگونه SVM بهترین مدل برای Litecoin بود ، به دست آوردن دقت 0. 66 و نمره دقیق 0. 8. RF هنگام استفاده از داده های توییتر و داده های بازار کمی بهتر از MLP عمل کرد. همه مدل ها قادر به ضرب و شتم تصادفی بودند. داده های توییتر در هنگام استفاده از مدل های MLP و RF قادر به پیش بینی بازار بودند.
نتایج ما نشان می دهد که برای بازارهای بیت کوین ، اتریوم ، ریپل و Litecoin حداقل یک مدل وجود دارد که می تواند با ضرب و شتم تصادفی در نمرات دقیق ، حرکات بازار را پیش بینی کند. این پیش بینی محدود به جهت بازار است و شامل بزرگی یا مدت زمان چنین حرکت بازار نیست. بهترین مدل بیت کوین MLP بود که با استفاده از داده های توییتر و بازار ، نمرات 0. 72 دقت و دقت 0. 74 را بدست آورد. بهترین مدل Ethereum همچنین MLP بود که از داده های توییتر و بازار برای به دست آوردن دقت 0. 44 و 0. 56 نمره دقیق استفاده می کرد ، که به طور قابل توجهی بهتر از تصادفی نبود. در Ripple ، یک بار دیگر ، بهترین مدل MLP بود که فقط از داده های بازار استفاده می کرد و از 0. 64 دقت و نمرات دقیق 0. 68 به دست آورد. Litecoin تنها Cryptocurrency بود که در آن مدل SVM بهترین عملکرد را انجام داد ، با استفاده از داده های توییتر و بازار ، دقت 0. 66 و 0. 8 نمره دقیق را بدست آورد.
با بالاترین امتیاز دقت، لایت کوین قابل پیش بینی ترین بازار بود و پس از آن بیت کوین و ریپل قرار گرفتند. فقط بازار اتریوم امتیاز دقت زیر 0. 50 را داشت. MLP موفق ترین مدل بود که توانست با موفقیت قیمت های حرکت بازار را در همه ارزهای دیجیتال پیش بینی کند در حالی که در سه مورد از چهار مورد از مدل های دیگر بهتر بود. SVM در پیش بینی بازارهای بیت کوین، ریپل و لایت کوین موفق بود در حالی که در پیش بینی اتریوم ناکام بود. RF توانست بازار بیت کوین و لایت کوین را پیش بینی کند.
جالب است ببینید که نتایج در بین ارزهای دیجیتال مختلف چقدر متفاوت است. بهترین نتایج برای بیت کوین به دست آمد که انتظار می رفت، در امتداد ادعاهای مطالعات دیگر قرار گرفت. برای اتریوم، دقت برای همه روش ها پایین است، مشخص نیست که آیا این می تواند ناشی از حال و هوای بازار باشد یا چیزی ذاتاً متفاوت در این بازار وجود دارد. کشف علت اصلی این رفتار موضوع مطالعه دیگری خواهد بود. چنین مطالعه ای مستلزم ردیابی در یک دوره زمانی طولانی تر همه عوامل مرتبطی است که بر روحیه بازار تأثیر می گذارد. برای Ripple و Litecoin نیز ناهنجاری هایی را در نتایج توییتر مشاهده کردیم که دقت بهتری نسبت به داده های بازار یا هر دو دارند.
ما فرض می کنیم که دلایل متعددی برای این ناهنجاری وجود دارد. ابتدا جوامع ریپل و لایت کوین دارای اندازه قابل توجهی کوچکتر هستند، که می تواند به این معنی باشد که فعالیت توییتر حجم کمتری دارد اما می تواند مهمتر باشد. همانطور که قبلاً گفته شد، همه پیام های رسانه های اجتماعی تأثیر یکسانی ندارند [36]. ثانیاً ما تصدیق می کنیم که استفاده از داده های بازار و توییتر به عنوان یک بردار ویژگی واحد می توانست طراحی ضعیفی داشته باشد. در گذشته، جداسازی مدل ها و سپس استفاده از مکانیزم رای گیری می توانست نتایج بهتری داشته باشد. مقایسه روش دنبال شده با روش پیشنهادی داشتن مدل های مجزا، حتی اختلاط انواع مختلف مدل ها، برای هر جریان متفاوت داده جالب خواهد بود.
این نتایج همچنین امکان مشاهده نحوه استفاده از داده های منحصرا توییتر را برای پیش بینی بازارهای ریپل و لایت کوین به خودی خود ممکن می سازد، اما نسبت به استفاده از داده های منحصراً بازار برتری ندارد. استفاده از داده های توییتر و داده های بازار ممکن است باعث بهبود جزئی در امتیازات شود، اما در موارد دیگر ممکن است باعث کاهش عملکرد مدل شود. هنگام استفاده از مدل های SVM، این تئوری مطرح می شود که این کاهش عملکرد می تواند با استفاده از یک تابع هسته واحد برای انواع مختلف داده ایجاد شود. ناشناخته است که چرا این مشکل در مدل های NN و RF رخ می دهد و چنین سوالی از محدوده این مطالعه فراتر می رود.
در این مقاله، ما ثابت کردیم که می توان با استفاده از یادگیری ماشینی و تحلیل احساساتی، تکنیک هایی که قبلاً برای بیت کوین استفاده می شد، جهت حرکت قیمت را برای بازار ارزهای دیجیتال در حال ظهور پیش بینی کرد. ما عملکرد سه مدل پیش بینی را ارزیابی و مقایسه کردیم: MLP، SVM و RF برای بیت کوین، اتریوم، ریپل و لایت کوین با استفاده از داده های توییتر، داده های بازار یا هر دو.
ما همچنین نشان دادیم که چگونه بازارهای ارزهای دیجیتال به دلیل در دسترس بودن و دسترسی بالا به داده ها، می توانند زمینه ای با پتانسیل زیادی برای تحقیق در مسائل سری زمانی مالی باشند.
کارهای بیشتری در این زمینه باید انجام شود. کاربرد تحلیل احساسات برای جمع آوری سیگنال های اجتماعی را می توان با بهبود کیفیت محتوا و تعداد منابعی که چنین محتوایی از آنجا جمع آوری می شود، افزایش داد. کیفیت را می توان با حذف محتوای تکراری و فیلتر کردن ربات ها یا تبلیغات بهبود بخشید. همانطور که قبلا ثابت شد، استفاده از محتوای سایر شبکه های اجتماعی مانند Reddit یا Facebook [37] ممکن است و احتمالاً سودمند خواهد بود.
یکی دیگر از زمینه های فرصت، استفاده از مدل های تخصصی تر است که دارای مکانیسم های مختلف توجه هستند، مانند شبکه های حافظه کوتاه مدت (LSTM) و پرسپترون های چند لایه زمانی (T-MLP)، کار اخیر نشان داده است که قابلیت پیش بینی LSTMsدر مقایسه با معماری عصبی رگرسیون تعمیم یافته به طور قابل توجهی بالاتر است [15]. این نوع شبکه ها ممکن است بتوانند «حالت های» ذاتی بازار را انتخاب کرده و بر اساس آن تطبیق دهند.
ما همچنین استفاده از مدل های جداگانه برای داده های توییتر و بازار را به منظور بهبود دقت و امتیازات مدل ها تشویق می کنیم. در نهایت اثبات اینکه آیا این مدل های پیش بینی می توانند برای ایجاد استراتژی های معاملاتی مورد استفاده قرار گیرند یا خیر جالب خواهد بود.
مفهوم سازی ، F. V. ؛روش شناسی ، F. V. و A. G.-E. ؛نرم افزار ، F. V. ؛اعتبار سنجی ، F. V. ؛تجزیه و تحلیل رسمی ، F. V. و A. G.-E. ؛تحقیقات ، F. V. ؛منابع ، F. V. ؛درمان داده ها ، F. V. ؛نوشتن - پیش نویس آماده سازی ORIGINAL ، F. V. ؛نوشتن-بررسی و ویرایش ، F. V. ، A. G.-E. و B. V.-A. ؛تجسم ، F. V. ؛نظارت ، A. G.-E. و B. V.-A. ؛مدیریت پروژه ، F. V. ، A. G.-E. و B. V.-A. ؛کسب بودجه ، B. V.-A.
نویسندگان دوست دارند حمایت مالی Tecnologico de Monterrey را در تولید این کار تصدیق کنند.
ما از روبن Stranders که بینش و تخصص ارائه داده اند ، تشکر می کنیم که به تحقیقات بسیار کمک کرده است.
نویسندگان هیچ تضاد منافع را اعلام نمی کنند.
داده های مورد استفاده برای این مقاله به صورت عمومی در دسترس است یا رابط برنامه نویسی برنامه مربوطه یا در کنار اسکریپت های مورد نیاز برای بازتولید این نتایج در https://github. com/vanclief/algo-trading-crypto در دسترس است.

جدول 1. شرح توییت های جمع آوری شده. جدول 1. شرح توییت های جمع آوری شده.
| رمز رمز | توییت های جمع آوری شده | درصد کل |
|---|---|---|
| بیت کوین | 13،096،598 | 63 ٪ |
| اتر | 5،366،126 | 25. 81 ٪ |
| موج دار شدن | 1،143،634 | 5. 5 ٪ |
| لیتکین | 1،183،214 | 5. 69 ٪ < Pan> Haganm ، M. ؛Demuth ، H. ؛هادسون ، م. ؛Orlando-de-Jesús ، B. طراحی شبکه عصبی ؛شرکت PWS Pub: Boston ، MA ، USA ، 2014 ؛ISBN 978-0971732117.[Google Scholar] |
برچسب :
نویسنده : مریم کاویانی
بازدید : 24