dc.contributor.advisor | Hančlová, Jana | |
dc.contributor.author | Manďák, Jan | |
dc.date.accessioned | 2018-11-09T07:28:55Z | |
dc.date.available | 2018-11-09T07:28:55Z | |
dc.date.issued | 2018 | |
dc.identifier.other | OSD002 | |
dc.identifier.uri | http://hdl.handle.net/10084/133105 | |
dc.description.abstract | The telecommunications industry is a large and important part of the sector of information and communication technologies. Because of its highly competitive nature, it is very common for customers to switch to another service provider or to non-renew a commitment. This behavior of customers is called customer churn. It is an expensive business problem since acquiring new customers costs five to six times more than retaining the existing ones. With the still decreasing costs of data storage, telecommunication companies have an access to various customer related data sources, which can be used to create predictive models helpful to identify who, when and why is about to leave the company. The main objective of the dissertation thesis is to propose and implement churn prediction system, which helps selected telecommunications company to reduce the number of churning customers and better understand the customer base. The partial goals are to summarize current theoretical, methodological and empirical results and to process raw data, divide customers into clusters, estimate and compare selected classification models, determine the key factors driving the churn, create customer knowledge database and visualize the data in selected visualization tool. Firstly, the methodological part of the thesis is focused on the data mining methodology CRISP-DM. Then methods of cluster analysis utilized in the thesis such as Gower distance and k-medoids algorithm and classification models – logistic regression, decision trees and random forests are described. Performance measures for comparison of predictive ability of classification algorithms are also introduced. The last part deals with an estimation of future performance of predictive models - approaches such as training and testing data set, cross-validation or bootstrap sampling. The application part of the thesis is devoted to the proposal of churn prediction system. Input data in CSV files are loaded into statistical tool R. Customers are then divided into clusters and logistic regression, decision tree and random forest models are estimated for the entire training data set as well as for each cluster. Customer characteristics, predicted probabilities of churn and variable importances are stored to MySQL relational database and these data are used to create a dashboard in the visualization tool Qlik Sense. This dashboard is provided to business users as a user-friendly tool for understanding the customer behavior. | en |
dc.description.abstract | Telekomunikační sektor je důležitou částí sektoru informačních a komunikačních technologií. Díky vysoké konkurenci je v tomto sektoru běžné, že zákazníci přecházejí k jinému poskytovateli služeb nebo neobnovují své smlouvy. Toto chování zákazníků se označuje jako “churn“. Telekomunikační společnosti musejí na udržení zákazníků vynakládat nemalé prostředky, které jsou však 5 až 6 krát menší než náklady na získání nových zákazníků. Se stále cenově dostupnějšími a většími datovými úložišti mají telekomunikační společnosti k dispozici obrovské množství informací o zákaznících, které mohou být využity pro tvorbu prediktivních modelů užitečných pro předvídání toho kdo, kdy a proč se chystá opustit společnost. Hlavním cílem doktorské disertační práce je navrhnout a implementovat systém pro předvídání odchodu zákazníků, který pomůže vybrané telekomunikační společnosti tento počet snížit a lépe porozumět zákaznické bázi. Dílčí cíle jsou shrnout současné teoretické, metodologické a empirické výsledky a zpracovat vstupní data, rozdělit zákazníky do shluků, odhadnout a porovnat vybrané klasifikační modely, určit klíčové faktory odchodů zákazníků, vytvořit zákaznickou databázi znalostí a nakonec data vizualizovat ve vybraném nástroji. Metodologická část práce je zaměřena nejprve na popis metodologie data miningu CRISP-DM. Dále jsou popsány metody shlukové analýzy jako Gowerova vzdálenost či metoda k-medoidů, aplikované klasifikační modely – logistická regrese, rozhodovací stromy a náhodné lesy a také metriky pro porovnání prediktivních schopností klasifikačních algoritmů. Poslední část se zabývá odhadem budoucí výkonnosti modelu – přístupy jako rozdělení datového souboru na trénovací a testovací, křížovou validací nebo bootstrapingem. Aplikační část práce je věnována návrhu systému pro předvídání odchodu zákazníků. Vstupní data ve formátu CSV jsou nahrána do statistického nástroje R, kde jsou zákazníci rozděleni do shluků a odhadnuty modely logistické regrese, rozhodovacího stromu a náhodných lesů pro celý tréninkový datový soubor a jednotlivé shluky. Zákaznické charakteristiky, predikované pravděpodobnosti odchodu a důležitosti proměnných jsou uloženy do relační databáze MySQL a použity pro tvorbu dashboardu ve vizualizačním nástroji Qlik Sense. Dashboard je poskytnut byznys uživatelům jako uživatelsky přívětivý nástroj pro pochopení chování zákazníků. | cs |
dc.format | 135 listů : ilustrace + 2 přílohy | |
dc.format.extent | 3517627 bytes | |
dc.format.mimetype | application/pdf | |
dc.language.iso | en | |
dc.publisher | Vysoká škola báňská - Technická univerzita Ostrava | cs |
dc.subject | Logistic regression | en |
dc.subject | decision trees | en |
dc.subject | random forests | en |
dc.subject | k-medoids | en |
dc.subject | R | en |
dc.subject | MySQL | en |
dc.subject | Qlik Sense | en |
dc.subject | telecommunications | en |
dc.subject | customer churn | en |
dc.subject | Logistická regrese | cs |
dc.subject | rozhodovací stromy | cs |
dc.subject | náhodné lesy | cs |
dc.subject | metoda k-medoidů | cs |
dc.subject | R | cs |
dc.subject | MySQL | cs |
dc.subject | Qlik Sense | cs |
dc.subject | telekomunikace | cs |
dc.subject | odcházející zákazníci | cs |
dc.title | "Proposal and Implementation of Churn Prediction system for Telecommunications Company" | en |
dc.title.alternative | "Návrh a implemntace systému pro predikci odchodu zákazníků od Telekomunikační firmy" | cs |
dc.type | Disertační práce | cs |
dc.identifier.signature | 201900016 | |
dc.identifier.location | ÚK/Sklad diplomových prací | |
dc.contributor.referee | Šalounová, Dana | |
dc.contributor.referee | Farana, Radim | |
dc.contributor.referee | Fischer, Jakub | |
dc.date.accepted | 2018-09-14 | |
dc.thesis.degree-name | Ph.D. | |
dc.thesis.degree-level | Doktorský studijní program | cs |
dc.thesis.degree-grantor | Vysoká škola báňská - Technická univerzita Ostrava. Ekonomická fakulta | cs |
dc.description.department | 157 - Katedra systémového inženýrství | cs |
dc.thesis.degree-program | Systémové inženýrství a informatika | cs |
dc.thesis.degree-branch | Systémové inženýrství a informatika | cs |
dc.description.result | vyhověl | cs |
dc.identifier.sender | S2751 | |
dc.identifier.thesis | MAN177_EKF_P6209_6209V025_2018 | |
dc.rights.access | openAccess | |