Спосіб розрахунку показника Джині, статистики Колмогорова—Смирнова та відстані Махаланобіса у кредитному скорингу засобами мови SQL

Розроблено спосіб розрахунку індикатора Джині, статистики Колмогорова-Смирнова та відстані Махаланобіса засобами мови маніпулювання даними (DML), мови структурованих запитів (SQL), тобто мовою програмування четвертого покоління (4GL) з наведенням відповідного програмного коду. Ключовою ознакою прогр...

Full description

Bibliographic Details
Main Authors: Солошенко, Олександр Миколайович, Soloshenko, Oleksandr M., Солошенко, А. Н.
Format: Article in Journal/Newspaper
Language:Ukrainian
Published: НТУУ "КПІ" 2015
Subjects:
DML
Online Access:https://ela.kpi.ua/handle/123456789/14527
Description
Summary:Розроблено спосіб розрахунку індикатора Джині, статистики Колмогорова-Смирнова та відстані Махаланобіса засобами мови маніпулювання даними (DML), мови структурованих запитів (SQL), тобто мовою програмування четвертого покоління (4GL) з наведенням відповідного програмного коду. Ключовою ознакою програмної реалізації є застосування узагальнених табличних виразів, агрегатних та аналітичних віконних функцій, з’єднань таблиць, операцій теорії множин та інших можливостей мови DML в межах мови SQL через підхід 4GL на прикладі використання СКБД Oracle Database 11g. Запропоновано спосіб розрахунку показників якості прогнозів довільного нечіткого ймовірнісного класифікатора, зокрема у кредитному скорингу. Результатами дослідження є формалізація способу розрахунку ключових статистичних показників якості скорингових карт та відповідний програмний код мовою SQL. Наведено переваги запропонованого способу розрахунку статистичних показників за допомогою мов програмування четвертого покоління. Method of assessing the Gini indicator, the Kolmogorov-Smirnov statistics and the Mahalanobis distance using the Data Manipulation Language (DML) possibilities within the Structured Query Language (SQL) as the Fourth-Generation programming Language (4GL) implementation providing the corresponding program code was developed. The key feature of the program implementation is the application of the common table expressions, aggregate and analytic windowing functions, table joins, set operations and other possibilities of the DML language within the SQL language as the 4GL approach using the database application Oracle Database 11g as an example. The way of assessing the forecasting performance indicators for an abstract fuzzy probabilistic classifier, particularly in credit scoring, is proposed. The research results are the formalization of the way of assessing the scorecard performance key statistical indicators and providing corresponding program code with the SQL language. The advantages of the proposed way of assessing the statistical indicators with the Fourth-Generation programming Languages are given. Разработан способ расчета индикатора Джини, статистики Колмогорова-Смирнова и расстояния Махаланобиса средствами языка манипулирования данными (DML), языка структурированных запросов (SQL), то есть на языке программирования четвертого поколения (4GL) с приведением соответствующего программного кода. Ключевым признаком программной реализации является применение обобщенных табличных выражений, агрегатных и аналитических оконных функций, соединений таблиц, операций теории множеств и других возможностей языка DML в пределах языка SQL путем подхода 4GL на примере использования СУБД Oracle Database 11g. Предложен способ расчета показателей качества прогнозов произвольного нечеткого вероятностного классификатора, в частности в кредитном скоринге. Результатами исследования являются формализация способа расчета ключевых статистических показателей качества скоринговых карт и соответствующий программный код на языке SQL. Приведены преимущества предложенного способа расчета статистических показателей с помощью языков программирования четвертого поколения.