ಡಾಟಾಮೈನಿಂಗ್

ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯು ದತ್ತಾಂಶಗಳಿಂದ ಮಾದರಿಗಳ ಹೊರತೆಗೆಯುವಿಕೆಯ ಪ್ರಕ್ರಿಯೆಯಾಗಿದೆ. ಪ್ರತೀ ಮೂರು ವರ್ಷಕ್ಕೊಮ್ಮೆ ದತ್ತಾಂಶವು ಹೆಚ್ಚಳವಾಗುವುದರ ಜೊತೆಗೆ, ಹೆಚ್ಚು ದತ್ತಾಂಶವು ಸೇರಿಕೊಂಳ್ಳುತ್ತಿರುವಂತೆಯೇ, [3]ಮಾಹಿತಿಗೆ ದತ್ತಾಂಶವನ್ನು ಮಾರ್ಪಡಿಸಲು ಮುಖ್ಯವಾದ ಸಾಧನವಾಗಿ ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯು ಬೆಳೆಯುತ್ತಿದೆ. ಮಾರ್ಕೆಟಿಂಗ್, ವಿಚಕ್ಷಣೆ, ಅಪರಾಧ ತಡೆ ಮತ್ತು ವೈಜ್ಞಾನಿಕ ಅನ್ವೇಷಣೆಯಂತಹ ಪ್ರೊಫೈಲಿಂಗ್ ಪ್ರಾಕ್ಟೀಸಸ್‌ನ ವಿಶಾಲ ವ್ಯಾಪ್ತಿಯಲ್ಲಿ ಸಾಮಾನ್ಯವಾಗಿ ಇದನ್ನು ಉಪಯೋಗಿಸಲಾಗುತ್ತದೆ. ದತ್ತಾಂಶ ಮಾದರಿಯಲ್ಲಿ ಸ್ವರೂಪಗಳನ್ನು ಬಿಚ್ಚಿಡುವುದಕ್ಕಾಗಿ ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯು ಉಪಯೋಗಿಸಲ್ಪಡುತ್ತದೆ. ದತ್ತಾಂಶದ ಪ್ರತಿನಿಧಿಯಲ್ಲದ ಮಾದರಿಗಳ ಉಪಯೋಗದ ಫಲಿತಾಂಶವು ಡೊಮೇನ್‌ನ ಸೂಚಕವಲ್ಲದಿರಬಹುದು ಎಂಬುದನ್ನು ತಿಳಿದಿರಬೇಕಾದದ್ದು ಮುಖ್ಯ. ಡೊಮೇನ್‌ನಲ್ಲಿ ಲಭ್ಯವಿರುವ ಸ್ವರೂಪಗಳನ್ನು ದತಾಂಶ ಗಣಿಗಾರಿಕೆಯು ಹುಡುಕುವುದಿಲ್ಲ. ಈ ಸ್ವರೂಪಗಳು ಮಾದರಿಯಲ್ಲಿಲ್ಲದಿದ್ದರೆ ಇವನ್ನು "ಗಣಿಯಿಂದ ತೆಗೆಯಲಾಗುತ್ತದೆ". ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯ ಕುರಿತಂತೆ ಕಡಿಮೆ ತಿಳುವಳಿಕೆಯಿರುವ "ಬಳಕೆದಾರರಲ್ಲಿ" ಇದು ಅತಿಶಯ ಶಕ್ತಿಯುಳ್ಳದ್ದು ಎಂಬ ಕಲ್ಪನೆಯಿದೆ. ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆ ನೀಡುವ ಫಲಿತಾಂಶವು ಕ್ರಿಸ್ಟಲ್‌ ಬಾಲ್‌ ಎಂಬಂತೆ ನೋಡಲಾಗುತ್ತದೆ. ಇತರೇ ಸಾಧನಗಳಂತೆಯೇ, ಕಚ್ಚಾ ವಸ್ತುಗಳ ಜೊತೆಗೆ ಕೇವಲ ಸಂಯೋಗದಲ್ಲಿ ಮಾತ್ರ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ. ಈ ಪ್ರಕರಣದಲ್ಲಿ, ಬಳಕೆದಾರನು ಮೊದಲು ಸೂಚಕ ಮತ್ತು ಪ್ರತಿನಿಧಿಸುವ ದತ್ತಾಂಶಗಳನ್ನು ಸಂಗ್ರಹಿಸಬೇಕು. ನಂತರದಲ್ಲಿ, ದತ್ತಾಂಶದ ನಿರ್ದಿಷ್ಟ ಗುಚ್ಛದಲ್ಲಿನ ನಿರ್ದಿಷ್ಟ ಸ್ವರೂಪದ ಸಂಶೋಧನೆಯು, ಆ ದತ್ತಾಂಶವನ್ನು ತೆಗೆದುಕೊಂಡಿರುವ ಒಟ್ಟೂ ಜನಸಂಖ್ಯೆಯ ಪ್ರತಿನಿಧಿ ಎಂದು ಅರ್ಥೈಸಬೇಕಿಲ್ಲ. ಇದರಿಂದಾಗಿ, ಇತರ ಮಾದರಿಗಳ ದತ್ತಾಂಶದಲ್ಲಿನ ಸ್ವರೂಪಗಳ ಪರಿಶೀಲನೆ ಮತ್ತು ಊರ್ಜಿತತೆಯ ಪ್ರಕ್ರಿಯೆಯ ಮುಖ್ಯವಾದ ಭಾಗವಾಗಿದೆ. ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆ ಪದವು, ಇದಕ್ಕೆ ಸಂಬಂಧವಾದ, ಆದರೆ ನಕಾರಾತ್ಮಕ ಭಾವದಲ್ಲಿಯೂ ಉಪಯೋಗಿಸಲ್ಪಡುತ್ತದೆ. ಮೇಲ್ನೋಟದ ಉದ್ದೇಶಪೂರ್ವಕ ಹುಡುಕುವಿಕೆಯ ಅರ್ಥದಲ್ಲಿ ಇದನ್ನು ಉಪಯೋಗಿಸಲಾಗುತ್ತದೆ, ಆದರೆ ದೊಡ್ಡ ಗಾತ್ರದ ದತ್ತಾಂಶಗಳಲ್ಲಿನ ಅಗತ್ಯವಾಗಿ ಪ್ರತಿನಿಧಿಸುವ ಸ್ವರೂಪಗಳಿಗೆ ಉಪಯೋಗಿಸಲಾಗುವುದಿಲ್ಲ ಇತರ ಭಾವದ ಗೋಜಲನ್ನು ತೊಲಗಿಸುವುದಕ್ಕೆ, ಡಾಟಾ ಡ್ರೆಡ್ಜಿಂಗ್ ಮತ್ತು ಡಾಟಾ ಸ್ನೂಪಿಂಗ್ ಪದವನ್ನು ಆಗಾಗ ಬಳಸಲಾಗುತ್ತಿದೆ. ಡ್ರೆಡ್ಜಿಂಗ್ ಮತ್ತು ಸ್ನೂಪಿಂಗ್‌ನ್ನು ಬೆಳವಣಿಗೆಯ ಮತ್ತು ಸ್ಪಷ್ಟೀಕರಣದ ಸಿದ್ಧಾಂತಗಳ ಪರಿಶೋಧನೆಯ ಸಾಧನವಾಗಿ ಉಪಯೋಗಿಸಲ್ಪಡುತ್ತದೆ. ಮತ್ತು ಕೆಲವೊಮ್ಮೆ ಅವುಗಳನ್ನೇ ಉಪಯೋಗಿಸಲಾಗುತ್ತದೆ.

ಹಿನ್ನೆಲೆ

ದಶಕಗಳಿಗಾಗಿ ದತ್ತಾಂಶಗಳಿಂದ ಸ್ವರೂಪಗಳನ್ನು ಕೈಯಿಂದ ಮಾನವರು ಹೊರತೆಗೆಯುತ್ತಿದ್ದಾರೆ. ಆದರೆ ಆಧುನಿಕ ಕಾಲದಲ್ಲಿ ಹೆಚ್ಚಿದ ದತ್ತಾಂಶದ ಪ್ರಮಾಣವು ಹಲವು ಯಾಂತ್ರಿಕ ಸಾಮೀಪ್ಯಕ್ಕೆ ಕರೆ ನೀಡಿದೆ. ಹಳೆಯ ವಿಧಾನವಾದ ದತ್ತಾಂಶಗಳಲ್ಲಿನ ಗುರುತಿಸುವ ಸ್ವರೂಪಗಳು, ಬೇಯ್ಸ್ ಥಿಯರಮ್ (1770) ಮತ್ತು ರೆಗ್ರೆಶನ್ ಅನಾಲಿಸಿಸ್ (1800)ನ್ನೂ ಸೇರಿದೆ. ಸಂಖ್ಯಾಭಿವೃದ್ಧಿಯಲ್ಲಿ, ಸರ್ವತ್ರ ಅಸ್ಥಿತ್ವ ಮತ್ತು ಗಣಕಯಂತ್ರದ ತಾಂತ್ರಿಕತೆಯ ಶಕ್ತಿಯ ಹೆಚ್ಚುವಿಕೆಯು, ದತ್ತಾಂಶ ಒಟ್ಟುಗೂಡಿಸುವಿಕೆ ಮತ್ತು ಸಂಗ್ರಹವನ್ನು ಹೆಚ್ಚಿಸಿದೆ. ದತ್ತಾಂಶ ಗುಚ್ಛಗಳು ಗಾತ್ರ ಮತ್ತು ಸಂಕೀರ್ಣತೆಯಲ್ಲಿ ಬೆಳೆದಂತೆ, ಪರೋಕ್ಷ ಹಾಗೂ ಯಾಂತ್ರಿಕ ದತ್ತಾಂಶದ ಸಂಸ್ಕರಣೆಯ ಜೊತೆಗೆ ದತ್ತಾಂಶ ವಿಶ್ಲೇಷಣೆಯ ನೇರ ಹಸ್ತಕ್ಷೇಪವು ಹೆಚ್ಚುತ್ತಲೇ ಸಾಗಿದೆ. ಗಣಕಯಂತ್ರ ವಿಜ್ಞಾನದಲ್ಲಿನ ಇತರೆ ಸಂಶೋಧನೆಗಳಾದ ನ್ಯೂರಲ್ ನೆಟ್‌ವರ್ಕ್ಸ್, ಕ್ಲಸ್ಟರಿಂಗ್, ಜೆನರಿಕ್ ಅಲ್ಗೊರಿದಮ್ಸ್ (1950), ಡಿಸಿಶನ್ ಟ್ರೀಸ್ (1960) ಮತ್ತು ಸಪೋರ್ಟ್ ವೆಕ್ಟರ್ ಮಶಿನ್‌(1980s)ನ ಮೂಲಕ ಪ್ರಾಯೋಜಿಸಲ್ಪಡುತ್ತಿದೆ. ಈ ವಿಧಾನಗಳನ್ನು ದತ್ತಾಂಶಕ್ಕೆ, ತೆರೆದ ಹುದುಗಿಸಿದ ಸ್ವರೂಪದ ಉದ್ದೇಶದ ಜೊತೆಗೆ ಪ್ರಯೋಗಿಸುವ ಪ್ರಕ್ರಿಯೆಯೇ ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯಾಗಿದೆ.[5] ಮಾರುಕಟ್ಟೆಯ ಸಂಶೋಧನಾ ವರದಿಗಾಗಿ ಸೂಪರ್ ಮಾರ್ಕೆಟ್ ಸ್ಕ್ಯಾನರ್, ಜನಗಣತಿಯ ದತ್ತಾಂಶ, ವಿಮಾನಯಾನ ಪ್ರಯಾಣಿಕರ ಪ್ರಯಾಣ ದಾಖಲೆಗಳಂತಹ ದತ್ತಾಂಶದ ಪ್ರಮಾಣದ ಮೂಲಕ ಶೋಧನಾ ಕಾರ್ಯಕ್ಕಾಗಿ, ವ್ಯವಹಾರಗಳು, ವಿಜ್ಞಾನಿಗಳು ಮತ್ತು ಸರ್ಕಾರಗಳು ಬಹಳಷ್ಟು ವರ್ಷಗಳಿಂದ ಇದನ್ನು ಉಪಯೋಗಿಸುತ್ತಿದೆ. (ಸೂಚನೆ: ಈ ವರದಿಯು ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯಾಗಿ ಎಲ್ಲ ಸಂದರ್ಭದಲ್ಲಿಯೂ ಪರಿಗಣಿಸಲ್ಪಡುವುದಿಲ್ಲ.) ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆ ಬಳಕೆಯ ಮೂಲ ಕಾರಣವು, ವರ್ತನೆಯ ಅವಲೋಕನದ ಸಂಗ್ರಹದ ವಿಶ್ಲೇಷಣೆಯಲ್ಲಿ ಸಹಕರಿಸುವುದಾಗಿದೆ. ಈ ರೀತಿಯ ದತ್ತಾಂಶವು ಗೊತ್ತಿಲ್ಲದ ಅಂತರ್‌ಸಂಬಂಧಗಳಿಂದಾಗಿ ಸಹರೇಖತ್ವಕ್ಕೆ ಕಾರಣವಾಗುತ್ತದೆ. ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯ ನಿವಾರಿಸಲಾಗದ ವಾಸ್ತವಗಳು ವಿಶ್ಲೇಷಿಸಲ್ಪಟ್ಟ ದತ್ತಾಂಶದ ಉಪಗುಚ್ಛಗಳಾಗಿವೆ. ಇವು ಒಟ್ಟೂ ಡೊಮೇನ್‌ನ ಪ್ರತಿನಿಧಿಗಳಾಗಿರಬೇಕಿಲ್ಲ ಮತ್ತು ಡೊಮೇನ್‌ನ ಇತರ ಭಾಗಗಳಲ್ಲಿ ಇರುವ ಕೆಲವು ಸಂಕೀರ್ಣ ಸಂಬಂಧಗಳು ಮತ್ತು ಸ್ವಭಾವಗಳ ಉದಾಹರಣೆಗಳನ್ನು ಹೊಂದಿರಬೇಕಿಲ್ಲ. ಈ ರೀತಿಯ ವಿಚಾರಗಳನ್ನು ಗುರುತಿಸಲು, ಇತರ ವಿಧಾನಗಳಾದ ಮಾನವ ನಿರ್ಮಿತ ದತ್ತಾಂಶಕ್ಕಾಗಿ ಆಯ್ಕೆ ಮಾದರಿಯಂತಹ ಮತ್ತು ಪ್ರಯೋಗ ಆಧಾರಗಳ ಉಪಯೋಗದ ಆಧಿಕ್ಯವನ್ನು ವಿಶ್ಲೇಷಣೆಯು ಮಾಡಬಹುದು. ಈ ಸಂದರ್ಭಗಳಲ್ಲಿ, ಅಂತರ್ಗತ ಸಹ ಸಂಬಂಧಗಳು ನಿಯಂತ್ರಣಕ್ಕೊಳಪಟ್ಟ ಅಥವಾ ಪ್ರಯೋಗಾತ್ಮಕ ನಕ್ಷೆಯ ನಿರ್ಮಾಣದ ಸಂದರ್ಭದಲ್ಲಿ ಒಟ್ಟಿಗೆ ತೆಗೆಯಲ್ಪಟ್ಟಿರುತ್ತದೆ. There have been some efforts to define standards for data mining, for example the 1999 European Cross Industry Standard Process for Data Mining (CRISP-DM 1.0) and the 2004 Java Data Mining standard (JDM 1.0). ಇವುಗಳು ಪ್ರಕಟಗೊಳ್ಳುತ್ತಿರುವ ಗುಣಮಟ್ಟಗಳು. ಈ ಗುಣಮಟ್ಟದ ಇತ್ತೀಚಿನ ಆವೃತ್ತಿಗಳು ಅಭಿವೃದ್ಧಿಗೊಳ್ಳುತ್ತಿವೆ. Independent of these standardization efforts, freely available open-source software systems like the R Project, Weka, KNIME, RapidMiner and others have become an informal standard for defining data-mining processes. ಈ ಹಲವು ವ್ಯವಸ್ಥೆಗಳು, ಪಿಎಮ್‌ಎಮ್‌ಎಲ್‌ನಲ್ಲಿ (ಫ್ರೆಡೆಕ್ಟಿವ್ ಮಾಡೆಲ್ ಮೇಕ್‌ಅಪ್ ಲ್ಯಾಂಗ್ವೇಜ್) ಆಮದು ಮತ್ತು ರಫ್ತುಮಾಡಲು ಸಾಧ್ಯವಾಗುತ್ತವೆ. ಇದು ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯ ಮಾದರಿಗಳ ಪ್ರತಿನಿಧಿತ್ವಕ್ಕೆ ಗುಣಮಟ್ಟದ ದಾರಿಯನ್ನು ಸಾಧ್ಯವಾಗಿಸುತ್ತದೆ ಇದರಿಂದಾಗಿ ಇದನ್ನು ವಿಭಿನ್ನ ಅಂಕಿಅಂಶಗಳ ಉಪಯೋಗಗಳ ಮಧ್ಯೆ ಹಂಚಿಕೊಳ್ಳಬಹುದು. ಪಿಎಮ್‌ಎಮ್‌ಎಲ್ ಎಂಬುದು ಡಾಟಾ ಮೈನಿಂಗ್ ಗ್ರೂಪ್‌ನಿಂದ ಅಭಿವೃದ್ಧಿಸಲ್ಪಟ್ಟ ಎಕ್ಸ್‌ಎಮ್‌ಎಲ್ ಮೂಲದ ಭಾಷೆಯಾಗಿದೆ.[6] ಡಾಟಾ ಮೈನಿಂಗ್ ಗ್ರೂಪ್‌, ಇದು ಹಲವು ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯ ಕಂಪನಿಗಳನ್ನು ಸಂಯೋಜಿಸಿದ ಸ್ವತಂತ್ರ ಸಂಘಟನೆಯಾಗಿದೆ. PMML version 4.0 was released in June 2009.^[೧]^[೨]^[೩]

ಸಂಶೋಧನೆ ಮತ್ತು ಬೆಳವಣಿಗೆ

ಕೈಗಾರಿಕಾ ಹಿನ್ನೆಲೆಯ ಸ್ಪೂರ್ಥಿಯಿಂದ ಬಂದ ಬೇಡಿಕೆಗೆ ಅನುಗುಣವಾಗಿ ಉತ್ತಮ ಮತ್ತು ಮಾಹಿತಿ ಬದಲಾವಣೆಯ ವೃತ್ತಿಯ ಮತ್ತು ಶೈಕ್ಷಣಿಕ ಚಟುವಟಿಕೆಗಳು ಕೂಡ ತಮ್ಮ ಕೊಡುಗೆಯನ್ನು ಸಂಶೋಧನೆಯ ವಿಕಾಸ ಹಾಗೂ ರೀತಿ ಮತ್ತು ಮಾದರಿಗಳನ್ನು ನೀಡಿವೆ; ಇಂಟರ್‌ನ್ಯಾಷನಲ್‌‍ ಜರ್ನಲ್‌‍ ಆಫ್‌ ಇನ್‌ಪಾರ್ಮೆಷನ್‌ ಟೆಕ್ನಾಲಜಿ ಮತ್ತು ಡಿಸಿಸನ್‌ ಮೇಕಿಂಗ್‌‍ 2008ರ ಸಂಚಿಕೆಯಲ್ಲಿ ಈ ವಿಕಾಸದ ಕುರಿತಾದ ಸಾಹಿತ್ಯ ಸಮೀಕ್ಷೆಯ ಹೆಜ್ಜೆಯನ್ನು ಗುರುತಿಸುತ್ತದೆ ಮತ್ತು ಅದನ್ನು ವಿಶ್ಲೇಷಿಸುತ್ತದೆ.[11] ಈ ಕ್ಷೇತ್ರದಲ್ಲಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತಿರುವ ಸಂಸ್ಥೆಗಳಲ್ಲಿ ಅಸೋಸಿಯೇಷನ್‌ ಫಾರ್‌‍ ಕಂಪ್ಯೂಟಿಂಗ್‌‍ ಮೆಷಿನರಿಸ್‌‍ ಸ್ಪೇಷಲ್‌‍ ಇಂಟರೆಸ್ಟ್‌‍ ಗ್ರೂಪ್‌‍ ಆನ್‌‍ ನಾಲೆಡ್ಜ್‌‍ ಡಿಸ್ಕವರಿ ಅಂಡ್‌‍ ಡಾಟಾ ಮೈನಿಂಗ್‌‍ (SIGKDD)ಮುಖ್ಯವಾದುದು.[12] 1989ರಿಂದ ಇವರು ವಾರ್ಷಿಕ ಅಂತರಾಷ್ಟ್ರೀಯ ಅದಿವೇಶನ ನಡೆಸುತ್ತಿದ್ದು ಅಲ್ಲಿ ನಡೆಯುವ ಚರ್ಚೆಗಳನ್ನು ಪ್ರಕಟಿಸುತ್ತಿದೆ[13]. ಮತ್ತು 1999ರಿಂದ ಇದು ದ್ವಿವಾರ್ಷಿಕ "SIGKDD Explorations" ಎಂಬ ಶೈಕ್ಷಣಿಕ ಜರ್ನಲ್‌ ಪ್ರಕಟಿಸುತ್ತಿದೆ.[14] ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆ ಕುರಿತಾದ ಇನ್ನೀತರ ಕಂಪ್ಯೂಟರ್‌ ಸೈನ್ಸ್‌‍ ಅದಿವೇಶನಗಳು:

DMIN - ಇಂಟರ್‌ನ್ಯಾಶನಲ್‌‍ ಕಾನ್‌ಫರೆನ್ಸ್‌‍ ಆನ್‌‍ ಡಾಟಾ ಮೈನಿಂಗ್‌‍;[15]
DMKD - ರಿಸರ್ಚ್‌ ಇಶ್ಯೂಸ್‌ ಆನ್‌ ಡಾಟಾ ಮೈನಿಂಗ್‌ ಅಂಡ್‌ ನಾಲೆಡ್ಜ್‌ ಡಿಸ್ಕವರಿ;
ECML-PKDD -ಯುರೋಪಿಯನ್‌ ಕಾನ್‌ಫರೆನ್ಸ್‌ ಆನ್‌ ಮಷಿನ್‌ ಲರ್ನಿಂಗ್‌ ಅಂಡ್‌ ಪೈನ್ಸಿಪಲ್ಸ್‌ ಅಂಡ್‌ ಪ್ರಾಕ್ಟಿಸ್‌‍ ಆಪ್‌ ನಾಲೆಡ್ಜ್‌ ಡಿಸ್ಕವರಿ ಇನ್‌ ಡಾಟಾಬೇಸ್‌‍;
ICDM - IEEE ಇಂಟರ್‌ನ್ಯಾಶನಲ್‌ ಕಾನ್ಫರೆನ್ಸ್‌‍ ಆನ್‌ ಡಾಟಾ ಮೈನಿಂಗ್‌;[16]
MLDM - ಮಷಿನ್‌ ಲರ್ನಿಂಗ್‌ ಅಂಡ್‌ ಡಾಟಾ ಮೈನಿಂಗ್‌ ಇನ್‌ ಪ್ಯಾಟರ್ನ್‌ ರೆಕಾಗ್ನಿಷನ್‌;
SDM - SIAM ಇಂಟರ್‌ನ್ಯಾಷನಲ್‌ ಕಾನ್ಫರೆನ್ಸ್‌ ಆನ್‌ ಡಾಟಾ ಮೈನಿಂಗ್‌

ಪ್ರಕ್ರಿಯೆ

ದತ್ತಾಂಶದಲ್ಲಿ ಜ್ಞಾನ ಶೋಧನೆ (KDD) ಈ ಶಬ್ಧವನ್ನು ಗ್ರೆಗೊರಿ ಪಿಯಾಟಸ್ಕಿ-ಶಪಿರೋ 1989ರಲ್ಲಿ ಮೊಟ್ಟಮೊದಲ ಬಾರಿಗೆ ಪ್ರಯೋಗಿಸಿ ಇದರ ಮೂಲಕ ರಾಶಿ ದತ್ತಾಂಶದಿಂದ ಹೇಗೆ ಆಸಕ್ತಿಕರ, ಉಪಯೋಗವಾಗುವಂತಹ, ವಿವರಣಾತ್ಮಕ ವಿಷಯಗಳನ್ನು ಪಡೆಯಬಹುದು ಇದಕ್ಕಿರುವ ಪ್ರಕ್ರಿಯೆ ಏನು ಎಂಬುದನ್ನು ಹೇಳಿದನು. ಈ ಪ್ರಕ್ರಿಯೆಯಲ್ಲಿ ಹಲವಾರು ಅನಗತ್ಯ ವಿಷಯಗಳಿವೆ ಆದರೂ ಕಚ್ಚಾ ದತ್ತಾಂಶಗಳನ್ನು ಪ್ರಕ್ರಿಯೆಗೊಳಿಸುವ ವಿಧಾನವನ್ನು ಹಾಗೂ ಅದರಲ್ಲಿಯ ಸೂಕ್ತ ವಿಷಯಗಳನ್ನು ತೆಗೆಯಲು ದತ್ತಾಂಶದ ಗಣಿಗಾರಿಕೆ ಮತ್ತು ವ್ಯಾಖ್ಯಾನ ಮಾಡುವುದು ಮತ್ತು ಫಲಿತಾಂಶ ಪಡೆಯುವ ವಿಧಾನವನ್ನು ಹೇಳುತ್ತದೆ.[19]

ಪೂರ್ವ-ಪ್ರಕ್ರಿಯೆ

KDDಯ ಉದ್ದೇಶ ಒಮ್ಮೆ ಗೊತ್ತುಪಡಿಸಿಕೊಂಡನಂತರ, ಉದ್ದೇಶಿತ ದತ್ತಾಂಶವನ್ನು ಕಲೆಹಾಕಲಾಗುತ್ತದೆ. ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯು ಈಗಾಗಲೇ ದತ್ತಾಂಶದಲ್ಲಿ ಇರುವ ವಿವಿಧ ಸ್ವರೂಪಗಳನ್ನು ಹೊರತೆಗೆಯುವ ಪ್ರಕ್ರಿಯೆಯಾಗಿದೆ,ಉದ್ದೇಶಿತ ದತ್ತಾಂಶವು ದೊಡ್ಡದಾಗಿದ್ದು ಉಳಿದವುಗಳು ಸಂಕ್ಷಿಪ್ತವಾಗಿರುತ್ತವೆ. ಉದ್ದೇಶಿತ ಕಾಲಾವದಿಯಲ್ಲಿ ದತ್ತಾಂಶದಿಂದ ಈ ವಿವರಗಳನ್ನು ಹೊರತೆಗೆಯಬೇಕಾಗುವುದು. ದತ್ತಾಂಶಗಳಿಗೆ ಸಾಮಾನ್ಯವಾಗಿ ದತ್ತಾಂಶ ಮಾರುಕಟ್ಟೆ ಅಥವಾ ದತ್ತಾಂಶ ಉಗ್ರಾಣಗಳು ಮೂಲವಾಗಿರುತ್ತವೆ. ಗುರಿಯ ಲಕ್ಷ್ಯವನ್ನು ಮೊದಲು ವಿಂಗಡಿಸಲಾಗುವುದು. ಈ ವಿಂಗಡಣೆಯಲ್ಲಿ ಸಂಗ್ರಹಿತಗೊಳ್ಳದ ಮತ್ತು ಅಡೆತಡೆಗಳಿರುವ ಅವಲೋಕನ ದತ್ತಾಂಶಗಳನ್ನು ತೆಗೆಯಲಾಗುತ್ತದೆ. ವಿಂಗಡಿತ ದತ್ತಾಂಶವನ್ನು ಮುಖ್ಯಲಕ್ಷಣ ದಿಶೆಗಳಾಗಿ ವಿಂಗಡಿಸಲಾಗುತ್ತದೆ, ಹಾಗೂ ಒಂದು ಅವಲೋಕನಕ್ಕೆ ಒಂದೊಂದು ದಿಶೆಯನ್ನು ನಿರ್ದರಿಸಲಾಗುತ್ತದೆ. ಮುಖ್ಯಲಕ್ಷಣ ದಿಶೆಗಳು ಕಚ್ಚಾ ದತ್ತಾಂಶದಿಂದ ಹೊರತೆಗೆದ ಸಂಕ್ಷಿಪ್ತ ಅವಲೋಕನವಾಗಿರುತ್ತದೆ. ಉದಾಹರಣೆಗೆ, ಒಬ್ಬ ವ್ಯಕ್ತಿಯ ಮುಖದ 100px ಮತ್ತು 100px ಗಾತ್ರದ ಕಪ್ಪುಬಿಳುಪು ಚಿತ್ರದಲ್ಲಿ 10,000 ಬಿಟ್‌ಗಳಷ್ಟು ಕಚ್ಚಾ ದತ್ತಾಂಶ ಇರುತ್ತದೆ. ಇದನ್ನು ಚಿತ್ರದ ಕಣ್ಣು ಮತ್ತು ಬಾಯಿಯ ಸ್ಥಾನದಲ್ಲಿ ಇಡುವುದರಿಂದ ಅವುಗಳನ್ನು ಮುಖ್ಯ ದಿಶೆಯಾಗಿ ಪರಿವರ್ತಿಸಬಹುದಾಗಿದೆ. Doing so would reduce the data for each vector from 10,000 bits to three codes for the locations, dramatically reducing the size of the dataset to be mined, and hence reducing the processing effort. ಅವು ಯಾವ ವಸ್ತು ಎಂಬುದನ್ನು, ಆರಿಸಿರುವ ಲಕ್ಷಣಗಳು ಅವಲಂಬಿಸಿರುತ್ತದೆ. "ಸೂಕ್ತ"ವಾದ ಲಕ್ಷಣಗಳನ್ನು ಆರಿಸುವುದು ಯಶಸ್ವೀ ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಗೆ ಮೂಲವಾಗಿದೆ. ಲಕ್ಷಣ ದಿಶೆಗಳು ಎರಡು ಗುಚ್ಛಗಳಾಗಿ ವಿಭಜಿಸಲ್ಪಟ್ಟಿವೆ. ಅವೆಂದರೆ "ತರಬೇತಿ ಗುಚ್ಛ" ಮತ್ತು "ತಪಾಸಣಾ ಗುಚ್ಛ". ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯ ಅಲ್ಗೊರಿದಮ್‌ನ "ತರಬೇತಿ"ಗೆ, ತರಬೇತಿ ಗುಚ್ಛವು ಉಪಯೋಗವಾಗುತ್ತದೆ. ಇದೇವೇಳೆ ತರಬೇತಿ ಗುಚ್ಛವು, ಕಂಡುಬಂದ ಯಾವುದೇ ಸ್ವರೂಪದ ಖಚಿತತೆಯ ಪರಿಶೀಲನೆಗೆ ಉಪಯೋಗಾವಾಗುತ್ತದೆ.

ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆ

ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯು ನಾಲ್ಕು ವರ್ಗವನ್ನು ಒಳಗೊಂಡಿದೆ:[20]

ವರ್ಗೀಕರಣ- ಈ ಹಿಂದೆ ವ್ಯಾಖ್ಯಾನಿಸಿದ ಗುಂಪಿಗೆ ದತ್ತಾಂಶವನ್ನು ಜೋಡಿಸುವುದು. ಉದಾಹರಣೆಗೆ ಒಂದು ಈಮೇಲ್, ಲೆಜಿಟಿಮೇಟ್ ಅಥವಾ ಸ್ಪ್ಯಾಂ ಆಗಿ ವರ್ಗೀಕರಣಗೊಂಡಿರಬಹುದು. ಸಾಮಾನ್ಯ ಅಲ್ಗೊರಿದಮ್, ಡಿಸಿಶನ್ ಟ್ರೀ ಲರ್ನಿಂಗ್, ನಿಯರೆಸ್ಟ್ ನೇಬರ್, ನೇಯ್ವ್ ಬಯೇಸಿಯನ್ ಕ್ಲಾಸಿಫಿಕೇಶನ್ ಮತ್ತು ನ್ಯೂರಲ್ ನೆಟ್‌ವರ್ಕ್‌ನ್ನೂ ಒಳಗೊಂಡಿರುತ್ತದೆ.
ಸಮೂಹಗೊಳಿಸುವಿಕೆ- ಇದು ವರ್ಗೀಕರಣದಂತೆಯೇ ಆದರೂ ಗುಂಪುಗಳು ಈ ಮೊದಲೇ ವ್ಯಾಖ್ಯಾನಿಸಲ್ಪಟ್ಟಿರುವುದಿಲ್ಲ. ಒಂದೇ ರೀತಿಯ ವಸ್ತುಗಳನ್ನು ಗುಂಪಾಗಿಸಲು ಅಲ್ಗೊರಿದಮ್‌ಗಳು ಪ್ರಯತ್ನಿಸುತ್ತವೆ.
ಹಿಂಜರಿತ- ಕಡಿಮೆ ತಪ್ಪುಗಳ ದತ್ತಾಂಶ ಮಾದರಿಯನ್ನು ಹುಡುಕುತ್ತದೆ.
ಸಂಸ್ಥಾ ಕಾನೂನಿನ ಕಲಿಕೆ - ವಿಭಿನ್ನತೆಗೆ ಒಳಗಾಗಲ್ಪಡುವುದರ ಮಧ್ಯದ ಸಂಬಂಧಗಳಿಗೆ ಇದು ಹುಡುಕತ್ತದೆ. ಉದಾಹರಣೆಗೆ ಗ್ರಾಹಕರ ಕೊಳ್ಳುವ ಹವ್ಯಾಸವನ್ನು ಸೂಪರ್‌ಮಾರ್ಕೆಟ್ ಕಲೆಹಾಕುವುದಿರಬಹುದು. ಸಂಸ್ಥಾ ಕಾನೂನಿನ ಕಲಿಕೆಯನ್ನು ಉಪಯೋಗಿಸಿ, ಯಾವ ಉತ್ಪನ್ನವನ್ನು ಗ್ರಾಹಕರು ಪದೇಪದೇ ಕೊಂದುಕೊಂಡಿದ್ದಾರೆ ಎಂಬುದನ್ನು ಸೂಪರ್‌ಮಾರ್ಕೆಟ್ ನಿಶ್ಚಯಿಸಬಲ್ಲದು ಮತ್ತು ಮಾರ್ಕೆಟಿಂಗ್ ಉದ್ದೇಶಗಳಿಗಾಗಿ ಈ ಮಾಹಿತಿಯನ್ನು ಉಪಯೋಗಿಸಬಹುದು. ಇದನ್ನು ಹಲವು ಬಾರಿ "ಮಾರ್ಕೆಟ್ ಬಾಸ್ಕೆಟ್ ವಿಶ್ಲೇಷಣೆ" ಎಂದು ಕರೆಯಲಾಗಿದೆ.

ಫಲಿತಾಂಶ ಊರ್ಜಿತತೆ

ದತ್ತಾಂಶದ ಅರಿವಿನ ಸಂಶೋಧನೆಯ ಅಂತಿಮ ಹಂತವು, ವಿಶಾಲ ದತ್ತಾಂಶ ಗುಚ್ಛದಲ್ಲಿ ಪಡೆದ ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯ ಅಲ್ಗೊರಿದಮ್ಸ್‌ನ ಮೂಲಕ ಉತ್ಪಾದಿಸಲ್ಪಟ್ಟ ಸ್ವರೂಪವನ್ನು ಪರಿಶೀಲಿಸುತ್ತದೆ. ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯ ಅಲ್ಗೊರಿದಮ್ಸ್‌ನಿಂದ ಹುಡುಕಲ್ಪಟ್ಟ ಎಲ್ಲ ಸ್ವರೂಪಗಳೂ ಊರ್ಜಿತವಾಗಿರಬೇಕಿಲ್ಲ. ಸಾಮಾನ್ಯ ದತ್ತಾಂಶ ಗುಚ್ಛದಲ್ಲಿ ಇಲ್ಲದಿರುವ ತರಬೇತಿಯಲ್ಲಿನ ಸ್ವರೂಪ ಹುಡುಕುವಿಕೆಗೆ ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯ ಅಲ್ಗೊರಿದಮ್ಸ್‌ನ್ನು ಸಾಮಾನ್ಯವಾಗಿ ಉಪಯೋಗಿಸಲಾಗುತ್ತದೆ. ಇದನ್ನು ಓವರ್‌ಫಿಟ್ಟಿಂಗ್ ಎಂದು ಕರೆಯಲಾಗಿದೆ. ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆ ಅಲ್ಗೊರಿದಮ್ ತರಬೇತಿಗೆ ಒಳಪಡದಿದ್ದಾಗ, ಮೌಲ್ಯಮಾಪನವು ದತ್ತಾಂಶದ ಪರೀಕ್ಷಾ ಗುಚ್ಛವನ್ನು ಉಪಯೋಗಿಸುತ್ತದೆ. ಕಲಿತ ಸ್ವರೂಪಗಳನ್ನು ಈ ಪರೀಕ್ಷಾ ಗುಚ್ಛಕ್ಕೆ ಪ್ರಯೋಗಿಸಲಾಗುತ್ತದೆ ಮತ್ತು ಬಯಸಿದ ಉತ್ಪಾದನೆಗೆ ಬಂದ ಉತ್ಪಾದನೆಯನ್ನು ಹೋಲಿಸಲಾಗುತ್ತದೆ. ಉದಾಹರಣೆಗೆ, ಒಂದು ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯ ಅಲ್ಗೊರಿದಮ್ ಸ್ಪ್ಯಾಮನ್ನು ಲೆಜಿಟಿಮೇಟ್ ಈಮೇಲ್‌ನಿಂದ ವಿಭಜಿಸುವುದಕ್ಕೆ ಪ್ರಯತ್ನಿಸುತ್ತದೆ. ಇದು ಮಾದರಿ ಈಮೇಲ್‌ಗಳ ತರಬೇತಿ ಗುಚ್ಛದಲ್ಲಿ ತರಬೇತಿ ಪಡೆದಿದ್ದಿರಬಹುದು. ಒಮ್ಮೆ ತರಬೇತುಗೊಂಡ, ಕಲಿತ ಸ್ವರೂಪವನ್ನು ಪರೀಕ್ಷಾ ಗುಚ್ಛಕ್ಕೆ ಪ್ರಯೋಗಿಸಲಾಗುತ್ತದೆ. ಈ ಸ್ವರೂಪದ ಖಚಿತತೆಯನ್ನು, ಎಷ್ಟು ಈಮೇಲ್‌ಗಳನ್ನು ಸರಿಯಾಗಿ ವರ್ಗೀಕರಿಸಿದೆ ಎಂಬುದರಿಂದ ಅಳತೆ ಮಾಡಲಾಗುತ್ತದೆ. ಆರ್‌ಓಸಿ ಕರ್ವ್ಸ್‌ನಂತಹ ಹಲವಾರು ಅಂಕಿಅಂಶಗಳ ವಿಧಾನಗಳು ಮೌಲಮಾಪನಗೊಳಿಸಲು ಉಪಯೋಗಿಸಲ್ಪಟ್ಟಂಥವುಗಳು. ಕಲಿತ ಸ್ವರೂಪಗಳು ಬಯಸಿದ ಗುಣಮಟ್ಟವನ್ನು ಮುಟ್ಟದಿದ್ದರೆ, ನಂತರ ಇದನ್ನು ಮರುಮೌಲ್ಯಮಾಪನಗೊಳಿಸುವುದು ಅಗತ್ಯ ಮತ್ತು ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆ ಹಾಗೂ ಪೂರ್ವಸಂಸ್ಕರಣೆಯನ್ನು ಬದಲಾಯಿಸುವುದು ಅಗತ್ಯ. ಕಲಿತ ಸ್ವರೂಪಗಳು ಬಯಸಿದ ಗುಣಮಟ್ಟವನ್ನು ಮುಟ್ಟಿದರೆ, ನಂತರ ಕಲಿತ ಸ್ವರೂಪಗಳ ವಿವರಣೆಯ ಅಂತಿಮ ಹಂತಕ್ಕೆ ಅರಿವನ್ನಾಗಿ ಅವುಗಳನ್ನು ಪರಿವರ್ತಿಸಬೇಕು.

ಗಮನಾರ್ಹ ಉಪಯೋಗಗಳು

ಆಟಗಳು

1960ರ ವರೆಗೆ, ಕೆಲವು ಸಂಯೋಗ ಆಟಗಳಿಗೆ ಒರೇಕಲ್ಸ್‌ನ ಲಭ್ಯತೆಯ ಜೊತೆಗೆ, ಟೇಬಲ್ ಬೇಸ್ (ಉದಾಹರಣೆಗೆ 3X3 ಚೆಸ್‌ಗೆ) ಎಂದು ಕರೆಯಲ್ಪಟ್ಟ ಆರಂಭದ ವಿನ್ಯಾಸಕ್ಕೆ, ಸ್ಮಾಲ್ ಬೋರ್ಡ್ ಡಾಟ್ಸ್ ಅಂಡ್ ಬಾಕ್ಸಸ್, ಸ್ಮಾಲ್ ಬೋರ್ಡ್ ಹೆಕ್ಸ್ ಮತ್ತು ಚದುರಂಗದಲ್ಲಿನ ಕೆಲವು ಅಂತ್ಯದ ನಡೆಗಳು, ಡಾಟ್ಸ್-ಅಂಡ್ಸ್-ಬಾಕ್ಸಸ್, ಮತ್ತು ಹೆಕ್ಸ್‌ಗಳ ಜೊತೆಗೆ ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಗೆ ಹೊಸ ಪ್ರದೇಶಗಳು ತೆರೆದುಕೊಂಡವು. ಇದು, ಈ ಒರೇಕಲ್‌ಗಳಿಂದ ಮಾನವ ಉಪಯೋಗದ ತಂತ್ರಗಳ ಹೊರತೆಗೆಯುವಿಕೆಯಾಗಿರುತ್ತದೆ. Current pattern recognition approaches do not seem to fully have the required high level of abstraction in order to be applied successfully. ಬದಲಾಗಿ, ಟೇಬಲ್‌ಬೇಸ್‌ನ ಜೊತೆಗೆ ಕಾರ್ಯಾಚರಣೆಯ ಪ್ರಯೋಗವು, ಟೇಬಲ್‌ಬೇಸ್‌ನ ತೀವ್ರವಾದ ಅಭ್ಯಾಸದ ಪೂರ್ವಕಲೆಯ ಅರಿವಿನ ಜೊತೆಗೆ, ಸೂಕ್ತವಾಗಿ ನಕ್ಷಿಸಿದ ಸಮಸ್ಯೆಗಳಿಗೆ ಉತ್ತರ ನೀಡುತ್ತದೆ. ಉದಾಹರಣೆಗೆ ಪೂರ್ವ ಟೇಬಲ್‌ಬೇಸ್ ಅರಿವು ಅಂತರ್ದೃಷ್ಟಿಯ ಸ್ವರೂಪವನ್ನು ಉಪಯೋಗಿಸಿದೆ. ಡಾಟ್ಸ್-ಅಂಡ್-ಬಾಕ್ಸಸ್‌ ಇತ್ಯಾದಿಯಲ್ಲಿ ಬರ್ಲ್‌ಕ್ಯಾಂಪ್ ಮತ್ತು ಚೆಸ್ ಎಂಡ್‌ಗೇಮ್ಸ್‌ನಲ್ಲಿ ಜಾನ್ ನನ್ ಇವುಗಳು ಟೇಬಲ್‌ಬೇಸ್ ತಲೆಮಾರಿನಲ್ಲಿ ಒಳಪಡದಿದ್ದರೂ ಕೂಡಾ ಸಂಶೋಧಕರು ಈ ಕೆಲಸವನ್ನು ಮಾಡುತ್ತಿರುವುದಕ್ಕೆ ಗಮನಾರ್ಹ ಉದಾಹರಣೆಗಳು.

ಉದ್ಯಮ

ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯು ಗ್ರಾಹಕ ಸಂಪರ್ಕ ನಿರ್ವಹಣೆಯ ಉಪಯೋಗದಲ್ಲಿ ಕೆಳ ರೇಖೆಗೆ ಗಮನಾರ್ಹವಾಗಿ ಕೊಡುಗೆಯಾಗಬಲ್ಲದು.[21] ಕಾಲ್ ಸೆಂಟರ್‌ನ ಮೂಲಕ ಅಥವಾ ಮೇಲ್‌ಕಳಿಸುವುದರ ಮೂಲಕ ನಿರೀಕ್ಷೆಯನ್ನು ಅಥವಾ ಗ್ರಾಹಕನನ್ನು ಸಾಮೂಹಿವಾಗಿ ಸಂಪರ್ಕಿಸುವ ಒಂದು ಕಂಪನಿಯು, ಅಗತ್ಯಕ್ಕೆ ಪ್ರತಿಕ್ರಿಯಿಸುವ ಗರಿಷ್ಠ ಇಚ್ಛೆಯ ಮುನ್ಸೂಚಿತ ಪ್ರಯತ್ನದ ಮೇಲೆ ಗಮನವನ್ನು ಕೇಂದ್ರೀಕರಿಸಬಹುದು. ಹೆಚ್ಚು ಸೂಕ್ಷ್ಮವಾದ ವಿಧಾನಗಳು ಕಾರ್ಯಾಚರಣೆಯಾದ್ಯಂತ ಉತ್ತಮ ಮೂಲಗಳನ್ನು ಉಪಯೋಗಿಸುತ್ತವೆ. ಇದರಿಂದಾಗಿ ಎಲ್ಲ ಸಂಭಾವ್ಯ ಸಾಧ್ಯತೆಗಳಿಗೆ ಪ್ರತಿಕ್ರಿಯಿಸಲು, ಯಾವ ವಾಹಿನಿಯು ಮತ್ತು ಯಾವ ಸಾಧ್ಯತೆಯನ್ನು ವೈಯಕ್ತಿಕವಾಗಿ ಇಷ್ಟಪಡಲಾಗುತ್ತದೆ ಎಂಬುದನ್ನು ಮುನ್ಸೂಚಿಸಬಹುದು. ಇದಕ್ಕೆ ವಿಶೇಷ ಸೇರಿಕೆಯಾಗಿ, ಸೂಕ್ಷ್ಮ ಉಪಯೋಗಗಳು ಮೇಲ್ ಮಾಡುವ ಆಯ್ಕೆಯನ್ನು ಸ್ವಯಂ ಚಾಲಿತವಾಗಿಸಬಹುದು. ಒಮ್ಮೆ ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯ(ಸಂಭಾವ್ಯತೆ/ಗ್ರಾಹಕ ಮತ್ತು ವಾಹಕ/ಬೇಡಿಕೆ) ಫಲಿತಾಂಶವು ನಿರ್ಧರಿಸಲ್ಪಟ್ಟ ಮೇಲೆ,ಈ "ಸೂಕ್ಷ್ಮ ಉಪಯೋಗ"ಗಳು ಸ್ವಯಂಚಾಲಿತವಾಗಿ ಈ ಮೇಲ್‌ನ್ನು ಕಳುಹಿಸಬಹುದು ಅಥವಾ ನಿಯಮಿತವಾಗಿ ಕಳುಹಿಸಬಹುದು. ಅಂತಿಮವಾಗಿ, ಬೇಡಿಕೆಯಿಲ್ಲದೇ ಹಲವಾರು ಜನರು ಕಾರ್ಯಪೃವೃತ್ತರಾಗುತ್ತಾರೆ, ಬೇಡಿಕೆಯನ್ನು ಕೊಟ್ಟರೆ ಪ್ರತಿಕ್ರಿಯೆಯಲ್ಲಿ ಯಾರು ಉತ್ತಮ ಏರುಗತಿಯನ್ನು ಕಾಣುತ್ತಾರೆ ಎಂಬುದರ ವಿಶ್ಲೇಷಣೆಯನ್ನು ಅಪ್ಲಿಫ್ಟ್ ಮಾಡೆಲಿಂಗ್ ಉಪಯೋಗಿಸುತ್ತದೆ. ದತ್ತಾಂಶದ ಸಮೂಹಗೊಳಿಸುವಿಕೆಯು ಗ್ರಾಹಕನ ದತ್ತಾಂಶ ಗುಚ್ಛದೊಳಗಿನ ಗುಂಪು ಅಥವಾ ವಿಭಾಗದ ಸ್ವಯಂಚಾಲಿತ ಸಂಶೋಧನೆಗೂ ಉಪಯೋಗಿಸಲ್ಪಡುತ್ತಿದೆ. ಉದ್ಯಮಗಳ ಎಂಪ್ಲಾಯಿಂಗ್ ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯು ತೊಡಗಿಸುವಿಕೆಯ ಮೇಲೆ ಹಿಂಪಡೆಯುವಿಕೆಯನ್ನು ಆಶಿಸುತ್ತದೆ. ಆದರೆ ಕ್ಷಣಮಾತ್ರದಲ್ಲಿ ಹೆಚ್ಚಾಗಬಲ್ಲ ಪ್ರಿಡಿಕ್ಟಿವ್ ಮಾದರಿಗಳ ಸಂಖ್ಯೆಯನ್ನು ಅವರು ಗಮನಿಸುತ್ತಾರೆ. ಒಂದಕ್ಕಿಂತ ಹೆಚ್ಚು ಮಾದರಿಯ ಮುನ್ಸೂಚನೆಗೆ ಗ್ರಾಹಕನು ಚಿಂತಿಸುತ್ತಾನೆ ಎಂಬುದನ್ನು ಆಧರಿಸಿ ಒಬ್ಬ ವ್ಯವಹಾರಗಾರ ಪ್ರತೀ ವಲಯ ಮತ್ತು ಗ್ರಾಹಕನ ಬಗೆಗೆ ಪ್ರತ್ಯೇಕ ಮಾದರಿಯನ್ನು ನಿರ್ಮಿಸಬಲ್ಲ. ಎಲ್ಲ ಜನರಿಗೂ ಒಂದು ಬೇಡಿಕೆಯನ್ನು ಕಳುಹಿಸಿ, ಅವರು ಅದನ್ನು ಚಿಂತಿಸುವ ಬದಲು ಗ್ರಾಹಕರಿಗೆ ಮಾತ್ರ ಬೇಡಿಕೆಗಳನ್ನು ಕಳುಹಿಸಿದಾಗ, ಅವರು ಬೇಡಿಕೆಗಳನ್ನು ಸ್ವೀಕರಿಸುತ್ತಾರೆ. ಮತ್ತು ಅಂತಿಮವಾಗಿ, ಸಂದರ್ಭದಲ್ಲಿ ಯಾವ ಗ್ರಾಹಕನು ಲಾಭಪಡೆದುಕೊಳ್ಳುತ್ತಾನೆ ಎಂಬುದನ್ನೂ ಇದು ನಿರ್ದರಿಸುತ್ತದೆ ಮತ್ತು ಲಾಭವಾಗುವಂಥವರಿಗೆ ಬೇಡಿಕೆಯನ್ನು ಕಳುಹಿಸುತ್ತದೆ. ಈ ಮಾದರಿಗಳ ಗುಣಮಟ್ಟವನ್ನು ಕಾಯ್ದುಕೊಳ್ಳುವ ನಿರ್ಧಾರದಲ್ಲಿ, ಅವರು ಮಾದರಿಗಳ ಆವೃತ್ತಿಯನ್ನು ನಿರ್ವಹಿಸುವುದು ಮತ್ತು ಸ್ವಯಂಚಾಲಿತ ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಗೆ ಪರಿವರ್ತನೆಗೊಳ್ಳುವುದು ಅಗತ್ಯವಾಗಿದೆ. ಮಾನವ ಸಂಪನ್ಮೂಲ ಇಲಾಖೆಗಳಲ್ಲಿನ ಯಶಸ್ವೀ ನೌಕರರ ಗುಣಲಕ್ಷಣಗಳನ್ನು ಗುರುತಿಸುವುದಕ್ಕೆ ಕೂಡಾ ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯು ಸಹಾಯಕವಾಗಿರುತ್ತದೆ. ಗರಿಷ್ಠ ಯಶಸ್ವೀ ನೌಕರರ ಮೂಲಕ ವಿಶ್ವವಿದ್ಯಾನಿಲಯದ ಹಾಜರಿಯಂತಹ ಕಲೆಹಾಕಿದ ಮಾಹಿತಿಯು, ಮಾನವ ಸಂಪನ್ಮೂಲ ಇಲಾಖೆಯ ನೇಮಕಾತಿ ಪ್ರಕ್ರಿಯೆಗೆ ಸಹಾಯ ಮಾಡಬಲ್ಲದು. ಜೊತೆಗೆ, ತಂತ್ರ ಸಂಘಟನಾ ನಿರ್ವಹಣೆಯ ಉಪಯೋಗವು ಕಾರ್ಪೊರೇಟ್ ಮಟ್ಟದ ಗುರಿಗಳಾದ ಲಾಭ ಮತ್ತು ಮಾರ್ಜಿನ್ ಶೇರ್‌ನ ಗುರಿಯಂತಹವನ್ನು ಆಪರೇಶನಲ್ ತೀರ್ಮಾನಗಳಾದ ಉತ್ಪಾದನಾ ಯೋಜನೆ ಮತ್ತು ಕೆಲಸದ ಮಟ್ಟವನ್ನು ಪರಿವರ್ತಿಸಲು ಕಂಪನಿಗೆ ಸಹಾಯ ಮಾಡುತ್ತದೆ. [23] ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಗೆ ಇನ್ನೊಂದು ಉದಾಹರಣೆಯೆಂದರೆ, ಮಾರ್ಕೆಟ್ ಬಾಸ್ಕೆಟ್ ವಿಶ್ಲೇಷಣೆಯೆಂದು ಕರೆಯಲಾಗುವ ಇವುಗಳು ಚಿಲ್ಲರೆ ಮಾರಾಟದಲ್ಲಿನ ಉಪಯೋಗಗಳಿಗೆ ಸಂಬಂಧಿಸಿರುತ್ತದೆ. ಒಂದು ಬಟ್ಟೆ ಅಂಗಡಿಯು ಗ್ರಾಹಕರ ಕೊಳ್ಳುವಿಕೆಯನ್ನು ದಾಖಲಿಸಿದರೆ, ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆ ವ್ಯವಸ್ಥೆಯು, ಹತ್ತಿ ಅಂಗಿಗಳಿಗಿಂತ ಸಿಲ್ಕ್ ಅಂಗಿಗಳ ಬಗ್ಗೆ ಯಾವ ಗ್ರಾಹಕರು ಆಸಕ್ತಿ ಹೊಂದಿದ್ದಾರೆ ಎಂಬುದನ್ನು ಕಂಡುಹಿಡಿಯುತ್ತದೆ. ಆದರೂ ಕೆಲವು ಸಂಬಂಧಗಳ ವಿವರಣೆಯು ಕಷ್ಟಕರವಾಗಬಹುದು. ಇದರ ಲಾಭವನ್ನು ಪಡೆದುಕೊಳ್ಳುವುದು ತುಂಬಾ ಸುಲಭವಾಗಿದೆ. ವ್ಯವಹಾರ ಮೂಲದ ದತ್ತಾಂಶ ವ್ಯಾಪ್ತಿಯಲ್ಲೇ ಸಂಘಟನಾ ನಿಯಮಗಳ ಜೊತೆಗೆ ಉದಾಹರಣೆಗಳು ವ್ಯವಹಾರ ನಡೆಸುತ್ತವೆ. ದತ್ತಾಂಶಗಳಲ್ಲದ ಎಲ್ಲ ವ್ಯವಹಾರ ಮೂಲದ ಮತ್ತು ತಾರ್ಕಿಕವಾಗಿರುವ ಅಥವಾ ಅಸಮ ನಿಯಮಗಳು ದತ್ತಾಂಶದಲ್ಲೇ ಇದ್ದಿರಬಹುದು. ಉತ್ಪನ್ನ ಪ್ರಯೋಗದಲ್ಲಿ, ಅಸಮ ನಿಯಮವು ನಿರ್ದಿಷ್ಟ ದೋಶವಿರುವ ಅಥವಾ ಸಮಸ್ಯೆಯಿರುವ ಶೇ.73ರಷ್ಟು ಉತ್ಪನ್ನಗಳು ಮುಂದಿನ ಆರು ತಿಂಗಳ ವರೆಗೆ ಆನುಷಂಗಿಕ ಸಮಸ್ಯೆಯನ್ನು ತಂದೊಡ್ಡುತ್ತವೆ. ಮಾರ್ಕೆಟ್ ಬಾಸ್ಕೆಟ್ ವಿಶ್ಲೇಷಣೆಯು ಆಲ್ಫಾ ಗ್ರಾಹಕರ ಸ್ವರೂಪದ ಕೊಳ್ಳುವಿಕೆಯನ್ನು ಗುರುತಿಸುವುದಕ್ಕೂ ಉಪಯೋಗಿಸುತ್ತದೆ. ಉತ್ಪನ್ನದ ಹಿಂದಿನ ಪರಿಕಲ್ಪನೆಯ ಜೊತೆಗೆ ಸಂಬಂಧಿಸಿರಲು ಆಲ್ಫಾ ಗ್ರಾಹಕರು ಮುಖ್ಯ ಪಾತ್ರವನ್ನು ನಿರ್ವಹಿಸಿರುತ್ತಾರೆ. ನಂತರ ಇವರು ಉತ್ಪನ್ನವನ್ನು ತೆಗೆದುಕೊಳ್ಳುತ್ತಾರೆ ಮತ್ತು ಅಂತಿಮವಾಗಿ ಮುಂದಿನ ಸಮಾಜಕ್ಕೆ ಉತ್ಪನ್ನವನ್ನು ಕಾಯ್ದಿರಿಸುತ್ತಾರೆ. ಈ ರೀತಿಯ ಬಳಕೆದಾರರು ಕಲೆಹಾಕಿದ ದತ್ತಾಂಶ ವಿಶ್ಲೇಶಷಣೆಯು, ಭವಿಷ್ಯದ ಕೊಳ್ಳುವಿಕೆಯ ಟ್ರೆಂಡ್‌ಗಳನ್ನು ಮತ್ತು ಪೂರೈಕೆಯ ಬೇಡಿಕೆಯನ್ನು ಮುನ್ಸೂಚಿಸಲು ಕಂಪನಿಗಳಿಗೆ ಭವಿಷ್ಯನುಡಿಯುತ್ತದೆ. ಕ್ಯಾಟಲಾಗ್ ಮಾರ್ಕೆಟಿಂಗ್ ಉದ್ಯಮದಲ್ಲಿ ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯು ಹೆಚ್ಚು ಪರಿಣಾಮಕಾರಿಯಾದ ಸಾಧನವಾಗಿದೆ. ಹಲವಾರು ವರ್ಷಗಳ ಹಿಂದಿನ ಗ್ರಾಹಕರ ಮಿಲಿಯನ್‌ಗಟ್ಟಲೆ ವ್ಯವಹಾರದ ಶ್ರೀಮಂತ ಇತಿಹಾಸವನ್ನು ಕ್ಯಾಟಲಾಗರ್ಸ್ ಹೊಂದಿರುತ್ತಾರೆ. ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯ ಸಾಧನಗಳು ಗ್ರಾಹಕರ ಸ್ವರೂಪವನ್ನು ಗುರುತಿಸುತ್ತವೆ ಮತ್ತು ಮುಂದಿನ ಮೇಯ್ಲಿಂಗ್ ಕ್ಯಾಂಪೇನ್‌ಗಳಿಗೆ ಪ್ರತಿಕ್ರಿಯಿಸುವ ಗ್ರಾಹಕರನ್ನು ಇದು ಗುರುತಿಸುತ್ತದೆ. ಆಂತರ್ಗತ- ಸರ್ಕ್ಯುಟ್ ಉತ್ಪಾದನೆಯ ರೇಖೆಗೆ ಸಂಬಂಧಿಸಿ, ಒಂದು ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯ ಒಂದು ಉದಾಹರಣೆಯು ಪುಟಗಳಲ್ಲಿ ವಿವರಿಸಿದಂತೆ, "ವಿಎಲ್‌ಐಸಿ ಪರೀಕ್ಷೆಯನ್ನು ಉಪಯುಕ್ತವಾಗಿಸುವುದಕ್ಕೆ ಐಸಿ ಪರೀಕ್ಷೆಯ ದತ್ತಾಂಶವನ್ನಿ ಗಣಿಗಾರಿಕೆ ಮಾಡಲಾಗುತ್ತದೆ."[24] ಈ ದಾಖಲೆಯಲ್ಲಿ ದತ್ತಾಂಶ ಗಣಿಗರಿಕೆಯ ಪ್ರಯೋಗ ಮತ್ತು ಡೈ ಮಟ್ಟದ ಕಾರ್ಯ ಪರೀಕ್ಷಾ ಸಮಸ್ಯೆಯ ತೀರ್ಮಾನದ ವಿಶ್ಲೇಷಣೆಯು ವಿವರಿಸಲ್ಪಡುತ್ತೆದೆ. ಈ ದಾಖಲೆಯ ಪ್ರದರ್ಶನದಲ್ಲಿ ಪ್ರಯೋಗಗಳು ಉದ್ಧರಿಸಲ್ಪಟ್ಟಂತೆ, ಡೈ ಫೈಲ್ಯೂರ್‌ನ ಸ್ವರೂಪದ ಸಾಧ್ಯತಾ ಮಾದರಿಯ ನಿರ್ಮಾಣಕ್ಕೆ ಇಅತಿಹಾಸಿಕ ಡೈ ಟೆಸ್ಟ್ ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆ ವ್ಯವಸ್ಥೆಯ ಪ್ರಯೋಗ ಸಾಮರ್ಥ್ಯವನ್ನು ಇದು ಹೇಳುತ್ತದೆ. ಇದು ನಂತರದಲ್ಲಿ ಮುಂದಿನ ಪರೀಕ್ಷೆಗೆ ಡೈ ಮಾಡಲ್ಪಡುವ ಮತ್ತು ಪರೀಕ್ಷೆಯನ್ನು ನಿಲ್ಲಿಸುವ, ನಿಜವಾದ ಸಂದರ್ಭದಲ್ಲಿ ಉಪಯೋಗಿಸುವುದಕ್ಕೆ ತೀರ್ಮಾನಿಸಲ್ಪಡುತ್ತದೆ. ಪಕ್ವವಾದ ಐಸಿ ಉತ್ಪನ್ನಗಳ ಮೇಲಿನ ಲಾಭವನ್ನು ಉತ್ತಮಗೊಳಿಸುವ ಸಾಧ್ಯತೆಗಳನ್ನು ಹೊಂದುವುಕ್ಕಾಗಿ ಐತಿಹಾಸಿಕ ಪರೀಕ್ಷಾ ದತ್ತಾಂಶದ ಜೊತೆಗೆ ಪ್ರಯೋಗದ ಮೇಲಿನ ಮೂಲವನ್ನು ಈ ವ್ಯವಸ್ಥೆಯು ತೋರಿಸಿದೆ.

ವಿಜ್ಞಾನ ಮತ್ತು ಇಂಜಿನಿಯರಿಂಗ್

ಇತ್ತೀಚಿನ ವರ್ಷಗಳಲ್ಲಿ, ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯನ್ನು ಹೆಚ್ಚಾಗಿ ವಿಜ್ಞಾನ ಮತ್ತು ಇಂಜಿನಿಯರಿಂಗ್‌‍ ಕ್ಷೇತ್ರಗಳಾದ ಬೈಯೊಇನ್ಫಾರ್‌ಮೆಟಿಕ್‌, ಜೆನೆಟಿಕ್ಸ್‌‍, ಔಷಧಿಶಾಸ್ತ್ರ, ಶಿಕ್ಷಣ ಮತ್ತು ವಿದ್ಯುತ್‌ಶಕ್ತಿಇಂಜಿನಿಯರಿಂಗ್‌‍ಗಳಲ್ಲಿ ಬಳಸಲಾಗುತ್ತದೆ‌.‍ ಮಾನವ ವಂಶವಾಹಿನಿ ಅಧ್ಯಯನದಲ್ಲಿ, ಮುಖ್ಯ ಗುರಿಯಾದ ಪ್ರತಿಯೊಬ್ಬ ವ್ಯಕ್ತಿಯ ನಡುವಿನ DNA ನಡುವಿನ ಹೊಂದಾಣಿಕೆಯನ್ನು ಅಭ್ಯಸಿಸುವಾಗಿನ ಸಂಬಂಧಿ ನಕ್ಷೆಯನ್ನು ತಯಾರಿಸುವಾಗ ಹಾಗೂ ರೋಗ ನಿರ್ಣಯ ಸಂಬಂಧಿ ವಂಶವಾಹಿನಿಯನ್ನು ನಿರ್ಧರಿಸುವಾಗ ದತ್ತಾಂಶಗಳನ್ನು ಬಳಸಲಾಗುತ್ತದೆ. ಪ್ರತಿಯೊಬ್ಬ ವ್ಯಕ್ತಿಯ DNA ಸಂಯೋಜನೆಯಲ್ಲಿ ಬದಲಾವಣೆಯಾಗುವುದರಿಂದ ಹೇಗೆ ಕ್ಯಾನ್ಸರ್‌‍ನಂತಹ ಒಂದೇ ರೀತಿಯ ರೋಗಗಳು ಬೆಳವಣಿಗೆಯಾಗುತ್ತವೆ ಎಂಬುದನ್ನು ಕಂಡುಹಿಡಿಯುವಲ್ಲಿ ಇದರ ಪಾತ್ರಮುಖ್ಯವಾಗುತ್ತದೆ. ಇದು ರೋಗನಿಶ್ಚಯ ಮಾಡುವ ಪ್ರಕ್ರಿಯೆಯನ್ನು ಹಾಗೂ ರೋಗ ಬರದಂತೆ ತೆಡೆಯುವುದು ಮತ್ತು ರೋಗಕ್ಕೆ ಚಿಕಿತ್ಸೆಯನ್ನು ನೀಡುವಲ್ಲಿ ಇದು ಮುಖ್ಯವಾಗುತ್ತದೆ. ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯ ವಿಧಾನವನ್ನು ಬಳಸುವುದನ್ನು ಬಹುವಿಧದ ಆಯಾಮವನ್ನು ಕಡಿಮೆಗೊಳಿಸುವುದು ಎಂದು ಹೇಳಲಾಗುತ್ತದೆ.[26] ವಿದ್ಯುತ್‌ಶಕ್ತಿ ಇಂಜಿನಿಯಂರಿಂಗ್‌ ಕ್ಷೇತ್ರದಲ್ಲಿ ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯನ್ನು ಬಹುವಿಧದಲ್ಲಿ ಹೆಚ್ಚಿನ ವೊಲ್ಟೇಜ್‌ನ ವಿದ್ಯುತ್‌ಯಂತ್ರದ ಪರಿಸ್ಥಿತಿ ಮೇಲ್ವಿಚಾರಣೆಗೆ ಬಳಸಲಾಗುತ್ತದೆ. ಪರಿಸ್ಥಿತಿ ಮೇಲ್ವಿಚಾರಣೆ ಮಾಡುವ ಮುಖ್ಯ ಉದ್ದೇಶವೆಂದರೆ ಉಪಕರಣದಲ್ಲಿನ ಇನ್ಸುಲೇಷನ್‌‍ ಕುರಿತಾದ ಉಪಯುಕ್ತ ಮಾಹಿತಿಯನ್ನು ಇದರಿಂದ ಪಡೆಯಬಹುದಾಗಿದೆ. ದತ್ತಾಂಶ ಒಟ್ಟುಗೂಡಿಸುವಿಕೆಯನ್ನು ಉದಾಹರಣೆಗೆ ಸ್ವ-ಸಂಘಟಿತ ನಕ್ಷೆಯನ್ನು(SOM)ಟ್ರಾನ್ಸ್‌‍ಫಾರ್ಮರ್‌ ಆನ್‌-ಲೋಡ್‌‍ ಟ್ಯಾಪ್‌‍-ಚೇಂಜರ್ಸ್‌‍(OLTCS)ನ ಕಂಪನ ಮೇಲ್ವಿಚಾರಣೆ ಮತ್ತು ವಿಶ್ಲೇಷಣೆಗಾಗಿ ಬಳಸಲಾಗುತ್ತದೆ. Using vibration monitoring, it can be observed that each tap change operation generates a signal that contains information about the condition of the tap changer contacts and the drive mechanisms. ಕಂಪನ ಮೇಲ್ವಿಚಾರಣೆಯನ್ನು ಬಳಸುವುದರಿಂದ ಪ್ರತಿಬಾರಿಯೂ ಟ್ಯಾಪ್‌ ಬದಲಾದಾಗ ಒಂದು ಸಂಜ್ಞೆಯು ಅದರ ಮಾಹಿತಿಯನ್ನು ಪಡೆದುಕೊಂಡು ಅಲ್ಲಿಯ ಡ್ರೈವ್‌ ಮೆಕಾನಿಸ್ಮ್‌ಗೆ ತಾಕುತ್ತದೆ ಇದರಿಂದ ಅಲ್ಲಿಯ ಪರಿಸ್ಥಿಯ ಗಮನ ಇಡಬಹುದು. ನಿಸ್ಸಂಶಯವಾಗಿ ಪ್ರತಿಯೊಂದು ಟ್ಯಾಪ್‌ ಪೊಸಿಷನ್ ಕೂಡಾ ಬೇರೆ ಬೇರೆ ಸಂಜ್ಞೆಗಳನ್ನು ವರ್ಗಾಯಿಸುತ್ತದೆ. ಇದರಿಂದ ಸಾಮಾನ್ಯ ಪರಿಸ್ಥಿತಿಯಲ್ಲಿ ಇದ್ದ ಸಂಜ್ಞೆಗೂ ಹಾಗೂ ಟ್ಯಾಪ್‌ಗಳಿಂದ ಬರುವ ಸಂಜ್ಞೆಗೂ ವ್ಯತ್ಯಾಸ ಕಂಡುಹಿಡಿಯುವ ಮೂಲಕ ಪರಿಸ್ಥಿತಿ ಅಧ್ಯಯನ ಮಾಡಬಹುದಾಗಿದೆ. SOM ಅನ್ನು ಅಸಾಮಾನ್ಯ ಪರಿಸ್ಥಿತಿಯನ್ನು ಕಂಡುಹಿಡಿಯಲು ಮತ್ತು ಅಸಾಮಾನ್ಯತೆಯ ಮಟ್ಟವನ್ನು ಲೆಕ್ಕಹಾಕಲು ಬಳಸಲಾಗುತ್ತದೆ.[28] ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯ ತಂತ್ರವನ್ನು ಪವರ್‌ ಟ್ರಾನ್ಸ್‌ಪಾರ್ಮ್‌ರ್‌ಗಳಲ್ಲಿ ವಿಲೀನಗೊಂಡ ಗ್ಯಾಸ್‌ ವಿಶ್ಲೇಷಿಸುವುದಕ್ಕೆ(DGA) ಕೂಡ ಬಳಸಲಾಗುತ್ತದೆ. ಪವರ್‌ ಟ್ರಾನ್ಸ್‌ಫಾರ್ಮರ್‌ಗಳಿಗೆ ವಿಶ್ಲೇಷಕವಾಗಿ DGA ಅನ್ನು ಹಲವು ವರ್ಷಗಳಿಂದ ಬಳಸಲಾಗುತ್ತಿದೆ. ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯ ತಂತ್ರವಾದ SOM ಅನ್ನು ದತ್ತಾಂಶವನ್ನು ವಿಶ್ಲೇಷಿಸುವುದಕ್ಕೆ ಹಾಗೂ ಟ್ರೆಂಡ್‌ ಅನ್ನು ನಿರ್ಧರಿಸುವುದಕ್ಕೆ ಬಳಸಲಾಗುತ್ತದೆ ಆದರೆ ಇದು DGA ತಂತ್ರದ ನಿಶ್ಪತ್ತಿಯಾದ ಡ್ಯೂಯಲ್‌‍ ಟ್ರಿಯಾಂಗಲ್‌ ರೀತಿಯ ಗುಣಮಟ್ಟವನ್ನು ಕೊಡಲಾರದು.[29] ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯನ್ನು ಬಳಸುವ ನಾಲ್ಕನೇ ಕ್ಷೇತ್ರವೆಂದರೆ ವಿಜ್ಞಾನ/ಇಂಜಿನಿಯರಿಂಗ್‌ ಆಗಿದೆ. ಇಲ್ಲಿ ಹೆಚ್ಚಾಗಿ ಇದನ್ನು ಶೈಕ್ಷಣಿಕ ಸಂಶೋಧನೆಗೆ ಬಳಸುತ್ತಾರೆ. ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯನ್ನು ಅಲ್ಲಿ ಹೆಚ್ಚಾಗಿ ವಿದ್ಯಾರ್ಥಿಗಳ ಕಲಿಯುವಿಕೆಯ ಶ್ರಮವನ್ನು ಕಡಿಮೆಗೊಳಿಸಿಕೊಳ್ಳಲು[31] ಹಾಗೂ ವಿಶ್ವವಿದ್ಯಾಲಯ ಮಟ್ಟದ ವಿದ್ಯಾರ್ಥಿಗಳ ಸಾಮರ್ಥ್ಯವನ್ನು ಪರೀಕ್ಷಿಸಲು ಇದನ್ನು ಬಳಸಲಾಗುತ್ತದೆ.[33]. ಅದೇ ರೀತಿಯ ಸಾಮಾಜಿಕ ಬಳಕೆಯಲ್ಲಿರುವ ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯ ಉದಾಹರಣೆಯೆಂದರೆ ನಿಪುಣತೆಯನ್ನು ಕಂಡುಹಿಡಿಯುವ ಪದ್ದತಿ, ಇದರಿಂದ ಮಾನವ ನೈಪುಣ್ಯತೆಯನ್ನು ತೆಗೆಯಲಾಗುವುದು, ಸಾಮಾನ್ಯೀಕರಣ ಗೊಳಿಸಲಾಗುವುದು ಮತ್ತು ವರ್ಗೀಕರಿಸಲಾಗುವುದು. ಇದರ ಮೂಲಕ ವೈಜ್ಞಾನಿಕ ಮತ್ತು ತಾಂತ್ರಿಕ ಕ್ಷೇತ್ರಗಳಲ್ಲಿ ನೈಪುಣ್ಯತೆಯನ್ನು ಕಂಡುಕೊಳ್ಳಲಾಗುವುದು. ಈ ರೀತಿಯಾಗಿ ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯು ಸಾಂಸ್ಥಿಕ ಜ್ಞಾನ ಭಂಡಾರವನ್ನು ವೃದ್ಧಿಪಡಿಸುತ್ತದೆ. ಇನ್ನುಳಿದ ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯ ತಂತ್ರಗಳನ್ನು ಬಳಸುವ ಕ್ಷೇತ್ರಗಳಲ್ಲಿ ಡೊಮೇನ್ ಓಂಟೋಲಜೀಸ್‌ನಿಂದ ಸೌಲಭ್ಯಯುತವಾದ ಬಯೋ ಮೆಡಿಕಲ್‌ ಡಾಟಾ,[35] ಎಸ್‌ಓಎಮ್ ಉಪಯೋಗಿಸುವ ಟ್ರಾಫಿಕ್ ಅನಾಲಿಸಿಸ್,[36] ಇವು ಇನ್ನಿತರ ಉದಾಹರಣೆಗಳು.[38] In adverse drug reaction surveillance, the Uppsala Monitoring Centre has, since 1998, used data mining methods to routinely screen for reporting patterns indicative of emerging drug safety issues in the WHO global database of 4.6 million suspected adverse drug reaction incidents^[೪]. ಇತ್ತೀಚೆಗೆ, ಆರೋಗ್ಯ ಪರೀಕ್ಷೆಯಲ್ಲಿನ ಔಷಧದ ನಿಯಮದ ಅನಿಯಮಿತ ಸಹಯೋಗಕ್ಕಾಗಿ ಎಲೆಕ್ಟ್ರಾನಿಕ್ ಆರೋಗ್ಯ ದಾಖಲೆಗಳ ಗರಿಷ್ಠ ಸಂಗ್ರಹವನ್ನು ಇದೇ ರೀತಿಯ ಪದ್ಧತಿಗಳು ಅಭಿವೃದ್ಧಿಗೊಳಿಸಿವೆ.[40]

ಪ್ರಾದೇಶಿಕ ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆ

ಪ್ರಾದೇಶಿಕ ಗಣಿಗಾರಿಕೆ ಎಂಬುದು ಪ್ರಾದೇಶಿಕ ಗಣಿಗಾರಿಕೆಯ ತಂತ್ರಾಂಶಗಳನ್ನು ಬಳಸಿಕೊಂಡು ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆ ಮಾಡುವುದಾಗಿದೆ. ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯಲ್ಲಿ ನಿರ್ವಹಿಸುವ ಕಾರ್ಯಗಳನ್ನೇ ಪ್ರಾದೇಶಿಕ ಗಣಿಗಾರಿಕೆಯಲ್ಲೂ ಅನುಸರಿಸುತ್ತಾರೆ, ಜೊತೆಗೆ ಭೌಗೋಳಿಕಪ್ರದೇಶದಲ್ಲಿ ಉದ್ದೇಶಿತ ಮಾದರಿ ಸಿಗುವವರೆಗೆ. ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆ ಮತ್ತು ಭೌಗೋಳಿಕ ಮಾಹಿತಿ ವ್ಯವಸ್ಥೆಗಳು (ಜಿಐಎಸ್) ಎರಡು ಪ್ರತ್ಯೇಕ ತಂತ್ರಜ್ಞಾನವಾಗಿ ಹೊರಹೊಮ್ಮಿದೆ, ಆಚರಣೆಗಳು ಮತ್ತು ಹಾದಿಗಳು ನೋಟಪರಿಶೀಲನೆ ಮತ್ತು ದತ್ತಾಂಶ ವಿಶ್ಲೇಷಣೆಗೆ ಎರಡಕ್ಕೂ ಸಹ ತನ್ನದೇ ಆದ ಸ್ವಂತ ಕ್ರಮಬದ್ಧ ವ್ಯವಸ್ಥೆಯನ್ನು ಹೊಂದಿದೆ. ನಿಶ್ಚಿತವಾಗಿ ಎಲ್ಲಾ ಸಮಕಾಲೀನ ಜಿಐಎಸ್‌ಗಳು ಕೇವಲ ಮೂಲಭೂತವಾದ ಪ್ರಾದೇಶಿಕ ವಿಶ್ಲೇಷಣಾ ಕಾರ್ಯದಕ್ಷತೆಯನ್ನು ಹೊಂದಿರುತ್ತವೆ. ಮಹತ್ತಾಗಿ ಭೌಗೋಳಿಕ ದತ್ತಾಂಶ ವಿಶೇಷ ಘಟನೆ ಗುರುತಿಸಲ್ಪಟ್ಟಿದ್ದು ಐಟಿ ಕ್ಷೇತ್ರದಲ್ಲಾದ ಅಭಿವೃದ್ಧಿಯಿಂದಾಗಿ, ಡಿಜಿಟಲ್ ಮ್ಯಾಪಿಂಗ್, ರೀಮೊಟ್ ಸೆನ್ಸಿಂಗ್ ಮತ್ತು ಜಾಗತಿಕವಾಗಿ ಜಿಐಎಸ್‌ನ ಹರಡುವಿಕೆಯ ದತ್ತಾಂಶ ಚಾಲನೆಯ ಒಳಪಡೆಗೆ ಸೇರಿಸುವ ದಾರಿಯಮುಖಾಂತರ ಭೌಗೋಳಿಕ ವಿಶ್ಲೇಷಣೆ ಮತ್ತು ಮಾದರಿಯಿಂದ. ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆ ಎಂಬುದು ದೊಡ್ಡ ದತ್ತಾಂಶಗಳಲ್ಲಿನ ಮರೆಯಾಗಿರುವ ವಿನ್ಯಾಸಗಳನ್ನು ಭಾಗಶಃ ಯಾಂತ್ರಿಕವಾಗಿ ಹುಡುಕುವುದಾಗಿದೆ. ಜಿಐಎಸ್ ಮೂಲದ ನಿರ್ಧಾರ ಕೈಗೊಳ್ಳುವಲ್ಲಿ ಉತ್ತಮ ಸಾಮರ್ಥ್ಯವುಳ್ಳದಾಗಿದೆ. ಇತ್ತೀಚೆಗೆ, ಈ ಎರಡು ತಂತ್ರಜ್ಞಾನಗಳನ್ನು ಒಂದುಗೂಡಿಸಲು ನಡೆಸಿದ ಕಾರ್ಯ ಟೀಕೆಗೆ ಗುರಿಯಾಗಿತ್ತು. ವಿಶೇಷವಾಗಿ ಸಾರ್ವಜನಿಕ ಮತ್ತು ಖಾಸಗಿ ಕ್ಷೇತ್ರಗಳ ಸಂಸ್ಥೆಗಳು ದತ್ತಾಂಶಗಳ ಮೇಲೆ ಹತೋಟಿಯನ್ನು ಹೊಂದಿದ್ದವು ಜೊತೆಗೆ ವಿಷಯಪೂರ್ಣವಾಗಿದ್ದವು ಮತ್ತು ಭೌಗೋಳಿಕ ದತ್ತಾಂಶಗಳು ಅದರಲ್ಲಿ ಅಡಕವಾಗಿದ್ದ ಅಗಾಧವಾದ ನಿಗೂಢ ಮಾಹಿತಿಗಳನ್ನು ಬಹಿರಂಗ ಪಡಿಸಿದವು. ಆ ಸಂಸ್ಥೆಗಳೆಂದರೆ:

ಕಛೇರಿಗಳಿಗೆ ಬೇಕಾಗಿರುವ ವಿಶ್ಲೇಷಣೆಗಳು ಅಥವಾ ಜೀಯೋ- ಪರಾಮರ್ಶಿಸಿರುವ ಅಂಕಿಅಂಶ ದತ್ತಾಂಶಗಳ ಪ್ರಚಾರಪಡಿಸುವಿಕೆ
ಸಾರ್ವಜನಿಕ ಆರೋಗ್ಯ ಸಂಸ್ಥೆಯ ನೌಕರರು ಕಾಯಿಲೆ ಕುರಿತು ಸಮುದಯಗಳಿಗೆ ಮಾಹಿತಿ ಕೊಡಲು ಹುಡುಕುವುದು
ಪರಿಸರ ಕುರಿತ ಏಜೆನ್ಸಿಗಳು ಋತುಮಾನಕ್ಕೆ ತಕ್ಕ ಹಾಗೇ ಭೂಮಿಯನ್ನು ಬಳಸಿಕೊಂಡ ಪರಿಣಾಮ ಕುರಿತು ವಿಮರ್ಶೆಮಾಡವುದು
geo-marketing companies doing customer segmentation based on spatial location. ಜಿಯೋ ಮಾರ್ಕೆಟಿಂಗ್ ಕಂಪನಿಗಳು ಪ್ರಾದೇಶಿಕ ತಾಣದ ಆಧಾರದ ಮೇಲೆ ಗ್ರಾಹಕರನ್ನು ವಿಭಾಗಿಸುತ್ತಿವೆ.

ಸವಾಲುಗಳು

ಭೂಪ್ರಾದೇಶಿಕ ದತ್ತಾಂಶ ಉಗ್ರಾಣಗಳನ್ನು ಜೋಪಾನಮಾಡುವುದು ಬಹಳ ಕಷ್ಟ. ಆದಾಗ್ಯೂ, ಪ್ರಸ್ತುತದಲ್ಲಿರುವ ಜಿಐಎಸ್ ದತ್ತಾಂಶಗಳು ಪದೇ ಪದೇ ಒಡೆದು ಹೋಗುವ ಲಕ್ಷಣಗಳನ್ನು ಮತ್ತು ಗುಣಾಂಶಗಳನ್ನು ಮಿಶ್ರತಳಿ ದತ್ತಾಂಶ ಆಡಳಿತ ಮಂಡಲಿ ವ್ಯವಸ್ಥೆಗಳು ಸಾಮಾನ್ಯವಾಗಿ ಒಳಗೊಂಡಿರುತ್ತವೆ. ಗಣನ ಪದ್ಧತಿಯಲ್ಲಿ ಸಂಬಂಧಿ(ಗುಣ) ದತ್ತಾಂಶ ನಿರ್ವಹಣೆ ಮತ್ತು (ಗಣಕಯಂತ್ರದ)ತಂತಿಜಾಲ(ಲಕ್ಷಣ) ದತ್ತಾಂಶ ನಿರ್ವಹಣೆ ಗಣನೀಯ ಪ್ರಮಾಣದಲ್ಲಿ ವಿಭಿನ್ನವಾಗಿರುತ್ತವೆ [41]. ಇದು ಭೌಗೋಳಿಕ ದತ್ತಾಂಶ ವಿನ್ಯಾಸಗಳ ವೈವಿಧ್ಯತೆಗೆ ಮತ್ತು ವ್ಯಾಪ್ತಿಗೆ ಸಂಬಂಧಿಸಿದಂತೆ ಇದು ಸಹ ಅಪೂರ್ವವಾದ ಸವಾಲುಗಳನ್ನು ಪ್ರಸ್ತುತಪಡಿಸುತ್ತದೆ. ಜ್ಭೌಗೋಳಿಕ ದತ್ತಾಂಶದಲ್ಲಾದ ಡಿಜಿಟಲ್ ಕ್ರಾಂತಿಯು ಸಾಂಪ್ರದಾಯಿಕವಾದ "ವೆಕ್ಟರ್" ಮತ್ತು "ರಾಸ್ಟರ್" ವಿನ್ಯಾಸಗಳ ಆಚೆಯ ಹೊಸ ಬಗೆಯ ದತ್ತಾಂಶ ವಿನ್ಯಾಸಗಳನ್ನು ಸೃಷ್ಟಿಸಿತು. ಭೌಗೋಳಿಕ ದತ್ತಾಂಶ ಭಂಡಾರಗಳಲ್ಲಿ ಕೆಟ್ಟ ರಚನಾವಿನ್ಯಾಸದ ದತ್ತಾಂಶಗಳಾದ ಕಲ್ಪನೆಗಳು ಮತ್ತು ಭೂ-ಉಲ್ಲೇಖಿತ ಬಹುಮಾಧ್ಯಮಗಳು ಹೆಚ್ಚಾದವು [42]. ಭೌಗೋಳಿಕ ಅರಿವಿನ ಅನ್ವೇಷಣೆ ಮತ್ತು ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯಲ್ಲಿ ಸಾಕಷ್ಟು ಗಂಭೀರವಾದ ಸವಾಲುಗಳಿವೆ. ಮಿಲ್ಲರ್ ಮತ್ತು ಹಾನ್ [43] ಪ್ರಕಟಿಸಿದ ಕ್ಷೇತ್ರಕ್ಕೆ ಸಂಬಂಧಪಟ್ಟಂತಹ ಸಂಶೋಧನೆಗೆ ಸಂಬಂಧಿಸಿದ ವಿಷಯಗಳ ಪಟ್ಟಿ ಕೆಳಕಂಡಂತೆ ಇದೆ:

ಅಭಿವೃದ್ಧಿಯಾಗುತ್ತಿರುವ ಮತ್ತು ಭೌಗೋಳಿಕ ದತ್ತಾಂಶ ಸಂಗ್ರಹಣಕೊಠಡಿಗಳು- ಪ್ರಾದೇಶಿಕ ಜಮೀನುಗಳು ಸರಳವಾದ ಪ್ರಾದೇಶಿಕ ಗುಣಲಕ್ಷಣ ಮುಖ್ಯವಾಹಿನಿಯ ದತ್ತಾಂಶ ಸಂಗ್ರಹ ಕೊಠಡಿಗಳನ್ನು ಅನೇಕ ಸಲ ಕಿರಿದಾಗಿಸಿದವು. ಪೂರ್ಣವಾದ ಜಿಡಿಡಬ್ಲ್ಯು‌ನ್ನು ಸೃಷ್ಟಿಸಿ ಅಗತ್ಯತೆಗೆ ತಕ್ಕಂತೆ ಪ್ರಾದೇಶಿಕದಲ್ಲಿನ ಕಾಲಬದ್ಧ ದತ್ತಾಂಶಗಳು ಒಟ್ಟಿಗೆ ಕಾರ್ಯನಿರ್ವಹಿಸುವ ಸಾಮರ್ಥ್ಯತೆ, ಇದರ ಜೊತೆಗೆ ಶಬ್ದಾರ್ಥ ವಿಜ್ಞಾನದಲ್ಲಿನ ತಾರತಮ್ಯ, ಪರಾಮರ್ಶನ ವ್ಯವಸ್ಥೆಗಳು, ರೇಖಾಗಣಿತ, ಖಚಿತತೆ ಮತ್ತು ಸ್ಥಾನಮಾನದಲ್ಲಿನ ವಿವಾದಾಂಶಗಳನ್ನು ಬಗೆಹರಿಸುತ್ತಿತ್ತು.
ಉತ್ತಮ ಅಂತರಿಕ್ಷ ಮತ್ತು ಕಾಲ ಪ್ರತಿನಿಧಿಸುವ ಭೌಗೋಳಿಕ ಅರಿವಿನ ಅನ್ವೇಷಣೆ - ಪ್ರಸ್ತುತದಲ್ಲಿರುವ ಭೌಗೋಳಿಕ ಅರಿವಿನ ಅನ್ವೇಷಣೆಯಲ್ಲಿ (ಜಿಕೆಡಿ) ಬಳಸುತ್ತಿರುವ ತಂತ್ರಗಳು ಸಾಮಾನ್ಯವಾಗಿ ಭೌಗೋಳಿಕ ವಸ್ತುಗಳ ಮತ್ತು ಪ್ರಾದೇಶಿಕ ಸಂಬಂಧಗಳ ಸರಳ ಪ್ರತಿನಿಧಿಯಾಗಿದೆ. ಭೌಗೋಳಿಕ ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯ ತಂತ್ರಗಳು ಭೌಗೋಳಿಕ ವಸ್ತುಗಳಲ್ಲಿನ ಹೆಚ್ಚು ಜಟಿಲತೆಯನ್ನು (ರೇಖೆಗಳು ಮತ್ತು ಬಹುಭುಜಾಕೃತಿಗಳು) ಮತ್ತು ಸಂಬಂಧಗಳನ್ನು (ಯೂಕ್ಲಿಡನ ದೂರ, ದಿಕ್ಕು, ಸಂಬಂಧಕಗಳು ಮತ್ತು ಸಹಜಗುಣಧರ್ಮದ ಕ್ಷೇತ್ರದಂತಹ ಭೌಗೋಳಿಕ ಸ್ಥಳದಲ್ಲಿನ ಹೊಂದಣಿಕೆ) ಗುರುತಿಸುತ್ತದೆ. ಭೌಗೋಳಿಕ ಪ್ರತಿನಿಧಿಸುವಿಕೆ ಮತ್ತು ಸಂಬಂಧಗಳನ್ನು ಪೂರ್ಣವಾಗಿ ಸಮಗ್ರವಾಗಿಸಲು ಸಮಯ ಅವಶ್ಯಕತೆಯಿದೆ.
ಹಲವು ತರದ ದತ್ತಾಂಶದ ಬಗೆಗಳಲ್ಲಿ ಭೌಗೋಳಿಕ ಅರಿವಿನ ಅನ್ವೇಷಣೆಯನ್ನು ಬಳಸುತ್ತಾರೆ - ಜಿಕೆಡಿ ತಂತ್ರವೂ ಸಾಂಪ್ರದಾಯಿಕ ಮಾದರಿಗಳಾದ ರಾಸ್ಟರ್ ಮತ್ತು ವೆಕ್ಟರ್ ದತ್ತಾಂಶಗಳ ಜೊತೆಗೆ ಕಲ್ಪನೆಗಳು ಮತ್ತು ಭೂ-ಉಲ್ಲೇಖಿತ ಬಹುಮಾಧ್ಯಮಗಳು, ಅಷ್ಟೇ ಅಲ್ಲದೇ ಕ್ರಿಯಾತ್ಮಕ ದತ್ತಾಂಶ ಬಗೆಗಳನ್ನು (ವಿಡಿಯೋಗಳು ಮತ್ತು ಅನಿಮೇಶನ್) ನಿರ್ವಹಿಸುವಷ್ಟು ಅಭಿವೃದ್ಧಿಗೊಂಡಿದೆ.

ವಿಚಕ್ಷಣೆ

ಈ ಹಿಂದಿನ ದತ್ತಾಶ ಗಣಿಗಾರಿಕೆಯು ಭಯೋತ್ಪಾದನಾ ಚಟುವಟಿಕೆಯನ್ನು ನಿಲ್ಲಿಸಲು ಸಂಯುಕ್ತ ಸಂಸ್ಥಾನ ಸರ್ಕಾರವು ಟೋಟಲ್ ಇನ್‌ಫರ್ಮೇಶನ್ ಅವೇರ್‌ನೆಸ್ (ಟಿಆಯ್‌ಏ) ಕಾರ್ಯಕ್ರಮ, ಸೆಕ್ಯೂರ್ ಫ್ಲೈಟ್ (ಹಿಂದೆ ಕಂಪ್ಯೂಟರ್ ಅಸಿಸ್ಟೆಡ್ ಪ್ಯಾಸೆಂಜರ್ ಸಿಸ್ಟಂ(ಸಿಏಪಿಪಿಎಸ್ II) ಎಂದು ಕರೆಯಲಾಗಿತ್ತು.) ಅನಾಲಿಸಿಸ್, ಡಿಸ್ಸೆಮಿನೇಶನ್, ವಿಶುವಲೈಸೇಶನ್, ಇನ್‌ಸೈಟ್, ಸಿಮ್ಯಾಂಟಿಕ್ ಎನ್‌ಹ್ಯಾನ್ಸ್‌ಮೆಂಟ್(ಏಡಿವಿಎಸ್‌ಈ[44]) ಮತ್ತು ಮಲ್ಟಿಸ್ಟೇಟ್ ಆ‍ಯ್೦ಟಿ-ಟೆರರಿಸಂ ಇನ್‌ಫಾರ್ಮೇನ್ ಎಕ್ಸ್‌ಚೇಂಜ್ (ಮ್ಯಾಟ್ರಿಕ್ಸ್) ಇವುಗಳನ್ನ ಒಳಗೊಂಡಿದೆ.[45] ಈ ಕಾರ್ಯಕ್ರಮಗಳನ್ನು ಸಂಯುಕ್ತ ಸಂಸ್ಥಾನದ ನಾಲ್ಕನೇ ಅಧಿನಿಯಮವನ್ನು ಅತಿಕ್ರಮಿಸುವದರ ಬಗೆಗಿನ ವಿವಾದದಿಂದಾಗಿ ಹಿಂತೆಗೆದುಕೊಳ್ಳಲಾಯಿತು. ಆದರೂ ಹಲವಾರು ಕಾರ್ಯಕ್ರಮಗಳು ಅವುಗಳ ವಿಭಿನ್ನ ಸಂಘಟನೆಗಳ ಅಥವಾ ವಿಭಿನ್ನ ಹೆಸರುಗಳ ಅಡಿಯಲ್ಲಿ ಕಾರ್ಯಮುಂದುವರಿಸುತ್ತಿವೆ.[47] ಎರಡು ಸಮಂಜಸವಾದ ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯ ತಂತ್ರಗಳು, "ಸ್ವರೂಪ ಗಣಿಗಾರಿಕೆ" ಮತ್ತು "ವಿಷಯಾಧಾರಿತ ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆ"ಯನ್ನೂ ಒಳಗೊಂಡು ಭಯೋತ್ಪಾದನೆಯ ಸಂದರ್ಭದಲ್ಲಿವೆ.

ಸ್ವರೂಪ ಗಣಿಗಾರಿಕೆ.

ದತ್ತಾಂಶದಲ್ಲಿ ಈಗಾಗಲೇ ಇರುವ ಸ್ವರೂಪದ ಹುಡುಕಾಟವನ್ನು ಒಳಗೊಂಡ ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯ ತಂತ್ರಗಳೇ "ಸ್ವರೂಪ ಗಣಿಗಾರಿಕೆ"ಯಾಗಿದೆ. ಈ ಸಂದರ್ಭದಲ್ಲಿ ಸ್ವರೂಪಗಳು ಕೆಲವೊಮ್ಮೆ ಸಂಘಟನಾ ನಿಯಮಗಳ ಅರ್ಥೈಕೆಯನ್ನು ನೀಡುತ್ತದೆ. ಸಂಘಟನಾ ನಿಯಮಗಳಿಗಾಗಿ ಹುಡುಕುವ ಮೂಲ ಪ್ರೇರಣೆಯು, ಸೂಪರ್‌ಮಾರ್ಕೆಟ್‌ನ ವ್ಯವಾಹರದ ದತ್ತಾಂಶಗಳನ್ನು ವಿಶ್ಲೇಷಿಸುವ ಬಯಕೆಯಿಂದ ಉದ್ಭವಿಸಿದುದಾಗಿದೆ. ಇದು ಖರೀದಿಸಿದ ಉತ್ಪನ್ನಗಳ ಬಗೆಗಿನ ಗ್ರಾಹಕರ ವರ್ತನೆಯನ್ನು ಪರೀಕ್ಷಿಸಿವುದಾಗಿರುತ್ತದೆ. ಉದಾಹರಣೆಗೆ, ಒಂದು ಸಂಘಟನಾ ನಿಯಮವಾದ "ಬೀರ್ => ಕುರುಕಲು (80%) ಹೇಳುವಂತೆ ಐದರಲ್ಲಿ ನಾಲ್ಕು ಗ್ರಾಹಕರು ಬೀರ್‌ ಜೊತೆಗೆ ಕುರುಕಲು ತಿಂಡಿಯನ್ನು ಖರೀದಿಸುತ್ತಾರೆ. ಸ್ವರೂಪ ಗಣಿಗಾರಿಕೆಯು ಭಯೋತ್ಪಾದಕರ ಚಟುವಟಿಕೆಯ ಕಂಡುಹಿಡಿಯುವ ಸಾಧನವಾದೆ. ನ್ಯಾಶನಲ್ ರೀಸರ್ಚ್ ಕೌನ್ಸಿಲ್ ಈ ಕೆಳಗಿನ ವಿವರಣೆಯನ್ನು ಒದಗಿಸುತ್ತದೆ: "ಸ್ವರೂಪ ಆಧಾರಿತ ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯು ಸ್ವರೂಪಗಳಿಗಾಗಿ ಎದುರು ನೋಡುತ್ತದೆ. ಅದು ಭಯೋತ್ಪಾದನಾ ಚಟುವಟಿಕೆಗೂ ಸಂಬಂಧಿಸಿದ್ದಿರಬಹುದು. ಈ ಸ್ವರೂಪಗಳು ಸದ್ದಿನ ದೊಡ್ಡ ಸಮುದ್ರದಲ್ಲಿ ಸಣ್ಣ ಸಂಕೇತಗಳೆಂದು ಮನ್ನಿಸಲಾಗಿದೆ."[48][49][51] ಸ್ವರೂಪ ಗಣಿಗಾರಿಕೆಯು ಹೊಸ ಕ್ಷೇತ್ರಗಳಾದ ಮ್ಯೂಸಿಕ್ ಇನ್‌ಫರ್ಮೇಶನ್ ರಿಟ್ರೈವಲ್(ಎಂಆಯ್‌ಆರ್) ಸ್ವರೂಪಗಳು ಕಾಣಿಸಿಕೊಳ್ಳುವ ಟೆಂಪರಲ್ ಮತ್ತು ನಾನ್ ಟೆಂಪರಲ್ ಡೊಮೇನ್‌ಗಳು ಶಾಸ್ತ್ರೀಯ ಅರಿವಿನ ಸಂಶೋಧನೆಯ ಹುಡುಕಾಟದ ತಂತ್ರಗಳಿಗೆ ಆಮದು ಮಾಡಿವೆ

ವಿಷಯಾದಾರಿತ ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆ

"ವಿಷಯಾಧಾರಿತ ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆ"ಯು ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯ ಒಂದು ತಂತ್ರವಾಗಿದ್ದು ಲಭ್ಯವಿರುವ ದತ್ತಾಂಶಗಳಲ್ಲಿ ಒಂದು ಪ್ರತ್ಯೇಕ ವಿಷಯದ ಸಂಬಂಧವನ್ನು ಹುಡುಕಲಾಗುತ್ತದೆ. ಉಗ್ರವಾದದ ವಿರುದ್ಧದ ಹೋರಾಟದಲ್ಲಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತಿರುವ "ರಾಷ್ಟ್ರೀಯ ಸಂಶೋಧನಾ ಕೌನ್ಸಿಲ್‌" ಈ ಮುಂದಿನ ವ್ಯಾಖ್ಯಾನವನ್ನು ನೀಡುತ್ತದೆ: "ವಿಷಯಾದಾರಿತ ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯು ಪ್ರತ್ಯೇಕ ವಿಷಯದ ಕುರಿತಾದ ಮಾಹಿತಿಯನ್ನು ಕಲೆಹಾಕುವ ಕಾರ್ಯವನ್ನು ಹೆಚ್ಚಿನ ಪ್ರಾಮುಖ್ಯತೆ ಇರುವ ಇನ್ನುಳಿದ ಮಾಹಿತಿಯನ್ನು ಒಟ್ಟುಗೂಡಿಸುವ ಮೂಲಕ ಸಂಬಂಧಪಟ್ಟ ವ್ಯಕ್ತಿ ಅಥವಾ ವಾಣಿಜ್ಯಿಕ ವ್ಯವಹಾರಗಳು ಅಥವಾ ಚಲನೆ, ಮುಂತಾದ ಮುಖ್ಯ ವಿಷಯಕ್ಕೆ ಸಂಬಂದಿಸಿದ ಮಾಹಿತಿಯನ್ನು ಕಲೆಹಾಕುತ್ತದೆ".[52]

ಖಾಸಗಿ ಆಸಕ್ತಿಗಳು ಮತ್ತು ನಿಯಮಗಳು

ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯು ಸ್ವತಃ ನೈತಿಕವಾಗಿ ತಟಸ್ಥವಾಗಿದೆ ಎಂದು ಕೆಲವು ಜನರು ನಂಬಿದ್ದಾರೆ.[54] ಹೀಗಾಗಿ,ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯಲ್ಲಿರುವ ವಿಧಾನಗಳು ಗುಪ್ತತೆ,ಶಾಸನಬದ್ಧ, ಮತ್ತು ನಿಯಮಗಳ ಸಂಬಂಧವಾಗಿ ಹೆಚ್ಚಿಸಬಲ್ಲ ಪ್ರಶ್ನೆಗಳನ್ನು ಬಳಸಬಹುದು.[56] ನಿರ್ದಿಷ್ಟವಾಗಿ, ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆ ಸರ್ಕಾರ ಅಥವಾ ರಾಷ್ಟ್ರೀಯ ಭದ್ರತೆಗಾಗಿ ವಾಣಿಜ್ಯಿಕ ದತ್ತಾಂಶ ಗುಂಪುಗಳು ಅಥವಾ ಕಾನೂನು ಕಡ್ಡಾಯದ ಗುರಿಗಳು,ಕೆಲವು ಒಟ್ಟು ಮಾಹಿತಿ ಎಚ್ಚರಿಕೆ ಕಾರ್ಯಕ್ರಮದಲ್ಲಿ ಅಥವಾ ಎಡಿವಿಐಎಸ್‌ಇ ನಲ್ಲಿವೆ, ಅವು ಖಾಸಗಿ ಆಸಕ್ತಿಯನ್ನು ಹೆಚ್ಚಿಸಿವೆ.[58][60] ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಗೆ ರಹಸ್ಯವಾದ ಮತ್ತು ಖಾಸಗಿ ಜವಾಬ್ದಾರಿಗಳನ್ನು ರಾಜಿಮಾಡಬಲ್ಲಂತಹ ಮಾಹಿತಿ ಅಥವಾ ಮಾದರಿಗಳನ್ನು ಗೋಪ್ಯವಾಗಿರಿಸಿಲ್ಲದಂತಹ ದತ್ತಾಂಶ ಪೂರ್ವಸಿದ್ದತೆಯ ಅವಶ್ಯಕವಿದೆ. ಇದರ ಸಾಮಾನ್ಯ ವಿಧಾನವು ದತ್ತಾಂಶ ಸಮಷ್ಟೀಕರಣದ ಮೂಲಕ ನಡೆಯುತ್ತದೆ. ದತ್ತಾಂಶ ಸಮಷ್ಟೀಕರಣವು ವಿವಿಧ ಮೂಲಗಳಿಂದ ಸಾಧ್ಯವಾದಷ್ಟು ದತ್ತಾಂಶಗಳು ಒದಗಲ್ಪಟ್ಟಾಗ ಮತ್ತು ಒಟ್ಟಾಗಿ ಮಂಡಿಸಿದಾಗ ಅವು ವಿಶ್ಲೇಷಿಸಲ್ಪಡಬಹುದು[61]. ಅದು ವಾಸ್ತವಿಕವಾಗಿ ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆ ಆಗಿರಲಿಲ್ಲ, ಆದರೆ ಮುಂಚಿನ ದತ್ತಾಂಶ ಪೂರ್ವಸಿದ್ದತೆಯ ಪರಿಣಾಮ ಮತ್ತು ವಿಶ್ಲೇಷಣೆಯ ಉದ್ದೇಶಗಳಾಗಿತ್ತು. ಅಪಾಯವಿರುವ ವೈಯಕ್ತಿಕ ಗೋಪ್ಯತೆಯು ದತ್ತಾಂಶದ ಗಣಿಗಾರನ ಕಾರಣದಿಂದಾಗಿ ದತ್ತಾಂಶವೂ ಒಮ್ಮೆ ಒಟ್ಟುಗೂಡಿಸಲ್ಪಟ್ಟಾಗ ಸ್ಪರ್ಧಿಸುತ್ತದೆ ಅಥವಾ ಯಾರಾದರೊಬ್ಬರು ಹೊಸದಾದ-ಒಟ್ಟುಗೂಡಿಸಲ್ಪಟ್ಟ ದತ್ತಾಂಶ ಗುಂಪಿಗೆ ಪ್ರವೇಶಿಸಿರುವ ನಿರ್ದಿಷ್ಟ ವ್ಯಕ್ತಿಗಳನ್ನು ಗುರುತಿಸಲು, ಮುಖ್ಯವಾಗಿ ಆರಂಭದ ದತ್ತಾಂಶಗಳು ಅನಾಮಧೇಯವಾದಾಗ ಸಾಧ್ಯವಾಗುತ್ತದೆ. ಅದು ದತ್ತಾಂಶ ಸಂಗ್ರಹಿಸಲ್ಪಡುವುದಕ್ಕೆ ಮುಂಚೆ ಕೆಳಕಂಡಂತೆ ತಿಳಿದಿರುವುದನ್ನು ವೈಯಕ್ತಿಕವಾಗಿ ಶಿಫಾರಸ್ಸು ಮಾಡಿದೆ:

ದತ್ತಾಂಶ ಸಂಗ್ರಹಣೆಯ ಉದ್ದೇಶ ಮತ್ತು ಯಾವುದೇ ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯ ಯೋಜನೆಗಳು,
ದತ್ತಾಂಶವನ್ನು ಹೇಗೆ ಬಳಸಬಹುದು,
ದತ್ತಾಂಶ ಮತ್ತು ಅದರ ಬಳಕೆದಾರರ ಗಣಿಗೆ ಯಾರು ಸಮರ್ಥರಾಗಬಹುದು,
ದತ್ತಾಂಶಕ್ಕೆ ರಕ್ಷಣೆ ಸುತ್ತುವರಿದಿರುವ ಹಾದಿ ಮತ್ತು ಸೇರಿಸುವುದು,
ಸಂಗ್ರಹಿಸಲ್ಪಟ್ಟ ದತ್ತಾಂಶವನ್ನು ಹೇಗೆ ಶೇಖರಿಸಲ್ಪಡಬಹುದು.[62]

ಖಾಸಗಿ ಆಸಕ್ತಿಗಳು ಸಹ ಕಾಂಗ್ರೆಸ್‌ನ ಮೂಲಕ ಅಭಿಪ್ರಾಯಿಸಲ್ಪಡುತ್ತವೆ,ಕ್ರಮಬದ್ಧ ನಿಯಂತ್ರಣಗಳ ಮಾರ್ಗವಾದ ಹೆಚ್‌ಐಪಿಪಿಎ,ದ ಹೆಲ್ತ್‌ ಇನ್‌ಶ್ಯೂರೆನ್ಸ್‌ ಪೊರ್ಟಾಬಿಲಿಟಿ ಮತ್ತು ಅಕೌಂಟೆಬಿಲಿಟಿ ಆ‍ಯ್‌ಕ್ಟ್‌ (ಹೆಚ್‌ಐಪಿಪಿಎ)ಗೆ, ಮಾಹಿತಿಗೆ ಸಂಬಂಧಿಸಿರುವಂತಹ "ಮಾಹಿತಿ ನೀಡುವ ಅಂಗೀಕಾರ"ವನ್ನು ನೀಡುವ ವ್ಯಕ್ತಿಗಳು ಅವಶ್ಯಕವಾಗಿದ್ದಾರೆ.ಅದನ್ನು ಅವರು ಒದಗಿಸಿದ್ದಾರೆ ಮತ್ತು ಅದರ ಉದ್ದೇಶಿಸಲ್ಪಟ್ಟ ಭವಿಷ್ಯವು ಮಾಹಿತಿಯನ್ನು ಪಡೆಯುತ್ತಿರುವ ಸೌಲಭ್ಯದಿಂದ ಬಳಸಲಾಗುತ್ತದೆ. ಬಯೋಟೆಕ್‌ ಬ್ಯುಸಿನೆಸ್‌ ವೀಕ್‌ನ ಲೇಖನದ ಪ್ರಕಾರ, "ಈ ಅನುಷ್ಠಾನದಲ್ಲಿ, ಹೆಚ್‌ಐಪಿಪಿಎಯು ಸಂಶೋಧನಾ ಅಖಾಡದಲ್ಲಿ ದೀರ್ಘವಾಗಿರುವ ನಿಬಂಧನೆಗಳಿಗಿಂತ ಯಾವುದೇ ಉನ್ನತ ರಕ್ಷಣೆಯನ್ನು ಪ್ರಸ್ತಾಪಿಸದಿರಬಹುದು ಎಂದು ಎ‌ಎ‌ಹೆಚ್‌ಸಿ ಹೇಳಿದೆ.ಅದಕ್ಕಿಂತಲೂ ಮುಖ್ಯವಾಗಿ, ರಕ್ಷಣೆಯ ಕಾನೂನಿನ ಗುರಿಯು ಮಾಹಿತಿ ನೀಡುವ ಅಂಗೀಕಾರದ ಮೂಲಕ,ಅಸ್ವಸ್ಥರು ಮತ್ತು ಪಾಲುದಾರರ ಅಗತ್ಯವಾಗಲ್ಪಟ್ಟಿರುವ ಅಂಗೀಕಾರ ಸ್ವರೂಪಗಳ ಸಂಕೀರ್ಣತೆಯಿಂದ ವಿಫಲಗೊಳ್ಳುತ್ತದೆ.ಅದು ಸಾಮಾನ್ಯ ವ್ಯಕ್ತಿಗಳಿಗೆ ತಿಳಿಯಲಾಗದ ಹಂತವನ್ನು ಸಮೀಪಿಸುತ್ತದೆ." (40)ಈ ಭಿನ್ನಭಿಪ್ರಾಯಗಳು ದತ್ತಾಂಶ ಸಮಷ್ಟೀಕರಣ ಪದ್ಧತಿಗಳಲ್ಲಿ ದತ್ತಾಂಶ ಅಜ್ಞಾನ ನಾಮಕತ್ವಕ್ಕಾಗಿ ಅನಿವಾರ್ಯವಾಗಿವೆ. ದತ್ತಾಂಶವು ಒಂದು ಸೇರಿಸಬಹುದಾದ ಪರಿವರ್ತನೆಯಾಗಿದೆ, ಅವು ಅನಾಮಧೇಯವಾದುವು, ಆದುದರಿಂದ ಆ ವ್ಯಕ್ತಿಗಳನ್ನು ತಕ್ಷಣ ಗುರುತಿಸಲು ಆಗದಿರಬಹುದು.[63] ಹೀಗಾಗಿ, ಪ್ರತಿಯೊಂದು ಗುರುತಿಸಲ್ಪಡಲಾಗದ ದತ್ತಾಂಶ ಗುಂಪುಗಳು ಗುರುತಿಸುವ ವ್ಯಕ್ತಿಗಳಿಗೆ ಸಾಕಷ್ಟು ಮಾಹಿತಿಯನ್ನು ಅಡಗಿಸಿಕೊಳ್ಳಬಹುದು, ಅವು ಪತ್ರಕರ್ತರು ಎಒಎಲ್‌ನಿಂದ ಆಕಸ್ಮಿಕವಾಗಿ ಬಿಡುಗಡೆಯಾದಂತಹ ಸಂಶೋಧನಾ ಇತಿಹಾಸಗಳ ಗುಂಪಿನ ಆಧಾರದ ಮೇಲೆ ಅನೇಕ ವ್ಯಕ್ತಿಗಳನ್ನು ಹುಡುಕಲು ಸಮರ್ಥರಾದಾಗ ಕಾಣಿಸುತ್ತವೆ.[^[೫]

ಮಾರುಕಟ್ಟೆ ಸಮೀಕ್ಷೆ

ಪ್ರತಿ ವರ್ಷ ಅಸಂಖ್ಯಾತ ಸಂಘಟನೆಗಳ ಸಮೀಕ್ಷೆಯು ಮಾರುಕಟ್ಟೆ ಮತ್ತು ಮಾರುಕಟ್ಟೆ ಅಗತ್ಯತೆಗಳಲ್ಲಿ ಪ್ರಸ್ತುತ ದತ್ತಾಂಶ-ಗಣಿಗಾರಿಕೆಯ ವರದಿಗಳನ್ನು ಮತ್ತು ಮಾರಾಟಗಾರರು ಹಾಗೂ ಸಲಕರಣೆಗಳ ಹೋಲಿಕೆಗಳನ್ನು ಪ್ರಕಟಿಸುತ್ತದೆ,ಅದು ಅವರನ್ನು ಪತ್ತೆ ಮಾಡುತ್ತದೆ. ಇಂತಹ ಕೆಲವು ವಾರ್ಷಿಕ ವರದಿಗಳು ಸೇರಿವೆ:

ದ ಗಾರ್ಟ್‌ನರ‍್‌ "ಮ್ಯಾಜಿಕ್‌ ಕ್ವಾಡ್ರಾಂಟ್‌" ವರದಿ.[65]
ದ ರೆಕ್ಸಾರ್‌ ಅನಾಲಿಟಿಕ್ಸ್‌ ವರದಿ[66]

ಗುಂಪುಗಳು ಮತ್ತು ಸಂಘಟನೆಗಳು

SIGKDD, ACM ಇವು ಜ್ಞಾನ ಆವಿಷ್ಕರಣೆ ಮತ್ತು ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯ ಮೇಲೆ ವಿಶೇಷ ಆಸಕ್ತಿ ಹೊಂದಿರುವ ಗುಂಪುಗಳು.

ಇದನ್ನೂ ನೋಡಿರಿ

ಅನ್ವಯಿಸುವಿಕೆಗಳು

3

ವಿಧಾನಗಳು

3

ಇತರೆ

3

ದತ್ತಾಂಶ ಗಣೀಗಾರಿಕೆ ಎಂದರೆ ದತ್ತಾಂಶಗಳ ವಿಶ್ಲೇಷಣೆ; ದತ್ತಾಂಶಗಳಿಂದ ಮಾಹಿತಿಗಳನ್ನು ಹೀರಿ ತೆಗೆಯುವುವ ಮಾಹಿತಿಗಾಗಿ, ನೋಡಿ:

3

ಪ್ರೊಫೈಲಿಂಗ್‌ ಪ್ರ್ಯಾಕ್ಟೀಸಸ್‌

ಉಲ್ಲೇಖಗಳು

↑ ಉಲ್ಲೇಖ ದೋಷ: Invalid <ref> tag; no text was provided for refs named DMG
↑ [8] ^ PMML ಯೋಜನಾ ಪುಟ
↑ [9] ^ ಆ‍ಯ್‌ಲೆಕ್ಸ್‌ ಗ್ವಾಜೆಲ್ಲಿ, ಮೈಕೆಲ್‌ ಜೆಲ್ಲರ್‌, ವೆನ್‌-ಚಿಂಗ್‌ ಲಿನ್‌, ಗ್ರಾಹಂ ವಿಲ್ಲಿಯಮ್ಸ್‌. PMML: An Open Standard for Sharing Models. ದಿ ಆರ್‌ ಜರ್ನಲ್‌, ವಾಲ್ಯೂಮ್‌ 1/1, ಮೇ 2009.
↑ Bate A, Lindquist M, Edwards IR, Olsson S, Orre R, Lansner A, De Freitas RM. A Bayesian neural network method for adverse drug reaction signal generation. Eur J Clin Pharmacol. 1998 ಜೂನ್‌;54(4):315-21.
↑ [64] ^ ಎಓಲ್‌ ಸರ್ಚ್‌ ಡಾಟಾ ಐಡೆಂಟಿಪೈಡ್‌ ಇಂಡಿವಿಜುವಲ್ಸ್‌, ಸೆಕ್ಯುರಿಟಿಫೋಕಸ್‌, ಆಗಸ್ಟ್ 2006.

ಹೆಚ್ಚಿನ ಓದಿಗಾಗಿ

Bhagat, Phiroz Pattern Recognition in Industry , Elsevier, ISBN 0-08-044538-1.
ಕ್ಯಾಬೆನಾ, ಪೀಟರ್‌, ಪ್ಯಾಬ್ಲೋ ಹಜ್ನಿಯನ್‌, ರಾಲ್ಫ್‌ ಸ್ಟ್ಯಾಡ್ಲರ್‌, ಜ್ಯಾಪ್‌ ವರ್‌ಹೀಸ್‌ ಆಂಡ್‌ ಅಲೆಸ್ಸ್ಯಾಂಡ್ರೋ ಜ್ಯಾನಸಿ (1997) ಡಿಸ್ಕವರಿಂಗ್‌ ಡೆಟಾ ಮೈನಿಂಗ್‌: ಫ್ರಾಂ ಕಾನ್ಸೆಪ್ಟ್‌ ಟು ಇಂಪ್ಲಿಮೆಂಟೇಷನ್‌, ಪ್ರೆಂಟೈಸ್‌ ಹಾಲ್‌, ISBN 0137439806.
ಡಮ್ಮರ‍್‌, ಸ್ಟೆಫನ್‌ ಡಬ್ಲೂ., ಪಾಲ್ಸ್‌ ಪಾಸಿಟೀವ್ಸ್‌ ಆ‍ಂಡ್‌ ಸೆಕ್ಯೂರ್‌ ಫ್ಲೈಟ್‌‌ ಯೂಸಿಂಗ್‌ ಡೆಟಾವೈಯಲನ್ಸ್‌ ವೆನ್‌ ವ್ಯೂವ್ಡ್‌ ಥ್ರೂ ದಿ ಎವೆರ್‌ ಇನ್ಕ್ರೀಸಿಂಗ್‌ ಲೈಕ್ಲಿಹುಡ್‌ ಆಫ್‌ ಐಡೆಂಟಿಟಿ ಥೆಪ್ಟ್‌, 11 J. of Tech. Law & Pol’y 259 (2006).
ಡಮ್ಮರ್‌, ಸ್ಟೆಫನ್‌ ಡಬ್ಲೂ., ಕಾಮೆಂಟ್‌: ಸೆಕ್ಯೂರ್‌ ಫ್ಲೈಟ್‌ ಆಂಡ್‌ ಡೆಟಾವೈಯಲನ್ಸ್‌, ಅ ನ್ಯೂ ಟೈಪ್‌ ಆಫ್‌ ಸಿವಿಲ್‌ ಲಿಬರ್ಟೀಸ್‌ ಎರೋಶನ್‌: ಸ್ಟ್ರಿಪ್ಪಿಂಗ್‌ ಯುವರ್‌ ರೈಟ್ಸ್‌ ವೆನ್‌ ಯೂ ಡೋಂಟ್‌ ಈವನ್‌ ನೌ ಇಟ್‌, 75 MISS. L.J. 583 (2005).
ಫೆಲ್ಡ್‌ಮನ್‌, ರೋನನ್‌ ಆಂಡ್‌ ಜೇಮ್ಸ್‌ ಸ್ಯಾಂಗರ್‌ ದಿ ಟೆಕ್ಸ್ಟ್‌ ಮೈನಿಂಗ್‌ ಹ್ಯಾಂಡ್‌ಬುಕ್‌, ಕೇಂಬ್ರಿಜ್‌ ಯೂನಿವರ್ಸಿಟಿ ಪ್ರೆಸ್ಸ್‌, ISBN 9780521836579.
ಗುವೋ, ವೈಯಿಕೆ ಆಂಡ್‌ ರಾಬರ್ಟ್‌ ಗ್ರಾಸ್‌ಮನ್‌, ಸಂಪಾದಕರು (1999) ಹೈ ಪರ್ಪಾರ್ಮನ್ಸ್‌ ಡೆಟಾ ಮೈನಿಂಗ್‌: ಸ್ಕೇಲಿಂಗ್‌ ಆಲ್ಗೋರಿದಮ್ಸ್‌, ಅಪ್ಲಿಕೇಶನ್ಸ್‌ ಆಂಡ್‌ ಸಿಸ್ಟಂಸ್‌, ಕ್ಲ್ಯುವೆರ್‌ ಅಕ್ಯಾಡೆಮಿಕ್‌ ಪಬ್ಲಿಶರ್ಸ್‌.
ಹ್ಯಾಸ್ಟೀ, ಟ್ರೇವೊರ್‌, ರಾಬರ್ಟ್‌ ತಿಬ್ಶಿರಾನಿ ಆಂಡ್‌ ಜೆರೋಮ್‌ ಫ್ರೀಡ್‌ಮನ್‌ (2001). ದಿ ಎಲಿಮೆಂಟ್ಸ್‌ ಆಫ್‌ ಸ್ಟೆಟಿಸ್ಟಿಕಲ್‌ ಲರ್ನಿಂಗ್‌: ಡೆಟಾ ಮೈನಿಂಗ್‌, ಇನ್ಪರೆನ್ಸ್‌, ಆಂಡ್‌ ಪ್ರಿಡಿಕ್ಷನ್‌, ಸ್ಪ್ರಿಂಜರ್‌, ISBN 0387952845.
ಹಾರ್ನಿಕ್‌, ಮಾರ್ಕ್‌ ಎಫ್‌., ಎರಿಕ್‌ ಮ್ಯಾರ್‌ಕೇಡ್‌ ಆಂಡ್‌ ಸುನಿಲ್‌ ವೆಂಕಾಯಲ ಜಾವಾ ಡೆಟಾ ಮೈನಿಂಗ್‌: ಸ್ಟ್ರೆಟಜಿ, ಸ್ಟ್ಯಾಂಡರ್ಡ್‌, ಆಂಡ್‌ ಪ್ರಾಕ್ಟೀಸ್‌: ಅ ಪ್ರಾಕ್ಟಿಕಲ್‌ ಗೈಡ್‌ ಫಾರ್‌ ಆರ್ಕಿಟೆಕ್ಚರ್‌, ಡಿಸೈನ್‌, ಆಂಡ್‌ ಇಂಪ್ಲಿಮೆಂಟೇಶನ್‌ (ಬ್ರೋಚ್‌).
ಬಿಂಗ್‌ ಲಿಯು (2007). ಬಿಂಗ್‌ ಲಿಯು(2007), ವೆಬ್‌ ಡೆಟಾ ಮೈನಿಂಗ್‌: ಎಕ್ಸ್‌ಪ್ಲೋರಿಂಗ್‌ ಹೈಪರ್‌ಲಿಂಕ್ಸ್‌, ಕಂಟೆಂಟ್ಸ್‌ ಆಂಡ್‌ ಯೂಸೇಜ್‌ ಡೆಟಾ. ಸ್ಪ್ರಿಂಜರ್‌, ISBN 3540378812
ಮಿಯರ್ಸಾ, ಇಂಗೋ, ಮೈಕೆಲ್‌ ವೃಸ್ಟ್‌, ರಾಲ್ಫ್‌ ಕ್ಲಿಂಕನ್‌ಬರ್ಗ್‌, ಮಾರ್ಟಿನ್‌ ಶೂಲ್ಜ್‌ ಆಂಡ್‌ ಟಿಮ್‌ ಯೂಲರ್‌ (2006) YALE: ರ್ಯಾಪಿಡ್‌ ಪ್ರೊಟೋಟೈಪಿಂಗ್‌ ಫಾರ್‌ ಕಾಂಪ್ಲೆಕ್ಸ್‌ ದೆಟಾ ಮೈನಿಂಗ್‌ ಟಾಸ್ಕ್ಸ್‌, ಇನ್‌ ಪ್ರೊಸೀಡಿಂಗ್ಸ್‌ ಆಫ್‌ ದಿ 12th ACM SIGKDD ಇಂಟರ್‌ನ್ಯಾಶನಲ್‌ ಕಾನ್ಫರೆನ್ಸ್‌ ಆನ್‌ ನಾಲೆಜ್‌ ಡಿಸ್ಕವರಿ ಆಂಡ್‌ ಡೆಟಾ ಮೈನಿಂಗ್‌ (KDD-06).
ನಿಸ್ಬೆಟ್‌, ರಾಬರ್ಟ್‌, ಜಾನ್‌ ಎಲ್ಡರ್‌, ಗ್ಯಾರಿ ಮೈನರ್‌, 'ಹ್ಯಾಂಡ್‌ಬುಕ್‌ ಆಫ್‌ ಸ್ಟೆಟಿಸ್ಟಿಕಲ್‌ ಅನಾಲಿಸಿಸ್‌ & ಡೆಟಾ ಮೈನಿಂಗ್‌ ಅಪ್ಲಿಕೇಶನ್ಸ್‌, ಅಕ್ಯಾಡೆಮಿಕ್‌ ಪ್ರೆಸ್ಸ್‌/ಎಲ್ಸ್‌ವಿಯರ್‌, ISBN 9780123747655 (2009)
ಪಾನ್ಸ್‌ಲೆಟ್‌, ಪ್ಯಾಸ್ಕಲ್‌, ಫ್ಲೋರೆಂಟ್‌ ಮ್ಯಾಸೆಗ್ಲಿಯಾ ಆಂಡ್‌ ಮ್ಯಾಗುಲೊನೀ ಟೀಸೀಯರ್‌, ಸಂಪಾದಕರು (ಅಕ್ಟೋಬರ್‌ 2007) ಡೆಟಾ ಮೈನಿಂಗ್‌ ಪ್ಯಾಟರ್ನ್ಸ್‌: ನ್ಯೂ ಮೆಥಡ್ಸ್‌ ಆಂಡ್‌ ಅಪ್ಲಿಕೇಶನ್ಸ್‌, ಇನ್‌ಫಾರ್ಮೇಶನ್ ಸೈನ್ಸ್‌ ರೆಫೆರೆನ್ಸ್‌, ISBN 978-1599041629.
Pang-Ning Tan, Michael Steinbach and Vipin Kumar, Introduction to Data Mining (2005), ISBN 0-321-32136-7
ವಾಂಗ್‌, ಎಕ್ಸ್‌‍.ಜಡ್‌.; ಮೇದಾಸಾನಿ, ಎಸ್‌.; ಮರೂನ್‌, ಎಫ್‌; ಆಲ್‌-ಬಜಾಜ್‌, ಎಚ್‌. (2004) Multidimensional visualisation of principal component scores for process historical data analysis , Industrial & Engineering Chemistry Research, 43(22), pp. 7036–7048.
ವಾಂಗ್‌, ಎಕ್ಸ್‌.ಜಡ್‌. (1999) ಡೆಟಾ ಮೈನಿಂಗ್‌ ಆಂಡ್‌ ನಾಲೆಜ್‌ ಡಿಸ್ಕವರಿ ಫಾರ್‌ ಪ್ರೊಸೆಸ್‌ ಮಾನಿಟರಿಂಗ್‌ ಆಂಡ್‌ ಕಂಟ್ರೋಲ್‌. ಸ್ಪ್ರಿಂಜರ್‌, ಲಂಡನ್‌.
ವೇಯ್ಸ್‌ ಆಂಡ್‌ ಇಂದುರ್ಖ್ಯಾ ಪ್ರಿಡಿಕ್ಟೀವ್‌ ಡೆಟಾ ಮೈನಿಂಗ್‌, ಮೋರ್ಗನ್‌ ಕೌಫ್‌ಮನ್‌.
Witten, Ian and Eibe Frank (2000) Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations , ISBN 1-55860-552-5. (ಇದನ್ನೂ ನೋಡಿ ಫ್ರೀ ವೆಕಾ ಸಾಪ್ಟ್‌ವೇರ‍್‌.)

ಬಾಹ್ಯ ಲಿಂಕ್‌ಗಳು

ACM SIGKDD, ಜ್ಞಾನ ಆವಿಷ್ಕಾರ ಮತ್ತು ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯ ವೃತ್ತಿಪರ ಸಂಘಟನೆಗಳು
Data Mining ಓಪನ್ ಡೈರೆಕ್ಟರಿ ಪ್ರಾಜೆಕ್ಟ್

[DMG-1] ಉಲ್ಲೇಖ ದೋಷ: Invalid <ref> tag; no text was provided for refs named DMG

[2] [8] ^ PMML ಯೋಜನಾ ಪುಟ

[3] [9] ^ ಆ‍ಯ್‌ಲೆಕ್ಸ್‌ ಗ್ವಾಜೆಲ್ಲಿ, ಮೈಕೆಲ್‌ ಜೆಲ್ಲರ್‌, ವೆನ್‌-ಚಿಂಗ್‌ ಲಿನ್‌, ಗ್ರಾಹಂ ವಿಲ್ಲಿಯಮ್ಸ್‌. PMML: An Open Standard for Sharing Models. ದಿ ಆರ್‌ ಜರ್ನಲ್‌, ವಾಲ್ಯೂಮ್‌ 1/1, ಮೇ 2009.

[4] Bate A, Lindquist M, Edwards IR, Olsson S, Orre R, Lansner A, De Freitas RM. A Bayesian neural network method for adverse drug reaction signal generation. Eur J Clin Pharmacol. 1998 ಜೂನ್‌;54(4):315-21.

[5] [64] ^ ಎಓಲ್‌ ಸರ್ಚ್‌ ಡಾಟಾ ಐಡೆಂಟಿಪೈಡ್‌ ಇಂಡಿವಿಜುವಲ್ಸ್‌, ಸೆಕ್ಯುರಿಟಿಫೋಕಸ್‌, ಆಗಸ್ಟ್ 2006.

[೧]

[೨]

[೩]

[೪]

[೫]