I had the opportunity to attend a workshop hosted by UTM Big Data Center today.
It talks about the processes that a data analyst would go through in collecting, analyzing and presenting the data and basically summarized in 6 steps: Understanding the
Understanding the issue
Data understanding
Data preparation
Exploratory analysis
Validation
Visualization of data
We were task to complete capstone projects and seems I will be fully occupied this weekend!
Terdapat beberapa pertanyaan dari pelajar tentang bentuk data input bagi perisian WEKA. I am no expert but here is what I can share. Cara mudah untuk menyediakan data bagi perisian ini adalah menggunakan Notepad/TextEdit.
Persoalan Kajian
Untuk menggunakan perisian WEKA, saya beranggapan anda yakin bahawa perisian ini sesuai untuk menganalisis data anda.
Bagi contoh kajian saya, saya ingin melihat ‘Bagaimana kekerapan login dalam forum atas talian dan bilangan mesej yang dikongsi dalam forum atas talian dapat membantu meningkatkan pencapaian pelajar?’.
Saya mempunyai 3 pembolehubah iaitu; kekerapan login (FreqLogin), bilangan mesej (FreqPostMessage) dan pencapaian (Performance) pelajar. Pembolehubah ini dipanggil ‘attribute’.
Berdasarkan 3 attribute ini, saya mempunyai sampel pelajar seramai 120 orang. Contoh:
Pelajar 1: Kekerapan login = 47, bilangan mesej = 9, Skor pencapaian = B
Pelajar 2: Kekerapan login = 59, bilangan mesej = 7, Skor pencapaian = A
Pelajar nth: …
Saya ingin menganalisis data pelajar ini dalam perisian WEKA.
So.. how do we get started?
Buka aplikasi Notepad/TextEdit
Tuliskan kod berikut dalam Notepad/TextEdit:
@relation
@attribute
@data
Contoh paparan data saya:
Penerangan:
@relation : kod untuk menyenaraikan data set. Sebagai contoh, saya namakan dataset saya sebagai: pattern
@attribute: kod untuk menyenaraikan pembolehubah. Data saya mengandungi 3 pembolehubah saya namakan sebagai ‘FreqLogin’, ‘FreqPostMessage’ dan ‘Performance’. Data dalam attribute dipisahkan
@data: kod untuk menyenaraikan data. Selepas anda menulis @data, anda senaraikan data pelajar anda. SETIAP BARIS mewakili DATA SEORANG PELAJAR.
Penerangan tentang ‘numeric’ dan {A, B, C, D} saya sertakan dalam video berikut:
3. Simpan fail ini sebagai Save As < data_weka.arff (format .arff adalah format fail yang boleh dibaca oleh perisian WEKA. Sila pastikan anda TIDAK menyimpan fail dalam format .txt)
I had the opportunity to conduct a workshop on Learning Analytics. I used WEKA data mining software and the workshop participants also learned to interpret findings from Analytics; the Moodle plugin for Predictive Learning Analytics.