Wednesday, 18 September 2019

7 ภาษาโปรแกรมมิ่งที่ Data Scientist ต้องรู้

16 Apr 2019
155

สำหรับท่านที่อยากทำงานด้าน Data Science แล้ว ความรู้หลัก ๆ ที่เราต้องรู้ คือ ความรู้ด้านสถิติ และความรู้ด้านโปรแกรมมิ่ง ปัจจุบันเรามีหลากหลายภาษาโปรแกรมมิ่งให้เลือกใช้ นอกจาก Python & R ที่เราพูดถึงกันบ่อย ๆ แล้ว แอดมินพบว่ายิ่งเรียนไปก็เจอภาษาที่ต้องใช้มากขึ้นเรื่อย ๆ เลยเอามาสรุปให้ฟังเพื่อเป็นประโยชน์กับคนที่กำลังศึกษา Data Science อยู่ครับ

ลิสต์นี้ คือ ภาษาต่าง ๆ ที่ผมได้ใช้ (หรือโดนบังคับเรียน T_T) ในช่วงปีที่ผ่านมาครับ ความเห็นต่าง ๆ ในนี้มาจากประสบการณ์ที่จับมาจริง ๆ ซึ่งบางภาษาได้ใช้อยู่ไม่กี่เดือนครับ มาดูกันเลยว่ามีอะไรบ้าง

1. Python เหมาะกับ Data Scientist / Data Engineer ครับ โดยถ้าเป็น Data Scientist ก็จะเป็น “สาย Machine Learning” มากกว่า ไลบรารีต่างๆรวมถึง service ของ Cloud ก็จะเทไปทางภาษา python มากกว่าครับ

2. R จะเหมาะกับ Business/ Data Analyst ครับ หรือถ้าเป็น Data Scientist ก็จะเป็น “สายStat” มากกว่า จริงๆแล้วโดย R กับPython ก็ ทำงานฟังก์ชั่นพื้นฐานของ Data Science ได้ เกือบจะเท่ากันล่ะครับ แต่ถ้าเป็นภาษา R ก็จะโดดเด่นเรื่องฟังก์ชันทางสถิติเชิงลึกมากกว่า แต่ก็จะเป็นภาษาที่เน้นการแก้ปัญหา ไม่เน้นโปรดักชั่น เหมาะกับการทำ EDA

อ่านถึงตรงนี้ก็เริ่มเห็นแล้วนะครับว่ามันไม่ได้มีแค่1-2 คนทำงานด้วยกัน

3. UNIX นี่เทไปทาง Data Engineer กับ DevOps ครับ สำหรับการจัดระเบียบ หรือโครงสร้างของไฟล์ข้อมูล

4.Java/ Scala อันนี้สำคัญครับ บางทีถ้าจะทำงานประสานกับระดับEnterprise Dev ก็ต้องใช้ภาษาพวกนี้ครับ

5. SQL อันนี้พื้นฐานเลยครับ เป็นภาษาในการค้นคืนข้อมูลที่มีโครงสร้างชัดเจน ทุกตำแหน่งงานในสาย Data ต้องมีสกิลด้านนี้ครับ

6. Hive/Pig ก็ค้นคืนข้อมูลเหมือนกันแต่เป็นข้อมูลบน Hadoop

7. Javascript เหมาะกับ Dev ที่ทำ Data Viz ครับ ทำ Interactive dashboard มี library เยอะ บางทีเครื่องมือสำหรับ BA อย่าง BI Tools ก็ไม่ตอบโจทย์ลูกเล่นต่างๆ(ที่พิศดาร)มากนัก

จริงๆแล้วนอกจากภาษาพวกนี้ ก็ยังมีเครื่องไม้เครื่องมืออีกเพียบนะครับ ภาษาต่างๆก็จะปรับเปลี่ยนตามสิ่งที่ใช้ เช่น Spark / Kafka / Document DB / Graph DB และอื่นๆอีกมากมาย

ยังไม่รวมถึงเทคโนโลยีหรือแพลตฟอร์มอื่นๆ ของแต่ละเจ้า ที่จะพัฒนาให้ มีเครื่องมือของตัวเองด้วยครับ

ไม่ต้องรู้ทั้งหมดครับ แต่รู้เยอะดีกว่ารู้น้อย รู้ลึกดีกว่ารู้ตื้น 

ผศ.ดร.โษฑศ์รัตต ธรรมบุษดี
อาจารย์ประจำกลุ่มสาขาเทคโนโลยีการจัดการระบบสารสนเทศ คณะวิศวกรรมศาสตร์ มหาวิทยาลัยมหิดล

Certified Information Management Professional (CIMP)-Data Governance

 

ที่มา : https://blog.datath.com/7-data-science-programming/






Google+

View My Stats