20 คำถามและคำตอบสำหรับการสัมภาษณ์ R ทั่วไปสำหรับปี 2022
เผยแพร่แล้ว: 2021-01-10ในช่วงไม่กี่ปีที่ผ่านมา ภาษาโปรแกรม R ได้รับความสนใจอย่างมากในชุมชน Data Science และ Machine Learning สาเหตุหลักเป็นเพราะว่าเป็นภาษาอเนกประสงค์ที่สามารถใช้สำหรับการวิเคราะห์ทางสถิติ การสร้างภาพข้อมูล การจัดการข้อมูล การสร้างแบบจำลองการคาดการณ์ การวิเคราะห์การคาดการณ์ และอื่นๆ อีกมากมาย
เนื่องจากโอกาสในการทำงานรอบๆ R เพิ่มขึ้นอย่างรวดเร็วและหลักสูตรวิทยาศาสตร์ข้อมูลกำลังเฟื่องฟู วันนี้เราจะมุ่งเน้นไปที่ส่วนแรกของการเชื่อมโยงไปถึงงานในโดเมน – การสัมภาษณ์ R นี่คือรายการคำถามที่พบบ่อยในการสัมภาษณ์ R!
- อาร์คืออะไร?
R เป็นภาษาโปรแกรมและสภาพแวดล้อมที่ออกแบบมาโดยเฉพาะสำหรับการคำนวณทางสถิติและกราฟิก มันมาพร้อมกับแคตตาล็อกที่กว้างขวางของวิธีการทางสถิติและกราฟิก รวมถึงการถดถอยเชิงเส้น การจัดกลุ่ม การจัดกลุ่ม การวิเคราะห์อนุกรมเวลา การอนุมานทางสถิติ และอัลกอริธึม ML เป็นต้น
- ตั้งชื่อโครงสร้างข้อมูลต่างๆ ใน R
R มีโครงสร้างข้อมูลหลักสี่โครงสร้าง:
- เวกเตอร์ – เป็นลำดับขององค์ประกอบข้อมูลที่เป็นของประเภทเดียวกัน สมาชิกภายใน Vector เรียกว่าส่วนประกอบ
- รายการ – เป็นวัตถุ R ที่สามารถมีองค์ประกอบประเภทต่างๆ รวมทั้งตัวเลข สตริง เวกเตอร์ หรือรายการอื่น
- เมทริกซ์ – เป็นโครงสร้างข้อมูลสองมิติที่สามารถผูกเวกเตอร์ที่มีความยาวเท่ากันได้ องค์ประกอบภายในเมทริกซ์ต้องเป็นชนิดเดียวกัน – ตัวเลข อักขระ หรือตรรกะ หรือซับซ้อน
- ดาต้าเฟรม – เป็นเมทริกซ์เวอร์ชันทั่วไป ซึ่งสามารถมีองค์ประกอบของข้อมูลประเภทต่างๆ ได้ Dataframe รวมคุณสมบัติของเมทริกซ์และรายการเหมือนรายการสี่เหลี่ยม และคอลัมน์ของมันมักจะมีประเภทข้อมูลที่แตกต่างกัน
- ตั้งชื่อองค์ประกอบต่าง ๆ ของไวยากรณ์กราฟิกหรือไม่
องค์ประกอบต่าง ๆ ของไวยากรณ์กราฟิกคือ:
- ชั้นข้อมูล
- ชั้น Facet
- เลเยอร์ธีม
- ชั้นสุนทรียศาสตร์
- ชั้นเรขาคณิต
- ชั้นประสานงาน
- จะติดตั้งแพ็คเกจใน R ได้อย่างไร?
ในการติดตั้งแพ็คเกจใน R คุณต้องเขียนคำสั่งนี้:
install.packages(“<package_name>”)
- ข้อมูลถูกนำเข้าใน R อย่างไร
ในการนำเข้าข้อมูลใน R คุณต้องใช้ R คำสั่ง GUI โดยพิมพ์คำสั่ง “Rcmdr” ลงในคอนโซล R มีสามวิธีในการนำเข้าข้อมูลใน R:
คุณสามารถป้อนชื่อชุดข้อมูลหรือเลือกชุดข้อมูลในกล่องโต้ตอบตามที่เห็นสมควร
- คุณสามารถป้อนข้อมูลได้โดยตรงโดยใช้ตัวแก้ไขของ R Commander: Data->New Data Set วิธีนี้ใช้ได้ผลดีที่สุดสำหรับชุดข้อมูลขนาดเล็กถึงขนาดกลาง
- คุณสามารถนำเข้าข้อมูลจากคลิปบอร์ด หรือ URL หรือไฟล์ข้อความธรรมดา (ASCII) หรือแพ็คเกจทางสถิติใดๆ
- Rmarkdown คืออะไร?
RMarkdown เป็นเครื่องมือการรายงานของ R ช่วยให้คุณสร้างรายงานคุณภาพสูงของรหัส R
รูปแบบเอาต์พุตของ Rmarkdown มีสามประเภท:
- HTML
- คำ
- ไฟล์ PDF
- “t-tests ()” ใน R คืออะไร?
ใน R จะใช้ t-test() เพื่อกำหนดว่าค่าเฉลี่ยของทั้งสองกลุ่มมีค่าเท่ากันหรือไม่
- แพ็คเกจ R ที่ใช้สำหรับการใส่ข้อมูลคืออะไร?
แพ็คเกจ R ที่ใช้กันมากที่สุดสำหรับการใส่ข้อมูลคือ:
- มิ
- ไมซ์
- Hmisc
- อมีเลีย
- ใส่ร้ายR
- missForest
- “เมทริกซ์ความสับสน” ใน R คืออะไร?
ใน R ใช้เมทริกซ์ความสับสนเพื่อประเมินความถูกต้องของแบบจำลองที่พัฒนาแล้ว มีการคำนวณข้ามตารางของคลาสที่สังเกตและคาดการณ์โดยใช้ฟังก์ชัน “confusionmatrix()” ที่อยู่ภายในแพ็คเกจ “caTools”
10. ป่าสุ่มคืออะไร? คุณจะสร้างและประเมิน Random Forest ใน R ได้อย่างไร?
Random Forest เป็นกลุ่มลักษณนามที่สร้างขึ้นจากการผสมผสานของแบบจำลองแผนผังการตัดสินใจหลายแบบ เนื่องจากเป็นการรวมผลลัพธ์ของแบบจำลองแผนผังการตัดสินใจจำนวนมาก ผลลัพธ์จึงแม่นยำกว่าแบบจำลองแต่ละแบบมาก
ในการสร้างโมเดล Random Forest ใน R คุณต้องมีชุดข้อมูลการฝึก จากนั้นดำเนินการดังต่อไปนี้:
ขั้นแรก แยกชุดข้อมูลออกเป็นชุดการฝึกและชุดทดสอบ->
- ตอนนี้สร้างโมเดล Random Forest บนชุดรถไฟ ->
- สุดท้าย ทำนายแบบจำลองสุ่มป่าในชุดทดสอบ->
- ShinyR คืออะไร?
ShinyR เป็นแพ็คเกจ R ที่ช่วยให้การพัฒนาเว็บแอปแบบโต้ตอบได้ง่ายและปลอดภัยโดยตรงโดยใช้ R
ด้วย ShinyR คุณสามารถโฮสต์แอปแบบสแตนด์อโลนบนหน้าเว็บ หรือฝังลงในเอกสาร Rmarkdown ก็ได้ นอกจากนี้ คุณยังสามารถขยายแอปที่เป็นประกายของคุณเพื่อทำงานกับธีม CSS, การทำงานของ JavaScript และวิดเจ็ต HTML
- ตั้งชื่อแพ็คเกจที่ใช้สำหรับการขุดข้อมูลใน R
แพ็คเกจ R ที่ใช้สำหรับการขุดข้อมูลคือ:

- Rpart และคาเร็ต
- ตารางข้อมูล
- พยากรณ์
- GGplot
- Arules
- tm
- อะไรคือจุดประสงค์ของการถดถอยโลจิสติกและการถดถอยปัวซอง?
ในขณะที่ Logistic Regression ช่วยในการทำนายผลลัพธ์ไบนารีจากชุดของตัวแปรทำนายแบบต่อเนื่องที่กำหนด Poisson Regression ใช้เพื่อทำนายตัวแปรผลลัพธ์ที่แสดงถึง "การนับ" จากชุดของตัวแปรทำนายแบบต่อเนื่องที่กำหนด
- ค่าที่หายไปแสดงใน R อย่างไร?
ใน R ค่าที่หายไปจะแสดงด้วยฟังก์ชัน NA (ไม่พร้อมใช้งาน) อย่างไรก็ตาม สำหรับค่าที่เป็นไปไม่ได้ จะใช้ NaN (ไม่ใช่ตัวเลข)
- ฟังก์ชันใดใช้สำหรับเพิ่มชุดข้อมูลใน R
ใน R ฟังก์ชัน "rbind" ใช้เพื่อเชื่อม dataframes หรือ datasets สองชุดเข้าด้วยกัน อย่างไรก็ตาม ดาต้าเฟรม/ชุดข้อมูลทั้งสองชุดต้องมีตัวแปรประเภทเดียวกัน
- คุณบันทึกข้อมูลใน R ได้อย่างไร?
แม้ว่าจะมีหลายวิธีในการบันทึกข้อมูลใน R แต่วิธีที่มีประสิทธิภาพมากที่สุดคือ:
ข้อมูล > ชุดข้อมูลที่ใช้งานอยู่ > ส่งออกชุดข้อมูลที่ใช้งานอยู่
หลังจากนี้ คุณจะเห็นกล่องโต้ตอบปรากฏขึ้นต่อหน้าคุณ เมื่อคุณคลิกที่กล่องโต้ตอบนั้น คุณสามารถบันทึกข้อมูลของคุณได้ตามปกติ
- อัลกอริทึมการเรียงลำดับใน R คืออะไร?
R มีอัลกอริธึมการเรียงลำดับห้าประเภท:
- เรียงลำดับการเลือก
- ประเภทถัง
- เรียงลำดับฟอง
- ผสานการเรียงลำดับ
- เรียงลำดับด่วน
- รุ่น White Noise คืออะไร?
โมเดล White Noise (WN) เป็นแบบจำลองอนุกรมเวลา เป็นวิธีที่ง่ายที่สุดในการวาดภาพกระบวนการที่อยู่กับที่
โมเดล WN ประกอบด้วย:
- ค่าเฉลี่ยคงที่คงที่
- ความแปรปรวนคงที่คงที่
- ไม่มีความสัมพันธ์กันเมื่อเวลาผ่านไป
- ตั้งชื่อฟังก์ชันการนำเข้าใน R
ฟังก์ชันการนำเข้าต่างๆ ใน R ประกอบด้วย:
- read.csv()->
- read_sas()->
- read_excel()->
- read_sav()->
- ตั้งชื่อฟังก์ชันที่ใช้สำหรับการดีบักใน R
ฟังก์ชันที่ใช้สำหรับการดีบักใน R คือ:
- ตรวจสอบย้อนกลับ()
- ดีบัก()
- เบราว์เซอร์ ()
- ติดตาม()
- ฟื้นตัว()
เอาล่ะ! นี่คือบางส่วนของคำถามสัมภาษณ์ R ที่ถามบ่อยที่สุด หวังว่านี่จะช่วยคุณทำลายน้ำแข็งและเจาะลึกภาษาไปเรื่อย ๆ
มีความสุขในการเรียนรู้!
โครงสร้างข้อมูลใน R คืออะไร?
โครงสร้างข้อมูลคือคอนเทนเนอร์ที่เก็บข้อมูลเพื่อใช้อย่างมีประสิทธิภาพ โดยพื้นฐานแล้ว ภาษา R มีโครงสร้างข้อมูล 4 โครงสร้าง: เวกเตอร์คือโครงสร้างข้อมูลที่จัดสรรแบบไดนามิกซึ่งทำหน้าที่เป็นคอนเทนเนอร์และจัดเก็บค่าด้วยประเภทข้อมูลที่คล้ายกัน ค่าข้อมูลที่เก็บไว้ในเวกเตอร์เรียกว่าส่วนประกอบ รายการถือได้ว่าเป็นวัตถุ R ที่สามารถเก็บค่าข้อมูลของข้อมูลหลายประเภท เช่น จำนวนเต็ม สตริง อักขระ หรือรายการอื่น เมทริกซ์เป็นโครงสร้างข้อมูลแบบกริดที่ผูกเวกเตอร์ที่มีความยาวเท่ากัน เป็นโครงสร้างข้อมูล 2 มิติ และองค์ประกอบทั้งหมดภายในต้องเป็นประเภทข้อมูลเดียวกัน data frame นั้นคล้ายกับเมทริกซ์ ยกเว้นว่ามันเป็นแบบทั่วไปมากกว่า สามารถเก็บค่าที่มีข้อมูลประเภทต่างๆ เช่น จำนวนเต็ม สตริง และอักขระ มันแสดงให้เห็นการรวมกันของลักษณะของรายการและเมทริกซ์
ป่าสุ่มคืออะไร?
Random Forest เป็นกลุ่มลักษณนาม ตามชื่อที่แนะนำ มันสร้างและผูกแผนผังการตัดสินใจหลายรายการเพื่อปรับปรุงความแม่นยำในการทำนายของแบบจำลอง การสังเกตแต่ละครั้งมีให้ในแผนผังการตัดสินใจแต่ละต้นและมีลักษณะไม่เป็นเชิงเส้น ชุดข้อมูลการฝึกอบรมมีความจำเป็นในการสร้างฟอเรสต์สุ่มใน R เมื่อคุณรวบรวมชุดข้อมูลการฝึกอบรม มีสองขั้นตอนสำคัญที่ต้องปฏิบัติตามเพื่อให้ได้ฟอเรสต์แบบสุ่ม: แบ่งชุดข้อมูลออกเป็นชุดข้อมูลการฝึกอบรมและชุดข้อมูลทดสอบ ใช้ชุดข้อมูลการฝึกอบรมเพื่อสร้างฟอเรสต์สุ่ม และใช้ชุดข้อมูลทดสอบเพื่อทำนายโมเดลสุ่มฟอเรสต์
ShinyR คืออะไรและมีความสำคัญอย่างไร?
ShinyR เป็นแพ็คเกจโอเพ่นซอร์สของภาษา R ที่ให้เฟรมเวิร์กเว็บที่ทรงพลังซึ่งใช้ในการพัฒนาเว็บแอปพลิเคชันและโครงการเชิงโต้ตอบ ด้วย ShinyR คุณสามารถแปลงการวิเคราะห์ของคุณเป็นเว็บแอปพลิเคชันโดยไม่ต้องใช้เทคโนโลยีเว็บที่โดดเด่น เช่น HTML, CSS หรือ JavaScript แม้จะเป็นเครื่องมือที่ทรงพลัง แต่ก็ง่ายต่อการเรียนรู้และบอกเป็นนัย แอพที่พัฒนาด้วย ShinyR สามารถขยายให้ใช้งานได้อย่างมีประสิทธิภาพด้วยวิดเจ็ต HTML, ธีม CSS และการกระทำ JavaScript นอกจากนี้ ด้วย ShinyR คุณสามารถโฮสต์แอปแบบสแตนด์อโลนบนหน้าเว็บ หรือฝังลงในเอกสาร Rmarkdown ก็ได้