20 คำถามและคำตอบสำหรับการสัมภาษณ์ R ทั่วไปสำหรับปี 2022

เผยแพร่แล้ว: 2021-01-10

ในช่วงไม่กี่ปีที่ผ่านมา ภาษาโปรแกรม R ได้รับความสนใจอย่างมากในชุมชน Data Science และ Machine Learning สาเหตุหลักเป็นเพราะว่าเป็นภาษาอเนกประสงค์ที่สามารถใช้สำหรับการวิเคราะห์ทางสถิติ การสร้างภาพข้อมูล การจัดการข้อมูล การสร้างแบบจำลองการคาดการณ์ การวิเคราะห์การคาดการณ์ และอื่นๆ อีกมากมาย

เนื่องจากโอกาสในการทำงานรอบๆ R เพิ่มขึ้นอย่างรวดเร็วและหลักสูตรวิทยาศาสตร์ข้อมูลกำลังเฟื่องฟู วันนี้เราจะมุ่งเน้นไปที่ส่วนแรกของการเชื่อมโยงไปถึงงานในโดเมน – การสัมภาษณ์ R นี่คือรายการคำถามที่พบบ่อยในการสัมภาษณ์ R!

อาร์คืออะไร?

R เป็นภาษาโปรแกรมและสภาพแวดล้อมที่ออกแบบมาโดยเฉพาะสำหรับการคำนวณทางสถิติและกราฟิก มันมาพร้อมกับแคตตาล็อกที่กว้างขวางของวิธีการทางสถิติและกราฟิก รวมถึงการถดถอยเชิงเส้น การจัดกลุ่ม การจัดกลุ่ม การวิเคราะห์อนุกรมเวลา การอนุมานทางสถิติ และอัลกอริธึม ML เป็นต้น

ตั้งชื่อโครงสร้างข้อมูลต่างๆ ใน R

R มีโครงสร้างข้อมูลหลักสี่โครงสร้าง:

เวกเตอร์ – เป็นลำดับขององค์ประกอบข้อมูลที่เป็นของประเภทเดียวกัน สมาชิกภายใน Vector เรียกว่าส่วนประกอบ
รายการ – เป็นวัตถุ R ที่สามารถมีองค์ประกอบประเภทต่างๆ รวมทั้งตัวเลข สตริง เวกเตอร์ หรือรายการอื่น
เมทริกซ์ – เป็นโครงสร้างข้อมูลสองมิติที่สามารถผูกเวกเตอร์ที่มีความยาวเท่ากันได้ องค์ประกอบภายในเมทริกซ์ต้องเป็นชนิดเดียวกัน – ตัวเลข อักขระ หรือตรรกะ หรือซับซ้อน
ดาต้าเฟรม – เป็นเมทริกซ์เวอร์ชันทั่วไป ซึ่งสามารถมีองค์ประกอบของข้อมูลประเภทต่างๆ ได้ Dataframe รวมคุณสมบัติของเมทริกซ์และรายการเหมือนรายการสี่เหลี่ยม และคอลัมน์ของมันมักจะมีประเภทข้อมูลที่แตกต่างกัน

ตั้งชื่อองค์ประกอบต่าง ๆ ของไวยากรณ์กราฟิกหรือไม่

องค์ประกอบต่าง ๆ ของไวยากรณ์กราฟิกคือ:

ชั้นข้อมูล
ชั้น Facet
เลเยอร์ธีม
ชั้นสุนทรียศาสตร์
ชั้นเรขาคณิต
ชั้นประสานงาน

จะติดตั้งแพ็คเกจใน R ได้อย่างไร?

ในการติดตั้งแพ็คเกจใน R คุณต้องเขียนคำสั่งนี้:

install.packages(“<package_name>”)

ข้อมูลถูกนำเข้าใน R อย่างไร

ในการนำเข้าข้อมูลใน R คุณต้องใช้ R คำสั่ง GUI โดยพิมพ์คำสั่ง “Rcmdr” ลงในคอนโซล R มีสามวิธีในการนำเข้าข้อมูลใน R:

คุณสามารถป้อนชื่อชุดข้อมูลหรือเลือกชุดข้อมูลในกล่องโต้ตอบตามที่เห็นสมควร

คุณสามารถป้อนข้อมูลได้โดยตรงโดยใช้ตัวแก้ไขของ R Commander: Data->New Data Set วิธีนี้ใช้ได้ผลดีที่สุดสำหรับชุดข้อมูลขนาดเล็กถึงขนาดกลาง
คุณสามารถนำเข้าข้อมูลจากคลิปบอร์ด หรือ URL หรือไฟล์ข้อความธรรมดา (ASCII) หรือแพ็คเกจทางสถิติใดๆ

Rmarkdown คืออะไร?

RMarkdown เป็นเครื่องมือการรายงานของ R ช่วยให้คุณสร้างรายงานคุณภาพสูงของรหัส R

รูปแบบเอาต์พุตของ Rmarkdown มีสามประเภท:

HTML
คำ
ไฟล์ PDF

“t-tests ()” ใน R คืออะไร?

ใน R จะใช้ t-test() เพื่อกำหนดว่าค่าเฉลี่ยของทั้งสองกลุ่มมีค่าเท่ากันหรือไม่

แพ็คเกจ R ที่ใช้สำหรับการใส่ข้อมูลคืออะไร?

แพ็คเกจ R ที่ใช้กันมากที่สุดสำหรับการใส่ข้อมูลคือ:

มิ
ไมซ์
Hmisc
อมีเลีย
ใส่ร้ายR
missForest

“เมทริกซ์ความสับสน” ใน R คืออะไร?

ใน R ใช้เมทริกซ์ความสับสนเพื่อประเมินความถูกต้องของแบบจำลองที่พัฒนาแล้ว มีการคำนวณข้ามตารางของคลาสที่สังเกตและคาดการณ์โดยใช้ฟังก์ชัน “confusionmatrix()” ที่อยู่ภายในแพ็คเกจ “caTools”

10. ป่าสุ่มคืออะไร? คุณจะสร้างและประเมิน Random Forest ใน R ได้อย่างไร?

Random Forest เป็นกลุ่มลักษณนามที่สร้างขึ้นจากการผสมผสานของแบบจำลองแผนผังการตัดสินใจหลายแบบ เนื่องจากเป็นการรวมผลลัพธ์ของแบบจำลองแผนผังการตัดสินใจจำนวนมาก ผลลัพธ์จึงแม่นยำกว่าแบบจำลองแต่ละแบบมาก

ในการสร้างโมเดล Random Forest ใน R คุณต้องมีชุดข้อมูลการฝึก จากนั้นดำเนินการดังต่อไปนี้:

ขั้นแรก แยกชุดข้อมูลออกเป็นชุดการฝึกและชุดทดสอบ->

ตอนนี้สร้างโมเดล Random Forest บนชุดรถไฟ ->
สุดท้าย ทำนายแบบจำลองสุ่มป่าในชุดทดสอบ->

ShinyR คืออะไร?

ShinyR เป็นแพ็คเกจ R ที่ช่วยให้การพัฒนาเว็บแอปแบบโต้ตอบได้ง่ายและปลอดภัยโดยตรงโดยใช้ R

ด้วย ShinyR คุณสามารถโฮสต์แอปแบบสแตนด์อโลนบนหน้าเว็บ หรือฝังลงในเอกสาร Rmarkdown ก็ได้ นอกจากนี้ คุณยังสามารถขยายแอปที่เป็นประกายของคุณเพื่อทำงานกับธีม CSS, การทำงานของ JavaScript และวิดเจ็ต HTML

ตั้งชื่อแพ็คเกจที่ใช้สำหรับการขุดข้อมูลใน R

แพ็คเกจ R ที่ใช้สำหรับการขุดข้อมูลคือ:

Rpart และคาเร็ต
ตารางข้อมูล
พยากรณ์
GGplot
Arules
tm

อะไรคือจุดประสงค์ของการถดถอยโลจิสติกและการถดถอยปัวซอง?

ในขณะที่ Logistic Regression ช่วยในการทำนายผลลัพธ์ไบนารีจากชุดของตัวแปรทำนายแบบต่อเนื่องที่กำหนด Poisson Regression ใช้เพื่อทำนายตัวแปรผลลัพธ์ที่แสดงถึง "การนับ" จากชุดของตัวแปรทำนายแบบต่อเนื่องที่กำหนด

ค่าที่หายไปแสดงใน R อย่างไร?

ใน R ค่าที่หายไปจะแสดงด้วยฟังก์ชัน NA (ไม่พร้อมใช้งาน) อย่างไรก็ตาม สำหรับค่าที่เป็นไปไม่ได้ จะใช้ NaN (ไม่ใช่ตัวเลข)

ฟังก์ชันใดใช้สำหรับเพิ่มชุดข้อมูลใน R

ใน R ฟังก์ชัน "rbind" ใช้เพื่อเชื่อม dataframes หรือ datasets สองชุดเข้าด้วยกัน อย่างไรก็ตาม ดาต้าเฟรม/ชุดข้อมูลทั้งสองชุดต้องมีตัวแปรประเภทเดียวกัน

คุณบันทึกข้อมูลใน R ได้อย่างไร?

แม้ว่าจะมีหลายวิธีในการบันทึกข้อมูลใน R แต่วิธีที่มีประสิทธิภาพมากที่สุดคือ:

ข้อมูล > ชุดข้อมูลที่ใช้งานอยู่ > ส่งออกชุดข้อมูลที่ใช้งานอยู่

หลังจากนี้ คุณจะเห็นกล่องโต้ตอบปรากฏขึ้นต่อหน้าคุณ เมื่อคุณคลิกที่กล่องโต้ตอบนั้น คุณสามารถบันทึกข้อมูลของคุณได้ตามปกติ

อัลกอริทึมการเรียงลำดับใน R คืออะไร?

R มีอัลกอริธึมการเรียงลำดับห้าประเภท:

เรียงลำดับการเลือก
ประเภทถัง
เรียงลำดับฟอง
ผสานการเรียงลำดับ
เรียงลำดับด่วน

รุ่น White Noise คืออะไร?

โมเดล White Noise (WN) เป็นแบบจำลองอนุกรมเวลา เป็นวิธีที่ง่ายที่สุดในการวาดภาพกระบวนการที่อยู่กับที่

โมเดล WN ประกอบด้วย:

ค่าเฉลี่ยคงที่คงที่
ความแปรปรวนคงที่คงที่
ไม่มีความสัมพันธ์กันเมื่อเวลาผ่านไป

ตั้งชื่อฟังก์ชันการนำเข้าใน R

ฟังก์ชันการนำเข้าต่างๆ ใน R ประกอบด้วย:

read.csv()->
read_sas()->
read_excel()->
read_sav()->

ตั้งชื่อฟังก์ชันที่ใช้สำหรับการดีบักใน R

ฟังก์ชันที่ใช้สำหรับการดีบักใน R คือ:

ตรวจสอบย้อนกลับ()
ดีบัก()
เบราว์เซอร์ ()
ติดตาม()
ฟื้นตัว()

เอาล่ะ! นี่คือบางส่วนของคำถามสัมภาษณ์ R ที่ถามบ่อยที่สุด หวังว่านี่จะช่วยคุณทำลายน้ำแข็งและเจาะลึกภาษาไปเรื่อย ๆ

มีความสุขในการเรียนรู้!

โครงสร้างข้อมูลใน R คืออะไร?

โครงสร้างข้อมูลคือคอนเทนเนอร์ที่เก็บข้อมูลเพื่อใช้อย่างมีประสิทธิภาพ โดยพื้นฐานแล้ว ภาษา R มีโครงสร้างข้อมูล 4 โครงสร้าง: เวกเตอร์คือโครงสร้างข้อมูลที่จัดสรรแบบไดนามิกซึ่งทำหน้าที่เป็นคอนเทนเนอร์และจัดเก็บค่าด้วยประเภทข้อมูลที่คล้ายกัน ค่าข้อมูลที่เก็บไว้ในเวกเตอร์เรียกว่าส่วนประกอบ รายการถือได้ว่าเป็นวัตถุ R ที่สามารถเก็บค่าข้อมูลของข้อมูลหลายประเภท เช่น จำนวนเต็ม สตริง อักขระ หรือรายการอื่น เมทริกซ์เป็นโครงสร้างข้อมูลแบบกริดที่ผูกเวกเตอร์ที่มีความยาวเท่ากัน เป็นโครงสร้างข้อมูล 2 มิติ และองค์ประกอบทั้งหมดภายในต้องเป็นประเภทข้อมูลเดียวกัน data frame นั้นคล้ายกับเมทริกซ์ ยกเว้นว่ามันเป็นแบบทั่วไปมากกว่า สามารถเก็บค่าที่มีข้อมูลประเภทต่างๆ เช่น จำนวนเต็ม สตริง และอักขระ มันแสดงให้เห็นการรวมกันของลักษณะของรายการและเมทริกซ์

ป่าสุ่มคืออะไร?

Random Forest เป็นกลุ่มลักษณนาม ตามชื่อที่แนะนำ มันสร้างและผูกแผนผังการตัดสินใจหลายรายการเพื่อปรับปรุงความแม่นยำในการทำนายของแบบจำลอง การสังเกตแต่ละครั้งมีให้ในแผนผังการตัดสินใจแต่ละต้นและมีลักษณะไม่เป็นเชิงเส้น ชุดข้อมูลการฝึกอบรมมีความจำเป็นในการสร้างฟอเรสต์สุ่มใน R เมื่อคุณรวบรวมชุดข้อมูลการฝึกอบรม มีสองขั้นตอนสำคัญที่ต้องปฏิบัติตามเพื่อให้ได้ฟอเรสต์แบบสุ่ม: แบ่งชุดข้อมูลออกเป็นชุดข้อมูลการฝึกอบรมและชุดข้อมูลทดสอบ ใช้ชุดข้อมูลการฝึกอบรมเพื่อสร้างฟอเรสต์สุ่ม และใช้ชุดข้อมูลทดสอบเพื่อทำนายโมเดลสุ่มฟอเรสต์

ShinyR คืออะไรและมีความสำคัญอย่างไร?

ShinyR เป็นแพ็คเกจโอเพ่นซอร์สของภาษา R ที่ให้เฟรมเวิร์กเว็บที่ทรงพลังซึ่งใช้ในการพัฒนาเว็บแอปพลิเคชันและโครงการเชิงโต้ตอบ ด้วย ShinyR คุณสามารถแปลงการวิเคราะห์ของคุณเป็นเว็บแอปพลิเคชันโดยไม่ต้องใช้เทคโนโลยีเว็บที่โดดเด่น เช่น HTML, CSS หรือ JavaScript แม้จะเป็นเครื่องมือที่ทรงพลัง แต่ก็ง่ายต่อการเรียนรู้และบอกเป็นนัย แอพที่พัฒนาด้วย ShinyR สามารถขยายให้ใช้งานได้อย่างมีประสิทธิภาพด้วยวิดเจ็ต HTML, ธีม CSS และการกระทำ JavaScript นอกจากนี้ ด้วย ShinyR คุณสามารถโฮสต์แอปแบบสแตนด์อโลนบนหน้าเว็บ หรือฝังลงในเอกสาร Rmarkdown ก็ได้