Η Microsoft κυκλοφορεί το Orca 2, ένα ζευγάρι μοντέλων μικρών γλωσσών που ξεπερνούν σε απόδοση τα μεγαλύτερα αντίστοιχα

By | November 21, 2023

Είστε έτοιμοι να φέρετε περισσότερη αναγνωρισιμότητα στην επωνυμία σας; Σκεφτείτε να γίνετε χορηγός της περιοδείας AI Impact Tour. Μάθετε περισσότερα για τις ευκαιρίες εδώ.


Ακόμη και όταν ο κόσμος είναι μάρτυρας της μάχης για την εξουσία και των μαζικών παραιτήσεων του OpenAI, η Microsoft, ένας μακροχρόνιος υποστηρικτής της κύριας τεχνητής νοημοσύνης, δεν επιβραδύνει τις προσπάθειές της για την τεχνητή νοημοσύνη. Σήμερα, ο ερευνητικός βραχίονας της εταιρείας με επικεφαλής τον Satya Nadella κυκλοφόρησε το Orca 2, ένα ζευγάρι μικρών γλωσσικών μοντέλων που ταιριάζουν ή υπερβαίνουν τα γλωσσικά μοντέλα πέντε έως δέκα φορές μεγαλύτερα, συμπεριλαμβανομένου του Llama-2 Chat-70B της Meta, όταν δοκιμάστηκε σε σύνθετες συλλογιστικές εργασίες. με ρυθμίσεις μηδενικής λήψης.

Τα μοντέλα είναι διαθέσιμα σε δύο μεγέθη, 7 δισεκατομμύρια και 13 δισεκατομμύρια παραμέτρους, και βασίζονται στην εργασία που έγινε στο αρχικό μοντέλο 13B Orca, το οποίο επέδειξε ισχυρές ικανότητες συλλογισμού μιμούμενοι βήμα προς βήμα ίχνη συλλογισμού μεγαλύτερων, πιο ικανών μοντέλων από μερικά μήνες πριν . .

«Με το Orca 2, συνεχίζουμε να αποδεικνύουμε ότι τα βελτιωμένα σήματα και οι μέθοδοι εκπαίδευσης μπορούν να επιτρέψουν σε μικρότερα μοντέλα γλώσσας να επιτύχουν βελτιωμένες δυνατότητες συλλογιστικής, που συνήθως απαντώνται μόνο σε πολύ μεγαλύτερα μοντέλα γλώσσας», έγραψαν ερευνητές της Microsoft σε κοινή ανάρτηση ιστολογίου.

Η εταιρεία έχει κάνει και τα δύο νέα μοντέλα ανοιχτού κώδικα για περαιτέρω έρευνα για την ανάπτυξη και την αξιολόγηση μικρότερων μοντέλων που μπορούν να έχουν εξίσου καλή απόδοση με μεγαλύτερα. Αυτή η εργασία μπορεί να προσφέρει στις επιχειρήσεις, ιδιαίτερα σε εκείνες με περιορισμένους πόρους, μια καλύτερη επιλογή για την αντιμετώπιση περιπτώσεων στοχευμένης χρήσης χωρίς να επενδύσουν πάρα πολλά στην υπολογιστική ικανότητα.

Εκδήλωση VB

Η ξενάγηση για τον αντίκτυπο της τεχνητής νοημοσύνης

Συνδεθείτε με την επιχειρηματική κοινότητα AI στην περιοδεία AI Impact του VentureBeat που έρχεται σε μια πόλη κοντά σας!

Μάθε περισσότερα

Διδάσκοντας σε μικρά μοντέλα πώς να σκέφτονται

Ενώ μεγάλα γλωσσικά μοντέλα όπως το GPT-4 εντυπωσίαζαν εδώ και πολύ καιρό τις επιχειρήσεις και τα άτομα με την ικανότητά τους να αιτιολογούν και να απαντούν σε περίπλοκες ερωτήσεις με επεξηγήσεις, οι μικρότεροι ομόλογοί τους δεν έχουν σε μεγάλο βαθμό αυτή την ικανότητα. Η Microsoft Research ξεκίνησε να καλύψει αυτό το κενό προσαρμόζοντας τα βασικά μοντέλα του Llama 2 σε ένα εξαιρετικά προσαρμοσμένο συνθετικό σύνολο δεδομένων.

Ωστόσο, αντί να εκπαιδεύσουν τα μικρά μοντέλα για να αναπαράγουν τη συμπεριφορά πιο ικανών μοντέλων – μια τεχνική που χρησιμοποιείται συνήθως, γνωστή ως μίμηση μάθησης, οι ερευνητές εκπαίδευσαν τα μοντέλα να χρησιμοποιούν διαφορετικές στρατηγικές λύσης για διαφορετικές εργασίες. Η ιδέα ήταν ότι η στρατηγική ενός μεγαλύτερου μοντέλου μπορεί να μην λειτουργεί πάντα τέλεια για ένα μικρότερο. Για παράδειγμα, το GPT-4 μπορεί να είναι σε θέση να απαντά απευθείας σε σύνθετες ερωτήσεις, αλλά ένα μικρότερο μοντέλο, χωρίς αυτό το είδος ικανότητας, μπορεί να ωφεληθεί αν χωρίσει την ίδια εργασία σε λίγα μόλις βήματα.

«Στο Orca 2 διδάσκουμε στο μοντέλο διάφορες τεχνικές συλλογιστικής (βήμα προς βήμα, θυμηθείτε και μετά δημιουργήστε, θυμηθείτε-λόγος-δημιουργώ, άμεση απόκριση κ.λπ.). Το πιο σημαντικό, στοχεύουμε να βοηθήσουμε το μοντέλο να μάθει να καθορίζει την πιο αποτελεσματική στρατηγική λύσης για κάθε εργασία», έγραψαν οι ερευνητές σε μια εργασία που δημοσιεύτηκε σήμερα. Τα δεδομένα εκπαίδευσης για το έργο ελήφθησαν από ένα πιο ικανό μοντέλο δασκάλου με τέτοιο τρόπο ώστε να διδάσκεται στο μοντέλο μαθητή να χειρίζεται και τις δύο πτυχές: πώς να χρησιμοποιεί μια στρατηγική συλλογιστικής και πότε ακριβώς να τη χρησιμοποιεί για μια δεδομένη εργασία.

Το Orca 2 αποδίδει καλύτερα από τα μεγαλύτερα μοντέλα

Όταν δοκιμάστηκαν σε 15 διαφορετικές παραμέτρους (σε ρυθμίσεις μηδενικής λήψης) που καλύπτουν πτυχές όπως η κατανόηση γλώσσας, η κοινή λογική, η συλλογιστική πολλαπλών βημάτων, η επίλυση μαθηματικών προβλημάτων, η κατανόηση ανάγνωσης, η περίληψη και η ακρίβεια, τα μοντέλα Orca 2 παρήγαγαν εκπληκτικά αποτελέσματα με ευρεία αντιστοίχιση ή υπερβαίνει τα μοντέλα πέντε έως δέκα φορές μεγαλύτερα σε μέγεθος.

Ο μέσος όρος όλων των αποτελεσμάτων αναφοράς έδειξε ότι τα Orca 2 7B και 13B ξεπέρασαν τα Llama-2-Chat-13B και 70B και τα WizardLM-13B και 70B. Μόνο στο σημείο αναφοράς GSM8K, το οποίο αποτελείται από 8,5 χιλιάδες μαθηματικά προβλήματα δημοτικού σχολείου υψηλής ποιότητας, το WizardLM-70B είχε καλύτερες επιδόσεις από τα μοντέλα Orca και Llama.

Αποτελέσματα αναφοράς Orca 2

Αν και η απόδοση είναι καλά νέα για τις εταιρικές ομάδες που μπορεί να θέλουν ένα μικρό μοντέλο υψηλής απόδοσης για οικονομικά αποδοτικές επιχειρηματικές εφαρμογές, είναι σημαντικό να σημειωθεί ότι αυτά τα μοντέλα ενδέχεται επίσης να κληρονομούν περιορισμούς κοινούς σε άλλα μοντέλα γλώσσας πέρα ​​από αυτούς της βασικής γλώσσας. μοντέλο βάσει του οποίου αναπτύχθηκαν.

Η Microsoft πρόσθεσε ότι η τεχνική που χρησιμοποιείται για τη δημιουργία των προτύπων Orca μπορεί επίσης να χρησιμοποιηθεί σε άλλα διαθέσιμα βασικά πρότυπα.

«Αν και έχει αρκετούς περιορισμούς…, οι δυνατότητες της Orca 2 για μελλοντικές εξελίξεις είναι εμφανείς, ειδικά στη βελτίωση της λογικής, της εξειδίκευσης, του ελέγχου και της ασφάλειας μικρότερων μοντέλων. Η χρήση προσεκτικά φιλτραρισμένων συνθετικών δεδομένων για μετά την προπόνηση αναδεικνύεται ως βασική στρατηγική σε αυτές τις βελτιώσεις. Καθώς τα μεγαλύτερα μοντέλα συνεχίζουν να υπερέχουν, η δουλειά μας με την Orca 2 σηματοδοτεί ένα σημαντικό βήμα στη διαφοροποίηση των εφαρμογών και των επιλογών υλοποίησης για μοντέλα γλώσσας», έγραψε η ερευνητική ομάδα.

Άλλα μικρά μοντέλα υψηλών επιδόσεων είναι στον ορίζοντα

Με την κυκλοφορία των μοντέλων ανοιχτού κώδικα Orca 2 και τη συνεχιζόμενη έρευνα στο πεδίο, είναι ασφαλές να πούμε ότι τα μοντέλα μικρών γλωσσών με καλύτερη απόδοση πιθανότατα θα εμφανιστούν στο εγγύς μέλλον.

Μόλις πριν από λίγες εβδομάδες, το κινέζικο unicorn 01.AI, που ιδρύθηκε από τον βετεράνο ειδικό της τεχνητής νοημοσύνης Kai-Fu Lee, έκανε επίσης ένα σημαντικό βήμα σε αυτόν τον τομέα με την κυκλοφορία ενός μοντέλου παραμέτρων 34 δισεκατομμυρίων που υποστηρίζει κινέζικα και αγγλικά και ξεπερνά τις επιδόσεις του κινεζικού μοντέλου. 70 δισεκατομμύρια Llama 2 και 180 δισεκατομμύρια ομολόγους Falcon. Η εκκίνηση προσφέρει επίσης μια μικρότερη επιλογή που έχει εκπαιδευτεί με 6 δισεκατομμύρια παραμέτρους και έχει αξιοπρεπή απόδοση σε ευρέως χρησιμοποιούμενα σημεία αναφοράς μοντέλων AI/ML.

Η Mistral AI, η εξάμηνη startup του Παρισιού που έγινε πρωτοσέλιδο με το μοναδικό της λογότυπο Word Art και ένα ρεκόρ 118 εκατομμυρίων δολαρίων, προσφέρει επίσης ένα μοντέλο 7 δισεκατομμυρίων παραμέτρων που ξεπερνά τις μεγαλύτερες προσφορές, συμπεριλαμβανομένου του Llama 2 13B by Meta ( ένα από τα μικρότερα από τα τελευταία μοντέλα της Meta).

Η αποστολή του VentureBeat Πρέπει να είναι μια ψηφιακή αγορά όπου οι υπεύθυνοι λήψης τεχνικών αποφάσεων μπορούν να αποκτήσουν γνώσεις σχετικά με τη μετασχηματιστική επιχειρηματική τεχνολογία και να πραγματοποιήσουν συναλλαγές. Ανακαλύψτε τις Ενημερώσεις μας.

Leave a Reply

Your email address will not be published. Required fields are marked *