Einstufungstest zum herunterladen

SentiRuEval-Datensatz enthält eine Stimmungsklassifizierung von Bewertungen für russische Sprache innerhalb von 4 Klassen `positiv`, `negativ`, `neutral`, `beide`. Datensätze zu vier verschiedenen Themen “Banken”, “Telecom”, “Restaurants”, “Cars” werden zu einem großen Datensatz zusammengefasst. Fragen zu Yahoo Answers, die als Informations- oder Konversationsdatensatz gekennzeichnet sind, enthalten eine Absichtsklassifizierung englischer Fragen in zwei Kategorien: informationsische (0) und konversationsfragen (1). Das Dataset enthält einige zusätzliche Metadaten, aber für das vorgestellte vortrainierte Modell wurden nur Titel der Fragen und Label verwendet. Einbettungen wurden aus dem Sprachmodell (ELMo) erhalten, das auf den Datensatz deeppavlov.models.sklearn.SklearnComponent (siehe hier) abgestimmt ist, ist ein universeller Wrapper für alle sklearn-Modelle, die angepasst werden können. Man kann model_class Parameter auf den vollständigen Namen des Modells festlegen (z. B. sklearn.feature_extraction.text:TfidfVectorizer oder sklearn.linear_model:LogisticRegression). Parameterinfer_method sollten auf Klassenmethode für Vorhersage festgelegt werden (Vorhersage, predict_proba, predict_log_proba oder Transformation). Was die Textklassifizierung in DeepPavlov betrifft, so weisen wir jeder Probe eine Liste von Beschriftungen zu, um sicherzustellen, dass die Ausgabe eines Klassifier-sklearn_component eine Liste von Beschriftungen für jedes Beispiel ist. Daher sollte man für den sklearn-Komponentenklassifier ensure_list_output auf true festlegen.

BERT-Klassifier (siehe hier) erstellt die BERT 8-Architektur für Klassifizierungsprobleme auf Tensorflow. train-images-idx3-ubyte.gz: Trainingsset-Bilder (9912422 Bytes) train-labels-idx1-ubyte.gz: Trainingssatzetiketten (28881 Bytes) t10k-images-idx3-uby te.gz: test set images (1648877 bytes) t10k-labels-idx1-ubyte.gz: test set labels (4542 bytes) AG News-Dataset enthält Themenklassifizierungstask für 5 Klassen (Bereich von 0 bis 4 Punkte Skala). Testsatz ist der erste von einer Website, gültig ist eine Stratified Division 1/5 aus dem Zugsatz von der Website mit 42 Samen, und der Zugsatz ist der Rest. Twitter Mokoron Datensatz enthält Stimmungsklassifizierung von russischen Tweets für positive und negative Antworten 2. Es wurde automatisch beschriftet. Zug, gültig und Testteilung erfolgt durch Hände (Stratified Division: 1/5 aus allen Datensätzen für Testsatz mit 42 Seed, dann 1/5 vom Rest für Validierungssatz mit 42 Seed). Zwei vortrainierte Modelle wurden auf demselben Datensatz, jedoch mit und ohne Vorverarbeitung trainiert. Der Hauptunterschied zwischen den Partituren wird dadurch verursacht, dass einige Symbole (die während der Vorverarbeitung gelöscht wurden) für die automatische Etikettierung verwendet wurden. Daher kann davon ausgegangen werden, dass das modell, das für vorverarbeitete Daten trainiert wird, auf Semantik basiert, während das Modell, das für unverarbeitete Daten trainiert wird, auf Interpunktion und Syntax basiert. deeppavlov.models.classifiers.KerasClassificationModel (siehe hier) enthält eine Reihe verschiedener neuronaler Netzwerkkonfigurationen für Klassifizierungsaufgaben. Bitte beachten Sie, dass jedes Modell seine eigenen Parameter hat, die in config angegeben werden sollen. Informationen zu Parametern finden Sie hier.

Eine der verfügbaren Netzwerkkonfigurationen kann in model_name Parameter in config ausgewählt werden. Nachfolgend wird die Liste der verfügbaren Modelle vorgestellt: Die ersten 5000 Beispiele des Testsets stammen aus dem ursprünglichen NIST-Trainingsset. Die letzten 5000 stammen aus dem ursprünglichen NIST-Testsatz. Die ersten 5000 sind sauberer und einfacher als die letzten 5000. Stanford Sentiment Treebank enthält 5-Klassen feinkörnige Stimmungsklassifizierung von Sätzen. Jeder Satz wurde zunächst mit einem Gleitkommawert von 0 bis 1 beschriftet. Für die feinkörnige Klassifizierung werden die Gleitkommabeschriftungen in ganzzahlige Beschriftungen nach den Intervallen [0, 0.2], (0.2, 0.4], (0.4, 0.6], (0.6, 0.8], (0.8, 1.0] konvertiert, was sehr negativen, negativen, neutralen, positiven, sehr positiven Klassen entspricht. Diese Nachricht enthält zwei Absichten (danke, bye). Zug-, Gültigkeits- und Testabteilung ist die gleiche wie auf der Website. RuSentiment-Datensatz enthält die Stimmungsklassifizierung von Social-Media-Beiträgen für russische Sprache innerhalb von 5 Klassen `positiv`, `negativ`, `neutral`, `speech`, `skip`.