Literatur zur Informationserschließung
Diese Datenbank enthält über 40.000 Dokumente zu Themen aus den Bereichen Formalerschließung – Inhaltserschließung – Information Retrieval.
© 2015 W. Gödert, TH Köln, Institut für Informationswissenschaft
/
Powered by litecat, BIS Oldenburg
(Stand: 03. März 2020)
Suche
Suchergebnisse
Treffer 1–20 von 713
sortiert nach:
-
1Geißler, S.: Maschinelles Lernen und NLP : Reif für die industrielle Anwendung!.
In: Information - Wissenschaft und Praxis. 70(2019) H.2/3, S.134-140.
Abstract: Anwendungen von maschinellen Lernverfahren (ML) haben in jüngster Zeit aufsehenerregende Durchbrüche bei einer ganzen Reihe von Aufgaben in der maschinellen Sprachverarbeitung (NLP) erzielt. Der Fokus vieler Arbeiten liegt hierbei in der Entwicklung immer besserer Modelle, während der Anteil der Aufgaben in praktischen Projekten, der sich nicht mit Modellbildung, sondern mit Themen wie Datenbereitstellung sowie Evaluierung, Wartung und Deployment von Modellen beschäftigt, oftmals noch nicht ausreichend Beachtung erfährt. Im Ergebnis fehlen gerade Unternehmen, die nicht die Möglichkeit haben, eigene Plattformen für den Einsatz von ML und NLP zu entwerfen, oft geeignete Werkzeuge und Best Practices. Es ist zeichnet sich ab, dass in den kommenden Monaten eine gerade diesen praktischen Fragen zugewandte Ingenieurssicht auf ML und ihren Einsatz im Unternehmen an Bedeutung gewinnen wird.
Inhalt: Vgl.: https://doi.org/10.1515/iwp-2019-2007.
Themenfeld: Computerlinguistik
Wissenschaftsfach: Sprachwissenschaft
-
2Rötzer, F.: Kann KI mit KI generierte Texte erkennen?.[13. März 2019].
In: https://www.heise.de/tp/features/Kann-KI-mit-KI-generierte-Texte-erkennen-4332657.html?view=print.
(Telepolis)
Abstract: OpenAI hat einen Algorithmus zur Textgenerierung angeblich nicht vollständig veröffentlicht, weil er so gut sei und Missbrauch und Täuschung ermöglicht. Das u.a. von Elon Musk und Peter Thiel gegründete KI-Unternehmen OpenAI hatte im Februar erklärt, man habe den angeblich am weitesten fortgeschrittenen Algorithmus zur Sprachverarbeitung entwickelt. Der Algorithmus wurde lediglich anhand von 40 Gigabyte an Texten oder an 8 Millionen Webseiten trainiert, das nächste Wort in einem vorgegebenen Textausschnitt vorherzusagen. Damit könne man zusammenhängende, sinnvolle Texte erzeugen, die vielen Anforderungen genügen, zudem könne damit rudimentär Leseverständnis, Antworten auf Fragen, Zusammenfassungen und Übersetzungen erzeugt werden, ohne dies trainiert zu haben.
Inhalt: Vgl.: http://www.heise.de/-4332657.
Themenfeld: Computerlinguistik
Wissenschaftsfach: Informatik
-
3Doval, Y. ; Gómez-Rodríguez, C.: Comparing neural- and N-gram-based language models for word segmentation.
In: Journal of the Association for Information Science and Technology. 70(2019) no.2, S.187-197.
Abstract: Word segmentation is the task of inserting or deleting word boundary characters in order to separate character sequences that correspond to words in some language. In this article we propose an approach based on a beam search algorithm and a language model working at the byte/character level, the latter component implemented either as an n-gram model or a recurrent neural network. The resulting system analyzes the text input with no word boundaries one token at a time, which can be a character or a byte, and uses the information gathered by the language model to determine if a boundary must be placed in the current position or not. Our aim is to use this system in a preprocessing step for a microtext normalization system. This means that it needs to effectively cope with the data sparsity present on this kind of texts. We also strove to surpass the performance of two readily available word segmentation systems: The well-known and accessible Word Breaker by Microsoft, and the Python module WordSegment by Grant Jenks. The results show that we have met our objectives, and we hope to continue to improve both the precision and the efficiency of our system in the future.
Inhalt: Vgl.: https://onlinelibrary.wiley.com/doi/10.1002/asi.24082.
Themenfeld: Computerlinguistik
-
4Voss, O.: Übersetzer überflüssig? : Sprachsoftware DeepL und Acrolinx.[07.02.2019].
In: https://www.tagesspiegel.de/wirtschaft/sprachsoftware-deepl-und-acrolinx-uebersetzer-ueberfluessig/23884348.html.
Abstract: Deutsche Sprachsoftware ist besser als Google. Sogar professionelle Übersetzer diskutieren schon, ob sie überflüssig werden.
Themenfeld: Computerlinguistik
Objekt: DeepL ; Acrolinx
-
5Lu, C. ; Bu, Y. ; Wang, J. ; Ding, Y. ; Torvik, V. ; Schnaars, M. ; Zhang, C.: Examining scientific writing styles from the perspective of linguistic complexity : a cross-level moderation model.
In: Journal of the Association for Information Science and Technology. 70(2019) no.5, S.462-475.
Abstract: Publishing articles in high-impact English journals is difficult for scholars around the world, especially for non-native English-speaking scholars (NNESs), most of whom struggle with proficiency in English. To uncover the differences in English scientific writing between native English-speaking scholars (NESs) and NNESs, we collected a large-scale data set containing more than 150,000 full-text articles published in PLoS between 2006 and 2015. We divided these articles into three groups according to the ethnic backgrounds of the first and corresponding authors, obtained by Ethnea, and examined the scientific writing styles in English from a two-fold perspective of linguistic complexity: (a) syntactic complexity, including measurements of sentence length and sentence complexity; and (b) lexical complexity, including measurements of lexical diversity, lexical density, and lexical sophistication. The observations suggest marginal differences between groups in syntactical and lexical complexity.
Inhalt: Vgl.: https://onlinelibrary.wiley.com/doi/10.1002/asi.24126.
Themenfeld: Computerlinguistik
-
6Holland, M.: Erstes wissenschaftliches Buch eines Algorithmus' veröffentlicht.
In: https://www.heise.de/newsticker/meldung/Erstes-wissenschaftliches-Buch-eines-Algorithmus-veroeffentlicht-4399858.html.
(Heise Online: News)
Abstract: Der Wissenschaftsverlag Springer Nature hat nach eigenen Angaben das erste Buch veröffentlicht, das von einem Algorithmus verfasst wurde. Bei Springer Nature ist das nach Angaben des Wissenschaftsverlags erste maschinengenerierte Buch erschienen: "Lithium-Ion Batteries - A Machine-Generated Summary of Current Research" biete einen Überblick über die neuesten Forschungspublikationen über Lithium-Ionen-Batterien, erklärte die Goethe-Universität Frankfurt am Main. Dort wurde im Bereich Angewandte Computerlinguistik unter der Leitung von Christian Chiarcos jenes Verfahren entwickelt, das Textinhalte automatisch analysiert und relevante Publikationen auswählen kann. Es heißt "Beta Writer" und steht als Autor über dem Buch.
Inhalt: Das Buch enthält eine Einleitung, in der die Vorgehensweise zur Erstellung des Buches geschildert wird.
Themenfeld: Computerlinguistik
Wissenschaftsfach: Informatik
-
7Muneer, I. ; Sharjeel, M. ; Iqbal, M. ; Adeel Nawab, R.M. ; Rayson, P.: CLEU - A Cross-language english-urdu corpus and benchmark for text reuse experiments.
In: Journal of the Association for Information Science and Technology. 70(2019) no.7, S.729-741.
Abstract: Text reuse is becoming a serious issue in many fields and research shows that it is much harder to detect when it occurs across languages. The recent rise in multi-lingual content on the Web has increased cross-language text reuse to an unprecedented scale. Although researchers have proposed methods to detect it, one major drawback is the unavailability of large-scale gold standard evaluation resources built on real cases. To overcome this problem, we propose a cross-language sentence/passage level text reuse corpus for the English-Urdu language pair. The Cross-Language English-Urdu Corpus (CLEU) has source text in English whereas the derived text is in Urdu. It contains in total 3,235 sentence/passage pairs manually tagged into three categories that is near copy, paraphrased copy, and independently written. Further, as a second contribution, we evaluate the Translation plus Mono-lingual Analysis method using three sets of experiments on the proposed dataset to highlight its usefulness. Evaluation results (f1=0.732 binary, f1=0.552 ternary classification) indicate that it is harder to detect cross-language real cases of text reuse, especially when the language pairs have unrelated scripts. The corpus is a useful benchmark resource for the future development and assessment of cross-language text reuse detection systems for the English-Urdu language pair.
Inhalt: Vgl.: https://onlinelibrary.wiley.com/doi/10.1002/asi.24074.
Themenfeld: Computerlinguistik
-
8Chen, L. ; Fang, H.: ¬An automatic method for ex-tracting innovative ideas based on the Scopus® database.
In: Knowledge organization. 46(2019) no.3, S.171-186.
Abstract: The novelty of knowledge claims in a research paper can be considered an evaluation criterion for papers to supplement citations. To provide a foundation for research evaluation from the perspective of innovativeness, we propose an automatic approach for extracting innovative ideas from the abstracts of technology and engineering papers. The approach extracts N-grams as candidates based on part-of-speech tagging and determines whether they are novel by checking the Scopus® database to determine whether they had ever been presented previously. Moreover, we discussed the distributions of innovative ideas in different abstract structures. To improve the performance by excluding noisy N-grams, a list of stopwords and a list of research description characteristics were developed. We selected abstracts of articles published from 2011 to 2017 with the topic of semantic analysis as the experimental texts. Excluding noisy N-grams, considering the distribution of innovative ideas in abstracts, and suitably combining N-grams can effectively improve the performance of automatic innovative idea extraction. Unlike co-word and co-citation analysis, innovative-idea extraction aims to identify the differences in a paper from all previously published papers.
Inhalt: DOI:10.57 71/0943-7444-2019-3-171.
Themenfeld: Informetrie ; Computerlinguistik
Objekt: Scopus
-
9¬Die Bibel als Stilkompass.
In: Spektrum der Wissenschaft. 2019, H.2, S.11.
Inhalt: "Die Heilige Schrift gibt es nicht nur in mehreren hundert Sprachen, sondern oft innerhalb eines Sprachraums auch in mehreren Varianten. Britische Leser konnen unter anderem zwischen der bewusst sehr einfach geschriebenen Bible in Basic English und der linguistisch komplexen King James Version aus dem 17. Jahrhundert wahlen. Die Fassungen unterscheiden sich in Satzlänge, Wortwahl sowie Förmlichkeit und sprechen so Menschen aus verschiedenen Kulturen und mit unterschiedlichem Bildungsstand an. Ein Team um Keith Carlson vom Dartmouth College will die insgesamt 34 englischsprachigen Versionen der Bibel nun dazu nutzen, um Computern unterschiedliche Stilformen beizubringen Bisher übersetzen entsprechende Programme zwar Fremdsprachen, zum Teil mit beeindruckender Genauigkeit. Oft scheitern sie aber, wenn sie einen Text zielsicher stilistisch verändern sollen, vor allem wenn es dabei um mehr als ein einzelnes Merkmal wie beispielsweise die Komplexität geht. Die Bibel eigne sich mit ihren rund 31 000 Versen wie kein anderes Werk für das Training von Übersetzungsprogrammen, argumentiert das Team um Carlson. Schließlich seien alle Fassungen sehr gewissenhaft von Menschen übersetzt und außerdem Vers für Vers durchnummeriert worden. Das erleichtere einer Maschine die Zuordnung und sei bei anderen umfangreichen Schriftquellen wie dem Werk von William Shakespeare oder der Wikipedia nicht zwangsläufig der Fall. Als erste Demonstration haben die Forscher zwei Algorithmen, von denen einer auf neuronalen Netzen basierte, mit acht frei im Internet verfügbaren Bibelversionen trainiert. Anschließend testeten sie, wie gut die beiden Programme Verse der Vorlagen in einen gewünschten Stil übertrugen, ohne dass die Software auf die anvisierte Fassung der Bibel zugreifen konnte. Insgesamt seien die automatischen Übersetzer dem Ziel schon recht nahegekommen, berichten die Forscher. Sie sehen ihre Arbeit aber erst als Startpunkt bei der Entwicklung einer künstlichen Intelligenz, die souverän zwischen verschiedenen Sprachstilen wechseln kann."
Anmerkung: Vgl.: R. soc. open sci. 5, 171920, 2018.
Themenfeld: Computerlinguistik
Objekt: Bibel
-
10Drewer, P. u. D. Pulitano (Hrsg.): Terminologie : Epochen - Schwerpunkte - Umsetzungen : zum 25-jährigen Bestehen des Rats für Deutschsprachige Terminologie.
Berlin : Springer Vieweg, 2019. XVII, 283 S.
ISBN 978-3-662-58948-9
(Kommunikation und Medienmanagement - Springer eBooks. Computer Science and Engineering)
Abstract: Alle, die sich mit fachsprachlichen Texten beschäftigen, beschäftigen sich automatisch auch mit Terminologie: Beim Lesen von Fachtexten nehmen sie die darin enthaltene Terminologie auf, beim Verfassen von Fachtexten verwenden oder produzieren sie Terminologie, beim Fachübersetzen übertragen sie Terminologie in andere Sprachen. Im Laufe der Zeit haben sich Methoden und Verfahren entwickelt, wie man professionell und effizient mit Terminologie arbeitet. Die Auseinandersetzung mit den Grundsätzen der Terminologiearbeit hat sich zu einer wissenschaftlichen Disziplin entwickelt. Der Rat für Deutschsprachige Terminologie (RaDT) wurde 1994 als Initiative der UNESCO-Kommissionen Deutschlands, Österreichs und der Schweiz gegründet, um terminologische Aktivitäten zu fördern. Zu seinem 25-jährigen Bestehen erscheint nun dieser Sammelband, der einen Überblick über das vielfältige Schaffen und das gesamte Themenspektrum der RaDT-Mitglieder bietet. Um die verschiedenen Perspektiven innerhalb der RaDT-Gemeinschaft angemessen wiederzugeben, umfasst der Band vier Themenbereiche: 1. Vielfalt an Epochen 2. Vielfalt an Schwerpunkten 3. Vielfalt an Umsetzungen (in öffentlichen Institutionen) 4. Vielfalt an Umsetzungen (in der Privatwirtschaft) Dieser Sammelband richtet sich an alle, die sich mit Terminologie, Terminologiewissenschaft oder Terminologiearbeit befassen, insbesondere in Unternehmensbereichen wie Sprachmanagement, Terminologiemanagement, Corporate Language, Wissensmanagement, sowie an Studierende und Wissenschaftler in den entsprechenden Disziplinen.
Anmerkung: Vgl.: https://www.springer.com/de/book/9783662589489.
Themenfeld: Computerlinguistik
Wissenschaftsfach: Sprachwissenschaft
LCSH: Computers ; Lexicology ; Communication ; Quality control ; Reliability ; Industrial safety ; Information Systems and Communication Service
DDC: 005.7
LCC: QA75.5-76.95
-
11Mengel, T.: Wie viel Terminologiearbeit steckt in der Übersetzung der Dewey-Dezimalklassifikation?.
In: Terminologie : Epochen - Schwerpunkte - Umsetzungen. Zum 25-jährigen Bestehen des Rats für Deutschsprachige Terminologie. Hrsg.: P. Drewer, u. D. Pulitano. Berlin : Springer Vieweg, 2019. S.193-210.
(Kommunikation und Medienmanagement - Springer eBooks. Computer Science and Engineering)
Abstract: Bibliotheken weltweit setzen die Dewey-Dezimalklassifikation (DDC) als Aufstellungssystematik und/oder zur Katalogsuche ein. Es existieren Übersetzungen der DDC in über 30 Sprachen. Als ein umfassendes System zur Ordnung von Wissen bestehend aus numerischen Notationen und sprachlichen Klasseninhalten bietet die DDC dem Terminologen bzw. der Terminologin ein weites Arbeits- und Forschungsfeld. Aber wie spielen Terminologiearbeit und Übersetzung zusammen, wenn, wie in diesem Fall, die Terminologie selbst das Übersetzungsobjekt ist? Der Aufsatz kann nicht alle Themen erschöpfend behandeln, aber er präsentiert Merkmale der DDC erstmals aus der Perspektive der DDC-Übersetzungsarbeit, und er wirft die Frage auf, ob dem Aspekt der Terminologiearbeit in der DDC-Übersetzung bislang tatsächlich genügend Aufmerksamkeit geschenkt wurde.
Anmerkung: Vgl.: https://www.springer.com/de/book/9783662589489.
Themenfeld: Computerlinguistik
Objekt: DDC Deutsch
-
12Budin, G.: Zum Entwicklungsstand der Terminologiewissenschaft.
In: Terminologie : Epochen - Schwerpunkte - Umsetzungen. Zum 25-jährigen Bestehen des Rats für Deutschsprachige Terminologie. Hrsg.: P. Drewer, u. D. Pulitano. Berlin : Springer Vieweg, 2019. S.7-19.
(Kommunikation und Medienmanagement - Springer eBooks. Computer Science and Engineering)
Abstract: In diesem Aufsatz wird der Entwicklungsstand der Terminologiewissenschaft auf 3 Ebenen analysiert: (1) in Bezug auf die Forschungsfragen, die in Forschungsprojekten, universitären Qualifizierungsarbeiten und anderen Forschungskontexten gestellt und auf der Basis empirischer Analysen beantwortet werden, darauf aufbauend (2) in Bezug auf die Methoden, die dabei verwendet werden, die Theorien, die solchen Arbeiten zugrunde gelegt werden, und die Paradigmen, in denen sich die Theorien und Methoden verorten lassen, sowie (3) in Bezug auf die darüber liegende Ebene der Terminologiewissenschaft als Disziplin. Auf allen 3 Ebenen lässt sich feststellen, dass der interdisziplinäre und multiperspektivische Charakter der Terminologiewissenschaft in den letzten Jahrzehnten zugenommen hat und sich weiter verstärkt.
Anmerkung: Vgl.: https://www.springer.com/de/book/9783662589489.
Themenfeld: Computerlinguistik
-
13Scherer Auberson, K.: Counteracting concept drift in natural language classifiers : proposal for an automated method.
Chur : Hochschule für Technik und Wirtschaft / Arbeitsbereich Informationswissenschaft, 2018. VIII, 88 S.
(Churer Schriften zur Informationswissenschaft / Arbeitsbereich Informationswissenschaft; Schrift 98)
Abstract: Natural Language Classifier helfen Unternehmen zunehmend dabei die Flut von Textdaten zu überwinden. Aber diese Classifier, einmal trainiert, verlieren mit der Zeit ihre Nützlichkeit. Sie bleiben statisch, aber die zugrundeliegende Domäne der Textdaten verändert sich: Ihre Genauigkeit nimmt aufgrund eines Phänomens ab, das als Konzeptdrift bekannt ist. Die Frage ist ob Konzeptdrift durch die Ausgabe eines Classifiers zuverlässig erkannt werden kann, und falls ja: ist es möglich dem durch nachtrainieren des Classifiers entgegenzuwirken. Es wird eine System-Implementierung mittels Proof-of-Concept vorgestellt, bei der das Konfidenzmass des Classifiers zur Erkennung von Konzeptdrift verwendet wird. Der Classifier wird dann iterativ neu trainiert, indem er Stichproben mit niedrigem Konfidenzmass auswählt, sie korrigiert und im Trainingsset der nächsten Iteration verwendet. Die Leistung des Classifiers wird über die Zeit gemessen, und die Leistung des Systems beobachtet. Basierend darauf werden schließlich Empfehlungen gegeben, die sich bei der Implementierung solcher Systeme als nützlich erweisen können.
Inhalt: Diese Publikation entstand im Rahmen einer Thesis zum Master of Science FHO in Business Administration, Major Information and Data Management. ; Vgl. unter: https://www.htwchur.ch/fileadmin/htw_chur/angewandte_zukunftstechnologien/SII/churer_schriften/CSI_98_Counteracting_Concept_Drift_in_Natural_Language_Classifiers.pdf.
Themenfeld: Computerlinguistik
-
14Reyes Ayala, B. ; Knudson, R. ; Chen, J. ; Cao, G. ; Wang, X.: Metadata records machine translation combining multi-engine outputs with limited parallel data.
In: Journal of the Association for Information Science and Technology. 69(2018) no.1, S.47-59.
Abstract: One way to facilitate Multilingual Information Access (MLIA) for digital libraries is to generate multilingual metadata records by applying Machine Translation (MT) techniques. Current online MT services are available and affordable, but are not always effective for creating multilingual metadata records. In this study, we implemented 3 different MT strategies and evaluated their performance when translating English metadata records to Chinese and Spanish. These strategies included combining MT results from 3 online MT systems (Google, Bing, and Yahoo!) with and without additional linguistic resources, such as manually-generated parallel corpora, and metadata records in the two target languages obtained from international partners. The open-source statistical MT platform Moses was applied to design and implement the three translation strategies. Human evaluation of the MT results using adequacy and fluency demonstrated that two of the strategies produced higher quality translations than individual online MT systems for both languages. Especially, adding small, manually-generated parallel corpora of metadata records significantly improved translation performance. Our study suggested an effective and efficient MT approach for providing multilingual services for digital collections.
Inhalt: Vgl.: http://onlinelibrary.wiley.com/doi/10.1002/asi.23925/full.
Themenfeld: Computerlinguistik
-
15Ghazzawi, N. ; Robichaud, B. ; Drouin, P. ; Sadat, F.: Automatic extraction of specialized verbal units.
In: Terminology. 23(2018) no.2, S.207-237.
Abstract: This paper presents a methodology for the automatic extraction of specialized Arabic, English and French verbs of the field of computing. Since nominal terms are predominant in terminology, our interest is to explore to what extent verbs can also be part of a terminological analysis. Hence, our objective is to verify how an existing extraction tool will perform when it comes to specialized verbs in a given specialized domain. Furthermore, we want to investigate any particularities that a language can represent regarding verbal terms from the automatic extraction perspective. Our choice to operate on three different languages reflects our desire to see whether the chosen tool can perform better on one language compared to the others. Moreover, given that Arabic is a morphologically rich and complex language, we consider investigating the results yielded by the extraction tool. The extractor used for our experiment is TermoStat (Drouin 2003). So far, our results show that the extraction of verbs of computing represents certain differences in terms of quality and particularities of these units in this specialized domain between the languages under question.
Anmerkung: Vgl.: doi:10.1075/term.00002.gha.
Themenfeld: Computerlinguistik
-
16Rötzer, F.: KI-Programm besser als Menschen im Verständnis natürlicher Sprache.[16. Januar 2018].
In: https://www.heise.de/tp/features/KI-Programm-besser-als-Menschen-im-Verstaendnis-natuerlicher-Sprache-3941786.html?view=print.
(Telepolis)
Abstract: Jetzt scheint es allmählich ans Eingemachte zu gehen. Ein von der chinesischen Alibaba-Gruppe entwickelte KI-Programm konnte erstmals Menschen in der Beantwortung von Fragen und dem Verständnis von Text schlagen. Die chinesische Regierung will das Land führend in der Entwicklung von Künstlicher Intelligenz machen und hat dafür eine nationale Strategie aufgestellt. Dazu ernannte das Ministerium für Wissenschaft und Technik die Internetkonzerne Baidu, Alibaba und Tencent sowie iFlyTek zum ersten nationalen Team für die Entwicklung der KI-Technik der nächsten Generation. Baidu ist zuständig für die Entwicklung autonomer Fahrzeuge, Alibaba für die Entwicklung von Clouds für "city brains" (Smart Cities sollen sich an ihre Einwohner und ihre Umgebung anpassen), Tencent für die Enwicklung von Computervision für medizinische Anwendungen und iFlyTec für "Stimmenintelligenz". Die vier Konzerne sollen offene Plattformen herstellen, die auch andere Firmen und Start-ups verwenden können. Überdies wird bei Peking für eine Milliarde US-Dollar ein Technologiepark für die Entwicklung von KI gebaut. Dabei geht es selbstverständlich nicht nur um zivile Anwendungen, sondern auch militärische. Noch gibt es in den USA mehr KI-Firmen, aber China liegt bereits an zweiter Stelle. Das Pentagon ist beunruhigt. Offenbar kommt China rasch vorwärts. Ende 2017 stellte die KI-Firma iFlyTek, die zunächst auf Stimmerkennung und digitale Assistenten spezialisiert war, einen Roboter vor, der den schriftlichen Test der nationalen Medizinprüfung erfolgreich bestanden hatte. Der Roboter war nicht nur mit immensem Wissen aus 53 medizinischen Lehrbüchern, 2 Millionen medizinischen Aufzeichnungen und 400.000 medizinischen Texten und Berichten gefüttert worden, er soll von Medizinexperten klinische Erfahrungen und Falldiagnosen übernommen haben. Eingesetzt werden soll er, in China herrscht vor allem auf dem Land, Ärztemangel, als Helfer, der mit der automatischen Auswertung von Patientendaten eine erste Diagnose erstellt und ansonsten Ärzten mit Vorschlägen zur Seite stehen.
Inhalt: Vgl.: http://www.heise.de/-3941786.
Themenfeld: Computerlinguistik
Wissenschaftsfach: Kognitionswissenschaft ; Informatik
-
17Çelebi, A. ; Özgür, A.: Segmenting hashtags and analyzing their grammatical structure.
In: Journal of the Association for Information Science and Technology. 69(2018) no.5, S.675-686.
Abstract: Originated as a label to mark specific tweets, hashtags are increasingly used to convey messages that people like to see in the trending hashtags list. Complex noun phrases and even sentences can be turned into a hashtag. Breaking hashtags into their words is a challenging task due to the irregular and compact nature of the language used in Twitter. In this study, we investigate feature-based machine learning and language model (LM)-based approaches for hashtag segmentation. Our results show that LM alone is not successful at segmenting nontrivial hashtags. However, when the N-best LM-based segmentations are incorporated as features into the feature-based approach, along with context-based features proposed in this study, state-of-the-art results in hashtag segmentation are achieved. In addition, we provide an analysis of over two million distinct hashtags, autosegmented by using our best configuration. The analysis reveals that half of all 60 million hashtag occurrences contain multiple words and 80% of sentiment is trapped inside multiword hashtags, justifying the need for hashtag segmentation. Furthermore, we analyze the grammatical structure of hashtags by parsing them and observe that 77% of the hashtags are noun-based, whereas 11.9% are verb-based.
Inhalt: Vgl.: https://onlinelibrary.wiley.com/doi/abs/10.1002/asi.23989.
Themenfeld: Metadaten ; Computerlinguistik
Objekt: Hashtag
-
18Korman, D.Z. ; Mack, E. ; Jett, J. ; Renear, A.H.: Defining textual entailment.
In: Journal of the Association for Information Science and Technology. 69(2018) no.6, S.763-772.
Abstract: Textual entailment is a relationship that obtains between fragments of text when one fragment in some sense implies the other fragment. The automation of textual entailment recognition supports a wide variety of text-based tasks, including information retrieval, information extraction, question answering, text summarization, and machine translation. Much ingenuity has been devoted to developing algorithms for identifying textual entailments, but relatively little to saying what textual entailment actually is. This article is a review of the logical and philosophical issues involved in providing an adequate definition of textual entailment. We show that many natural definitions of textual entailment are refuted by counterexamples, including the most widely cited definition of Dagan et al. We then articulate and defend the following revised definition: T textually entails H?=?df typically, a human reading T would be justified in inferring the proposition expressed by H from the proposition expressed by T. We also show that textual entailment is context-sensitive, nontransitive, and nonmonotonic.
Inhalt: Vgl.: https://onlinelibrary.wiley.com/doi/abs/10.1002/asi.24007.
Themenfeld: Computerlinguistik
-
19Agarwal, B. ; Ramampiaro, H. ; Langseth, H. ; Ruocco, M.: ¬A deep network model for paraphrase detection in short text messages.
In: Information processing and management. 54(2018) no.6, S.922-937.
Abstract: This paper is concerned with paraphrase detection, i.e., identifying sentences that are semantically identical. The ability to detect similar sentences written in natural language is crucial for several applications, such as text mining, text summarization, plagiarism detection, authorship authentication and question answering. Recognizing this importance, we study in particular how to address the challenges with detecting paraphrases in user generated short texts, such as Twitter, which often contain language irregularity and noise, and do not necessarily contain as much semantic information as longer clean texts. We propose a novel deep neural network-based approach that relies on coarse-grained sentence modelling using a convolutional neural network (CNN) and a recurrent neural network (RNN) model, combined with a specific fine-grained word-level similarity matching model. More specifically, we develop a new architecture, called DeepParaphrase, which enables to create an informative semantic representation of each sentence by (1) using CNN to extract the local region information in form of important n-grams from the sentence, and (2) applying RNN to capture the long-term dependency information. In addition, we perform a comparative study on state-of-the-art approaches within paraphrase detection. An important insight from this study is that existing paraphrase approaches perform well when applied on clean texts, but they do not necessarily deliver good performance against noisy texts, and vice versa. In contrast, our evaluation has shown that the proposed DeepParaphrase-based approach achieves good results in both types of texts, thus making it more robust and generic than the existing approaches.
Inhalt: Vgl.: https://doi.org/10.1016/j.ipm.2018.06.005.
Themenfeld: Computerlinguistik
-
20Belbachir, F. ; Boughanem, M.: Using language models to improve opinion detection.
In: Information processing and management. 54(2018) no.6, S.958-968.
Abstract: Opinion mining is one of the most important research tasks in the information retrieval research community. With the huge volume of opinionated data available on the Web, approaches must be developed to differentiate opinion from fact. In this paper, we present a lexicon-based approach for opinion retrieval. Generally, opinion retrieval consists of two stages: relevance to the query and opinion detection. In our work, we focus on the second state which itself focusses on detecting opinionated documents . We compare the document to be analyzed with opinionated sources that contain subjective information. We hypothesize that a document with a strong similarity to opinionated sources is more likely to be opinionated itself. Typical lexicon-based approaches treat and choose their opinion sources according to their test collection, then calculate the opinion score based on the frequency of subjective terms in the document. In our work, we use different open opinion collections without any specific treatment and consider them as a reference collection. We then use language models to determine opinion scores. The analysis document and reference collection are represented by different language models (i.e., Dirichlet, Jelinek-Mercer and two-stage models). These language models are generally used in information retrieval to represent the relationship between documents and queries. However, in our study, we modify these language models to represent opinionated documents. We carry out several experiments using Text REtrieval Conference (TREC) Blogs 06 as our analysis collection and Internet Movie Data Bases (IMDB), Multi-Perspective Question Answering (MPQA) and CHESLY as our reference collection. To improve opinion detection, we study the impact of using different language models to represent the document and reference collection alongside different combinations of opinion and retrieval scores. We then use this data to deduce the best opinion detection models. Using the best models, our approach improves on the best baseline of TREC Blog (baseline4) by 30%.
Inhalt: Vgl.: https://doi.org/10.1016/j.ipm.2018.07.001.
Themenfeld: Computerlinguistik