Parallel Corpora

Home » Parallel Corpora

Bilingual and Multilingual Parallel Corpora

Expert parallel corpora for nearly 400 language pairs and numerous multilingual combinations for training Language Models and boosting the performance of Machine Translation engines.

The corpora include bilingual and multilingual segments that consist of corpus-derived, manually curated full sentences and short phrases with their corresponding equivalents in other languages.

These segments are based on dictionary examples of usage, which have been created and refined to illustrate typical language patterns by expert linguists and translators worldwide, for general language use and 100 vertical domains.

The languages include: Arabic, Chinese (Simplified), Danish, Dutch, English, Finnish, French, German, Greek, Hebrew, Italian, Japanese, Korean, Latin, North Sami, Norwegian, Polish, Portuguese (Brazil / Portugal), Russian, Spanish, Swedish, and Turkish.

In addition to general language vocabulary, there are segments for more than one hundred vertical domains.

Parallel Corpora – Multilingual Sample (sport)

Arabic .تمركز كل المشتركين على خط الانطلاق

Chinese S. 所有的参赛者都在起跑线上.

Danish Alle konkurrencedeltagerne står på startlinjen.

Dutch Alle deelnemers staan aan de start.

English All the competitors are on the starting line.

French Tous les concurrents sont sur la ligne de départ.

German Alle Wettstreiter sind auf der Startlinie.

Greek Όλοι οι αθλητές είναι στη γραμμή της αφετηρίας.

Hebrew .כל המִתְחָרים עומדים על קו הזינוק

Italian Tutti i concorrenti sono sulla linea di partenza.

Japanese 全（すべ）ての選手がスタートラインに立（た）っている。

Norwegian Alle konkurrentene står på startlinjen.

Polish Wszyscy rywale są na linii startu.

Portuguese Br. Todos os competidores estão na linha de partida.

Portuguese Pt. Todos os concurrentes estão na linha de partida.

Russian Все уча́стники соревнова́ния собрали́сь на ста́рте.

Spanish Todos los competidores están en la linea de salída.

Swedish Alla deltagarna står på startlinjen.

Turkish Bütün yarışçılar start çizgisinin üstündeler.

Datasets

Arabic - Chinese Simplified

Segments: 15,982

Arabic - Portuguese Portugal

Segments: 15,990

Arabic - Danish

Segments: 39,351

Arabic - Dutch

Segments: 39,464

Arabic - English

Segments: 11,917

Arabic - French

Segments: 16,225

Arabic - German

Segments: 57,499

Arabic - Greek

Segments: 16,070

Arabic - Hebrew

Segments: 16355

Arabic - italian

Segments: 14,161

Arabic - Japanese

Segments: 18,138

Arabic - Norwegian

Segments: 39,124

Domains

Lexicala datasets classify word senses into more than 100 domains.

Acoustics
Music

Architecture
Cartography

Chemistry
Pharmacology

Culinary
Drinks

Electricity
Energy

Geography
Geology

Grammar
Linguistics

Literature
Publishing

Military
Police

Theology
Religion

Agriculture
Botanics
Environment

Anthropology
Archeology
Philosophy

Culture
History
Politics

Education
School
University

Games
Leisure time&hobbies

Geometry
Mathematics
Statistics

Maritime
Nautical
Oceanography

Mythology
Psychology
Sociology

Journalism
Law
Occupation

Astronomy
Meteorology
Optics
Physics

Clothing
Cosmetics
Dress
Fashion

Radio
Technology
Telephone
Television

Anatomy
Genetics
Health
Medicine
Physiology

Aeronautics
Aviation
Automobiles
Rail
Transportation

Anatomy
Biology
Ecology
Genetics
Physiology
Zoology

Administration
Advertising
Commerce
Economics
Finance
Industry
Marketing

Art
Cinema
Color
Dance
Entertainment
Music
Photography
Theatre

Computers
Data
Electronics
Engineering
Informatics
Internet
IT
Technical
Technology
Telecommunication

Construction
Family
Furniture
Hygiene
Measurements&units
Mechanics

Space
Sport
Time
Tourism

Font Resize

Contrast

Accessibility by WAH

Spanish	Hebrew
El navío atracó en la noche.	הספינה הגיעה למזח בלילה.
los macizos alpinos	רכסי האלפים
La masa leuda.	הבצק תּוֹפֵחַ.
¡No te preocupes!	אל תדאג
el bosquejo de una pintura	סקיצת ציור
La palabra “mesa” es de género femenino.	המילה “צלחת” היא ממין נקבה.
una obra de teatro en cinco actos	מחזה בחמש מערכות
la masa atomica de qualqer cosa	המסה האטומית של דבר מה
¿Cómo se dice “luna” en inglés?	איך אומרים “ירח” באנגלית?
abonarse al cable	לעשות מינוי לכבלים

ARABIC	CHINESE	domain
زوجي السابق	前夫
عقاب بالسجن عشرين سنة	判二十年的牢狱
مقطوعة موسيقية كلاسيكية لباخ	巴特前奏曲	music
ملأ دجاجة بالحشوة	把一只鸡塞满馅料	culinary
رسم دائرة	画圆	geometry
طرد شخصا ما من دولة	将某人从国家中驱逐
مفرد وجمع كلمة	一个词的单复数	grammar
عمل حاصل جمع عدة أرقام	做几笔数目的总额	mathematics
رياح شمالية	北风
منظر خيالي	不真实的景象

ARABIC	DANISH	domain
السفارة الألمانية في باريس	den tyske ambassade i Paris	politics
قامت الشرطة بالقبض على المجرم.	Politiet har fanget forbryderen.	law
تقع برلين على دائرة عرض 52 درجة شمالاً وعلى خط طول 13 درجة شرقًا.	Berlin ligger omtrent på 52 grader nordlig bredde og 13 grader østlig længde.	geography
تمركز كل المشتركين على خط الانطلاق.	Alle konkurrencedeltagerne står på startlinjen.	sport
قطة أليفة	en tillidsfuld kat
حزمة من الفجل/الثوم	et bundt purløg/radiser
قانون الجاذبية	tyngdeloven	mathematics, physics
“لقد فعلها!” – “كم هذا مبهر، خاصة مع كل المساعدة التي تلقاها!”	“Han klarede det!‟ – “Det tror pokker, med al den hjælp, han har fået!‟
بذور دوار الشمس	solsikkekerne	botanics
اشتد السيل على نحو مخيف، لكن هذا الرعب انتهى بعد دقائق معدودة.	Det haglede frygteligt, men efter et par minutter var ubehaget overstået.

ARABIC	DUTCH	domain
أغنية من ألبومها الغنائي الجديد	een lied uit haar laatste album	music
مراسلنا في المنطقة المنكوبة	onze verslaggever uit het crisisgebied	journalism
عش السنونو	zwaluwennest	zoology
الولايات المتحدة الأمريكية وحلفائها	de USA en haar bondgenoten	politics
يضخ القلب الدم عبر الأوعية الدموية.	Het hart pompt het bloed door de aderen.	anatomy
المفعول به يكون في حالة النصب.	Het directe object is accusatief.	grammar
روض نمرا	een tijger temmen
نشر خبرا	een bericht verspreiden
دراسة الحقوق	rechten studeren
مثل صيني	een Chinees spreekwoord

ARABIC	ENGLISH	domain
فيلم روائي	feature film	cinema, television
حالة طقس هادئة	calm weather	meteorology
الفيلم عبارة عن تقليد هزلي لأفلام الغرب الأمريكية القديمة.	The film is a parody of the old Hollywood westerns.	television