Microsoft har släppt ett nytt verktyg med öppen källkod kallat Markitdown. Det är utvecklat i Python och gör det enkelt att konvertera ett antal vanliga dokumentformat till det populära Markdown-formatet.

Formaten är bland annat Word, Excel, Powerpoint, PDF, bilder (EXIF-data och text via OCR), ljud (EXIF och automatisk transkribering) och olika enklare textformat som CSV och JSON. Det går även att använda i form av ett Python-bibliotek och kan då ställas in att använda en stor språkmodell för att beskriva en bild och formatera beskrivningen med Markdown.

Markitdown installeras enklast med Pythons pakethanterare PIP och kommandot pip install markitdown för den som vill använda det via Terminal. Ett exempelkommando blir markitdown test.xlsx > exempel.md.

För den som bara vill testa att konvertera en PDF-fil eller ett Office-dokument har en utvecklare lagt upp en webbversion av verktyget där du kan släppa en fil och sedan ladda ned resultatet.

Python-biblioteket har också ett enkelt syntax. Så här konverterar du exempelvis en fil med namnet test.xlsx:

Klicka för mer information

from markitdown import MarkItDown

markitdown = MarkItDown()
result = markitdown.convert("test.xlsx")
print(result.text_content)

Visa mer